XML
文字エンコーディング方式 - XML
文字エンコーディング方式は、コンピュータが文字をデジタルデータとして扱うための符号化規格です。ASCII、UTF-8、UTF-16、Shift_JIS、EUC-JPなど様々な方式があり、それぞれ異なる文字セット、バイト構造、互換性を持ちます。現代ではUTF-8が国際標準として広く採用されていますが、日本語環境では従来のShift_JISやEUC-JPも依然として使用されています。
文字エンコーディング
Unicode
UTF-8
ASCII
Shift_JIS
EUC-JP
文字コード
国際化
<?xml version="1.0" encoding="UTF-8"?>
<items>
<item>
<code>ASCII</code>
<slug>ascii</slug>
<name>ASCII</name>
<description>アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。</description>
<asciiCompatible>true</asciiCompatible>
<byteStructure>固定長(1バイト、7ビット使用)</byteStructure>
<japaneseSupport>false</japaneseSupport>
<maxCharacters>128</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1963</yearIntroduced>
</item>
<item>
<code>UTF-8</code>
<slug>utf-8</slug>
<name>UTF-8</name>
<description>Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。</description>
<asciiCompatible>true</asciiCompatible>
<byteStructure>可変長(1〜4バイト)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>1114112</maxCharacters>
<usage>standard</usage>
<yearIntroduced>1993</yearIntroduced>
</item>
<item>
<code>UTF-16</code>
<slug>utf-16</slug>
<name>UTF-16</name>
<description>Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。</description>
<asciiCompatible>false</asciiCompatible>
<byteStructure>可変長(2または4バイト)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>1114112</maxCharacters>
<usage>system</usage>
<yearIntroduced>1996</yearIntroduced>
</item>
<item>
<code>UTF-32</code>
<slug>utf-32</slug>
<name>UTF-32</name>
<description>Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。</description>
<asciiCompatible>false</asciiCompatible>
<byteStructure>固定長(4バイト)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>1114112</maxCharacters>
<usage>internal</usage>
<yearIntroduced>1996</yearIntroduced>
</item>
<item>
<code>Shift_JIS</code>
<slug>shift-jis</slug>
<name>Shift_JIS</name>
<description>日本語のレガシーエンコーディング。Windowsで広く使用されていました。</description>
<asciiCompatible>false</asciiCompatible>
<byteStructure>可変長(1〜2バイト)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>10000</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1978</yearIntroduced>
</item>
<item>
<code>EUC-JP</code>
<slug>euc-jp</slug>
<name>EUC-JP</name>
<description>Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。</description>
<asciiCompatible>true</asciiCompatible>
<byteStructure>可変長(1〜3バイト)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>11000</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1988</yearIntroduced>
</item>
<item>
<code>ISO-2022-JP</code>
<slug>iso-2022-jp</slug>
<name>ISO-2022-JP</name>
<description>7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。</description>
<asciiCompatible>true</asciiCompatible>
<byteStructure>7ビット可変長(エスケープシーケンス使用)</byteStructure>
<japaneseSupport>true</japaneseSupport>
<maxCharacters>10000</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1983</yearIntroduced>
</item>
<item>
<code>GB2312</code>
<slug>gb2312</slug>
<name>GB2312</name>
<description>中国語簡体字の国家標準エンコーディング。</description>
<asciiCompatible>false</asciiCompatible>
<byteStructure>可変長(1〜2バイト)</byteStructure>
<japaneseSupport>false</japaneseSupport>
<maxCharacters>7445</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1980</yearIntroduced>
</item>
<item>
<code>Big5</code>
<slug>big5</slug>
<name>Big5</name>
<description>台湾・香港で使用される繁体字中国語のエンコーディング。</description>
<asciiCompatible>false</asciiCompatible>
<byteStructure>可変長(1〜2バイト)</byteStructure>
<japaneseSupport>false</japaneseSupport>
<maxCharacters>13000</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1984</yearIntroduced>
</item>
<item>
<code>Windows-1252</code>
<slug>windows-1252</slug>
<name>Windows-1252</name>
<description>Windowsで使用される西欧言語用のエンコーディング。</description>
<asciiCompatible>true</asciiCompatible>
<byteStructure>固定長(1バイト)</byteStructure>
<japaneseSupport>false</japaneseSupport>
<maxCharacters>256</maxCharacters>
<usage>legacy</usage>
<yearIntroduced>1992</yearIntroduced>
</item>
</items>