XML

文字エンコーディング方式 - XML

文字エンコーディング方式は、コンピュータが文字をデジタルデータとして扱うための符号化規格です。ASCII、UTF-8、UTF-16、Shift_JIS、EUC-JPなど様々な方式があり、それぞれ異なる文字セット、バイト構造、互換性を持ちます。現代ではUTF-8が国際標準として広く採用されていますが、日本語環境では従来のShift_JISやEUC-JPも依然として使用されています。

文字エンコーディング Unicode UTF-8 ASCII Shift_JIS EUC-JP 文字コード 国際化
<?xml version="1.0" encoding="UTF-8"?>
<items>
  <item>
    <code>ASCII</code>
    <slug>ascii</slug>
    <name>ASCII</name>
    <description>アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。</description>
    <asciiCompatible>true</asciiCompatible>
    <byteStructure>固定長(1バイト、7ビット使用)</byteStructure>
    <japaneseSupport>false</japaneseSupport>
    <maxCharacters>128</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1963</yearIntroduced>
  </item>
  <item>
    <code>UTF-8</code>
    <slug>utf-8</slug>
    <name>UTF-8</name>
    <description>Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。</description>
    <asciiCompatible>true</asciiCompatible>
    <byteStructure>可変長(1〜4バイト)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>1114112</maxCharacters>
    <usage>standard</usage>
    <yearIntroduced>1993</yearIntroduced>
  </item>
  <item>
    <code>UTF-16</code>
    <slug>utf-16</slug>
    <name>UTF-16</name>
    <description>Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。</description>
    <asciiCompatible>false</asciiCompatible>
    <byteStructure>可変長(2または4バイト)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>1114112</maxCharacters>
    <usage>system</usage>
    <yearIntroduced>1996</yearIntroduced>
  </item>
  <item>
    <code>UTF-32</code>
    <slug>utf-32</slug>
    <name>UTF-32</name>
    <description>Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。</description>
    <asciiCompatible>false</asciiCompatible>
    <byteStructure>固定長(4バイト)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>1114112</maxCharacters>
    <usage>internal</usage>
    <yearIntroduced>1996</yearIntroduced>
  </item>
  <item>
    <code>Shift_JIS</code>
    <slug>shift-jis</slug>
    <name>Shift_JIS</name>
    <description>日本語のレガシーエンコーディング。Windowsで広く使用されていました。</description>
    <asciiCompatible>false</asciiCompatible>
    <byteStructure>可変長(1〜2バイト)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>10000</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1978</yearIntroduced>
  </item>
  <item>
    <code>EUC-JP</code>
    <slug>euc-jp</slug>
    <name>EUC-JP</name>
    <description>Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。</description>
    <asciiCompatible>true</asciiCompatible>
    <byteStructure>可変長(1〜3バイト)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>11000</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1988</yearIntroduced>
  </item>
  <item>
    <code>ISO-2022-JP</code>
    <slug>iso-2022-jp</slug>
    <name>ISO-2022-JP</name>
    <description>7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。</description>
    <asciiCompatible>true</asciiCompatible>
    <byteStructure>7ビット可変長(エスケープシーケンス使用)</byteStructure>
    <japaneseSupport>true</japaneseSupport>
    <maxCharacters>10000</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1983</yearIntroduced>
  </item>
  <item>
    <code>GB2312</code>
    <slug>gb2312</slug>
    <name>GB2312</name>
    <description>中国語簡体字の国家標準エンコーディング。</description>
    <asciiCompatible>false</asciiCompatible>
    <byteStructure>可変長(1〜2バイト)</byteStructure>
    <japaneseSupport>false</japaneseSupport>
    <maxCharacters>7445</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1980</yearIntroduced>
  </item>
  <item>
    <code>Big5</code>
    <slug>big5</slug>
    <name>Big5</name>
    <description>台湾・香港で使用される繁体字中国語のエンコーディング。</description>
    <asciiCompatible>false</asciiCompatible>
    <byteStructure>可変長(1〜2バイト)</byteStructure>
    <japaneseSupport>false</japaneseSupport>
    <maxCharacters>13000</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1984</yearIntroduced>
  </item>
  <item>
    <code>Windows-1252</code>
    <slug>windows-1252</slug>
    <name>Windows-1252</name>
    <description>Windowsで使用される西欧言語用のエンコーディング。</description>
    <asciiCompatible>true</asciiCompatible>
    <byteStructure>固定長(1バイト)</byteStructure>
    <japaneseSupport>false</japaneseSupport>
    <maxCharacters>256</maxCharacters>
    <usage>legacy</usage>
    <yearIntroduced>1992</yearIntroduced>
  </item>
</items>