XML

文字エンコーディング - XML

文字エンコーディングは、文字や記号をコンピュータが処理できるバイト列に変換するための規則体系です。ASCIIやUTF-8などの国際標準から、Shift_JISやEUC-JPなどの日本語専用エンコーディング、各国固有のコードページまで多様な方式が存在します。現在はUnicodeを基盤としたUTF-8が世界標準として広く採用されていますが、レガシーシステムとの互換性維持のため、様々なエンコーディング方式の理解が依然として重要です。

文字コード Unicode UTF-8 文字セット 国際化 テキスト処理
<?xml version="1.0" encoding="UTF-8"?>
<items>
  <item>
    <code>utf-8</code>
    <slug>utf-8</slug>
    <name>UTF-8</name>
    <description>Unicodeを1〜4バイトの可変長で表現する文字エンコーディングです。</description>
    <category>Unicode系</category>
    <ianaName>UTF-8</ianaName>
    <mibEnum>106</mibEnum>
  </item>
  <item>
    <code>utf-16</code>
    <slug>utf-16</slug>
    <name>UTF-16</name>
    <description>Unicodeを16ビット単位で表現する文字エンコーディングです。</description>
    <category>Unicode系</category>
    <ianaName>UTF-16</ianaName>
    <mibEnum>1015</mibEnum>
  </item>
  <item>
    <code>utf-32</code>
    <slug>utf-32</slug>
    <name>UTF-32</name>
    <description>Unicodeを固定長32ビット(4バイト)で表現する文字エンコーディングです。</description>
    <category>Unicode系</category>
    <ianaName>UTF-32</ianaName>
    <mibEnum>1017</mibEnum>
  </item>
  <item>
    <code>us-ascii</code>
    <slug>us-ascii</slug>
    <name>US-ASCII</name>
    <description>7ビットで128文字を定義する基本的な文字エンコーディングです。</description>
    <category>ASCII系</category>
    <ianaName>US-ASCII</ianaName>
    <mibEnum>3</mibEnum>
  </item>
  <item>
    <code>iso-8859-1</code>
    <slug>iso-8859-1</slug>
    <name>ISO-8859-1 (Latin-1)</name>
    <description>西ヨーロッパ言語向けの8ビット文字エンコーディングです。</description>
    <category>ISO-8859系</category>
    <ianaName>ISO-8859-1</ianaName>
    <mibEnum>4</mibEnum>
  </item>
  <item>
    <code>iso-8859-2</code>
    <slug>iso-8859-2</slug>
    <name>ISO-8859-2 (Latin-2)</name>
    <description>中央ヨーロッパ言語向けの8ビット文字エンコーディングです。</description>
    <category>ISO-8859系</category>
    <ianaName>ISO-8859-2</ianaName>
    <mibEnum>5</mibEnum>
  </item>
  <item>
    <code>iso-8859-5</code>
    <slug>iso-8859-5</slug>
    <name>ISO-8859-5 (Cyrillic)</name>
    <description>キリル文字向けの8ビット文字エンコーディングです。</description>
    <category>ISO-8859系</category>
    <ianaName>ISO-8859-5</ianaName>
    <mibEnum>8</mibEnum>
  </item>
  <item>
    <code>iso-8859-7</code>
    <slug>iso-8859-7</slug>
    <name>ISO-8859-7 (Greek)</name>
    <description>現代ギリシャ語向けの8ビット文字エンコーディングです。</description>
    <category>ISO-8859系</category>
    <ianaName>ISO-8859-7</ianaName>
    <mibEnum>10</mibEnum>
  </item>
  <item>
    <code>iso-8859-15</code>
    <slug>iso-8859-15</slug>
    <name>ISO-8859-15 (Latin-9)</name>
    <description>ISO-8859-1の改訂版でユーロ記号を含む8ビット文字エンコーディングです。</description>
    <category>ISO-8859系</category>
    <ianaName>ISO-8859-15</ianaName>
    <mibEnum>111</mibEnum>
  </item>
  <item>
    <code>shift_jis</code>
    <slug>shift-jis</slug>
    <name>Shift_JIS</name>
    <description>WindowsとMacintoshで標準的に使用される日本語文字エンコーディングです。</description>
    <category>日本語</category>
    <ianaName>Shift_JIS</ianaName>
    <mibEnum>17</mibEnum>
  </item>
  <item>
    <code>euc-jp</code>
    <slug>euc-jp</slug>
    <name>EUC-JP</name>
    <description>Unix系システムで使用される日本語文字エンコーディングです。</description>
    <category>日本語</category>
    <ianaName>EUC-JP</ianaName>
    <mibEnum>18</mibEnum>
  </item>
  <item>
    <code>iso-2022-jp</code>
    <slug>iso-2022-jp</slug>
    <name>ISO-2022-JP</name>
    <description>7ビット環境での日本語電子メール用エンコーディングです。</description>
    <category>日本語</category>
    <ianaName>ISO-2022-JP</ianaName>
    <mibEnum>39</mibEnum>
  </item>
  <item>
    <code>gb2312</code>
    <slug>gb2312</slug>
    <name>GB2312</name>
    <description>中国簡体字の基本的な文字エンコーディングです。</description>
    <category>中国語</category>
    <ianaName>GB2312</ianaName>
    <mibEnum>2025</mibEnum>
  </item>
  <item>
    <code>gbk</code>
    <slug>gbk</slug>
    <name>GBK</name>
    <description>GB2312を拡張した中国語文字エンコーディングです。</description>
    <category>中国語</category>
    <ianaName>GBK</ianaName>
    <mibEnum>113</mibEnum>
  </item>
  <item>
    <code>gb18030</code>
    <slug>gb18030</slug>
    <name>GB18030</name>
    <description>中国の現行国家標準で、全てのUnicode文字を表現可能です。</description>
    <category>中国語</category>
    <ianaName>GB18030</ianaName>
    <mibEnum>114</mibEnum>
  </item>
  <item>
    <code>big5</code>
    <slug>big5</slug>
    <name>Big5</name>
    <description>台湾・香港で使用される繁体字中国語文字エンコーディングです。</description>
    <category>中国語</category>
    <ianaName>Big5</ianaName>
    <mibEnum>2026</mibEnum>
  </item>
  <item>
    <code>euc-kr</code>
    <slug>euc-kr</slug>
    <name>EUC-KR</name>
    <description>Unix系システムで使用される韓国語文字エンコーディングです。</description>
    <category>韓国語</category>
    <ianaName>EUC-KR</ianaName>
    <mibEnum>38</mibEnum>
  </item>
  <item>
    <code>iso-2022-kr</code>
    <slug>iso-2022-kr</slug>
    <name>ISO-2022-KR</name>
    <description>7ビット環境での韓国語電子メール用エンコーディングです。</description>
    <category>韓国語</category>
    <ianaName>ISO-2022-KR</ianaName>
    <mibEnum>37</mibEnum>
  </item>
  <item>
    <code>koi8-r</code>
    <slug>koi8-r</slug>
    <name>KOI8-R</name>
    <description>ロシア語キリル文字用の8ビット文字エンコーディングです。</description>
    <category>キリル文字</category>
    <ianaName>KOI8-R</ianaName>
    <mibEnum>2084</mibEnum>
  </item>
  <item>
    <code>koi8-u</code>
    <slug>koi8-u</slug>
    <name>KOI8-U</name>
    <description>ウクライナ語キリル文字用の8ビット文字エンコーディングです。</description>
    <category>キリル文字</category>
    <ianaName>KOI8-U</ianaName>
    <mibEnum>2088</mibEnum>
  </item>
  <item>
    <code>windows-1252</code>
    <slug>windows-1252</slug>
    <name>Windows-1252</name>
    <description>Microsoft Windowsで使用される西ヨーロッパ言語向け8ビットエンコーディングです。</description>
    <category>Windowsコードページ</category>
    <ianaName>windows-1252</ianaName>
    <mibEnum>2252</mibEnum>
  </item>
</items>