XML
文字エンコーディング - XML
文字エンコーディングは、文字や記号をコンピュータが処理できるバイト列に変換するための規則体系です。ASCIIやUTF-8などの国際標準から、Shift_JISやEUC-JPなどの日本語専用エンコーディング、各国固有のコードページまで多様な方式が存在します。現在はUnicodeを基盤としたUTF-8が世界標準として広く採用されていますが、レガシーシステムとの互換性維持のため、様々なエンコーディング方式の理解が依然として重要です。
文字コード
Unicode
UTF-8
文字セット
国際化
テキスト処理
<?xml version="1.0" encoding="UTF-8"?>
<items>
<item>
<code>utf-8</code>
<slug>utf-8</slug>
<name>UTF-8</name>
<description>Unicodeを1〜4バイトの可変長で表現する文字エンコーディングです。</description>
<category>Unicode系</category>
<ianaName>UTF-8</ianaName>
<mibEnum>106</mibEnum>
</item>
<item>
<code>utf-16</code>
<slug>utf-16</slug>
<name>UTF-16</name>
<description>Unicodeを16ビット単位で表現する文字エンコーディングです。</description>
<category>Unicode系</category>
<ianaName>UTF-16</ianaName>
<mibEnum>1015</mibEnum>
</item>
<item>
<code>utf-32</code>
<slug>utf-32</slug>
<name>UTF-32</name>
<description>Unicodeを固定長32ビット(4バイト)で表現する文字エンコーディングです。</description>
<category>Unicode系</category>
<ianaName>UTF-32</ianaName>
<mibEnum>1017</mibEnum>
</item>
<item>
<code>us-ascii</code>
<slug>us-ascii</slug>
<name>US-ASCII</name>
<description>7ビットで128文字を定義する基本的な文字エンコーディングです。</description>
<category>ASCII系</category>
<ianaName>US-ASCII</ianaName>
<mibEnum>3</mibEnum>
</item>
<item>
<code>iso-8859-1</code>
<slug>iso-8859-1</slug>
<name>ISO-8859-1 (Latin-1)</name>
<description>西ヨーロッパ言語向けの8ビット文字エンコーディングです。</description>
<category>ISO-8859系</category>
<ianaName>ISO-8859-1</ianaName>
<mibEnum>4</mibEnum>
</item>
<item>
<code>iso-8859-2</code>
<slug>iso-8859-2</slug>
<name>ISO-8859-2 (Latin-2)</name>
<description>中央ヨーロッパ言語向けの8ビット文字エンコーディングです。</description>
<category>ISO-8859系</category>
<ianaName>ISO-8859-2</ianaName>
<mibEnum>5</mibEnum>
</item>
<item>
<code>iso-8859-5</code>
<slug>iso-8859-5</slug>
<name>ISO-8859-5 (Cyrillic)</name>
<description>キリル文字向けの8ビット文字エンコーディングです。</description>
<category>ISO-8859系</category>
<ianaName>ISO-8859-5</ianaName>
<mibEnum>8</mibEnum>
</item>
<item>
<code>iso-8859-7</code>
<slug>iso-8859-7</slug>
<name>ISO-8859-7 (Greek)</name>
<description>現代ギリシャ語向けの8ビット文字エンコーディングです。</description>
<category>ISO-8859系</category>
<ianaName>ISO-8859-7</ianaName>
<mibEnum>10</mibEnum>
</item>
<item>
<code>iso-8859-15</code>
<slug>iso-8859-15</slug>
<name>ISO-8859-15 (Latin-9)</name>
<description>ISO-8859-1の改訂版でユーロ記号を含む8ビット文字エンコーディングです。</description>
<category>ISO-8859系</category>
<ianaName>ISO-8859-15</ianaName>
<mibEnum>111</mibEnum>
</item>
<item>
<code>shift_jis</code>
<slug>shift-jis</slug>
<name>Shift_JIS</name>
<description>WindowsとMacintoshで標準的に使用される日本語文字エンコーディングです。</description>
<category>日本語</category>
<ianaName>Shift_JIS</ianaName>
<mibEnum>17</mibEnum>
</item>
<item>
<code>euc-jp</code>
<slug>euc-jp</slug>
<name>EUC-JP</name>
<description>Unix系システムで使用される日本語文字エンコーディングです。</description>
<category>日本語</category>
<ianaName>EUC-JP</ianaName>
<mibEnum>18</mibEnum>
</item>
<item>
<code>iso-2022-jp</code>
<slug>iso-2022-jp</slug>
<name>ISO-2022-JP</name>
<description>7ビット環境での日本語電子メール用エンコーディングです。</description>
<category>日本語</category>
<ianaName>ISO-2022-JP</ianaName>
<mibEnum>39</mibEnum>
</item>
<item>
<code>gb2312</code>
<slug>gb2312</slug>
<name>GB2312</name>
<description>中国簡体字の基本的な文字エンコーディングです。</description>
<category>中国語</category>
<ianaName>GB2312</ianaName>
<mibEnum>2025</mibEnum>
</item>
<item>
<code>gbk</code>
<slug>gbk</slug>
<name>GBK</name>
<description>GB2312を拡張した中国語文字エンコーディングです。</description>
<category>中国語</category>
<ianaName>GBK</ianaName>
<mibEnum>113</mibEnum>
</item>
<item>
<code>gb18030</code>
<slug>gb18030</slug>
<name>GB18030</name>
<description>中国の現行国家標準で、全てのUnicode文字を表現可能です。</description>
<category>中国語</category>
<ianaName>GB18030</ianaName>
<mibEnum>114</mibEnum>
</item>
<item>
<code>big5</code>
<slug>big5</slug>
<name>Big5</name>
<description>台湾・香港で使用される繁体字中国語文字エンコーディングです。</description>
<category>中国語</category>
<ianaName>Big5</ianaName>
<mibEnum>2026</mibEnum>
</item>
<item>
<code>euc-kr</code>
<slug>euc-kr</slug>
<name>EUC-KR</name>
<description>Unix系システムで使用される韓国語文字エンコーディングです。</description>
<category>韓国語</category>
<ianaName>EUC-KR</ianaName>
<mibEnum>38</mibEnum>
</item>
<item>
<code>iso-2022-kr</code>
<slug>iso-2022-kr</slug>
<name>ISO-2022-KR</name>
<description>7ビット環境での韓国語電子メール用エンコーディングです。</description>
<category>韓国語</category>
<ianaName>ISO-2022-KR</ianaName>
<mibEnum>37</mibEnum>
</item>
<item>
<code>koi8-r</code>
<slug>koi8-r</slug>
<name>KOI8-R</name>
<description>ロシア語キリル文字用の8ビット文字エンコーディングです。</description>
<category>キリル文字</category>
<ianaName>KOI8-R</ianaName>
<mibEnum>2084</mibEnum>
</item>
<item>
<code>koi8-u</code>
<slug>koi8-u</slug>
<name>KOI8-U</name>
<description>ウクライナ語キリル文字用の8ビット文字エンコーディングです。</description>
<category>キリル文字</category>
<ianaName>KOI8-U</ianaName>
<mibEnum>2088</mibEnum>
</item>
<item>
<code>windows-1252</code>
<slug>windows-1252</slug>
<name>Windows-1252</name>
<description>Microsoft Windowsで使用される西ヨーロッパ言語向け8ビットエンコーディングです。</description>
<category>Windowsコードページ</category>
<ianaName>windows-1252</ianaName>
<mibEnum>2252</mibEnum>
</item>
</items>