HTML

文字エンコーディング - HTML

文字エンコーディングは、文字や記号をコンピュータが処理できるバイト列に変換するための規則体系です。ASCIIやUTF-8などの国際標準から、Shift_JISやEUC-JPなどの日本語専用エンコーディング、各国固有のコードページまで多様な方式が存在します。現在はUnicodeを基盤としたUTF-8が世界標準として広く採用されていますが、レガシーシステムとの互換性維持のため、様々なエンコーディング方式の理解が依然として重要です。

文字コード Unicode UTF-8 文字セット 国際化 テキスト処理
<table>
<thead><tr><th>code</th><th>slug</th><th>name</th><th>description</th><th>category</th><th>ianaName</th><th>mibEnum</th></tr></thead>
<tbody><tr><td>utf-8</td><td>utf-8</td><td>UTF-8</td><td>Unicodeを1〜4バイトの可変長で表現する文字エンコーディングです。</td><td>Unicode系</td><td>UTF-8</td><td>106</td></tr>
<tr><td>utf-16</td><td>utf-16</td><td>UTF-16</td><td>Unicodeを16ビット単位で表現する文字エンコーディングです。</td><td>Unicode系</td><td>UTF-16</td><td>1015</td></tr>
<tr><td>utf-32</td><td>utf-32</td><td>UTF-32</td><td>Unicodeを固定長32ビット(4バイト)で表現する文字エンコーディングです。</td><td>Unicode系</td><td>UTF-32</td><td>1017</td></tr>
<tr><td>us-ascii</td><td>us-ascii</td><td>US-ASCII</td><td>7ビットで128文字を定義する基本的な文字エンコーディングです。</td><td>ASCII系</td><td>US-ASCII</td><td>3</td></tr>
<tr><td>iso-8859-1</td><td>iso-8859-1</td><td>ISO-8859-1 (Latin-1)</td><td>西ヨーロッパ言語向けの8ビット文字エンコーディングです。</td><td>ISO-8859系</td><td>ISO-8859-1</td><td>4</td></tr>
<tr><td>iso-8859-2</td><td>iso-8859-2</td><td>ISO-8859-2 (Latin-2)</td><td>中央ヨーロッパ言語向けの8ビット文字エンコーディングです。</td><td>ISO-8859系</td><td>ISO-8859-2</td><td>5</td></tr>
<tr><td>iso-8859-5</td><td>iso-8859-5</td><td>ISO-8859-5 (Cyrillic)</td><td>キリル文字向けの8ビット文字エンコーディングです。</td><td>ISO-8859系</td><td>ISO-8859-5</td><td>8</td></tr>
<tr><td>iso-8859-7</td><td>iso-8859-7</td><td>ISO-8859-7 (Greek)</td><td>現代ギリシャ語向けの8ビット文字エンコーディングです。</td><td>ISO-8859系</td><td>ISO-8859-7</td><td>10</td></tr>
<tr><td>iso-8859-15</td><td>iso-8859-15</td><td>ISO-8859-15 (Latin-9)</td><td>ISO-8859-1の改訂版でユーロ記号を含む8ビット文字エンコーディングです。</td><td>ISO-8859系</td><td>ISO-8859-15</td><td>111</td></tr>
<tr><td>shift_jis</td><td>shift-jis</td><td>Shift_JIS</td><td>WindowsとMacintoshで標準的に使用される日本語文字エンコーディングです。</td><td>日本語</td><td>Shift_JIS</td><td>17</td></tr>
<tr><td>euc-jp</td><td>euc-jp</td><td>EUC-JP</td><td>Unix系システムで使用される日本語文字エンコーディングです。</td><td>日本語</td><td>EUC-JP</td><td>18</td></tr>
<tr><td>iso-2022-jp</td><td>iso-2022-jp</td><td>ISO-2022-JP</td><td>7ビット環境での日本語電子メール用エンコーディングです。</td><td>日本語</td><td>ISO-2022-JP</td><td>39</td></tr>
<tr><td>gb2312</td><td>gb2312</td><td>GB2312</td><td>中国簡体字の基本的な文字エンコーディングです。</td><td>中国語</td><td>GB2312</td><td>2025</td></tr>
<tr><td>gbk</td><td>gbk</td><td>GBK</td><td>GB2312を拡張した中国語文字エンコーディングです。</td><td>中国語</td><td>GBK</td><td>113</td></tr>
<tr><td>gb18030</td><td>gb18030</td><td>GB18030</td><td>中国の現行国家標準で、全てのUnicode文字を表現可能です。</td><td>中国語</td><td>GB18030</td><td>114</td></tr>
<tr><td>big5</td><td>big5</td><td>Big5</td><td>台湾・香港で使用される繁体字中国語文字エンコーディングです。</td><td>中国語</td><td>Big5</td><td>2026</td></tr>
<tr><td>euc-kr</td><td>euc-kr</td><td>EUC-KR</td><td>Unix系システムで使用される韓国語文字エンコーディングです。</td><td>韓国語</td><td>EUC-KR</td><td>38</td></tr>
<tr><td>iso-2022-kr</td><td>iso-2022-kr</td><td>ISO-2022-KR</td><td>7ビット環境での韓国語電子メール用エンコーディングです。</td><td>韓国語</td><td>ISO-2022-KR</td><td>37</td></tr>
<tr><td>koi8-r</td><td>koi8-r</td><td>KOI8-R</td><td>ロシア語キリル文字用の8ビット文字エンコーディングです。</td><td>キリル文字</td><td>KOI8-R</td><td>2084</td></tr>
<tr><td>koi8-u</td><td>koi8-u</td><td>KOI8-U</td><td>ウクライナ語キリル文字用の8ビット文字エンコーディングです。</td><td>キリル文字</td><td>KOI8-U</td><td>2088</td></tr>
<tr><td>windows-1252</td><td>windows-1252</td><td>Windows-1252</td><td>Microsoft Windowsで使用される西ヨーロッパ言語向け8ビットエンコーディングです。</td><td>Windowsコードページ</td><td>windows-1252</td><td>2252</td></tr></tbody>
</table>