文字エンコーディング方式 | 構造化リストの一覧まとめ

コード	スラッグ	名称	概要	asciiCompatible	byteStructure	japaneseSupport	maxCharacters	usage	yearIntroduced
ASCII	ascii	ASCII	アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。	true	固定長（1バイト、7ビット使用）	false	128	legacy	1963
UTF-8	utf-8	UTF-8	Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。	true	可変長（1〜4バイト）	true	1114112	standard	1993
UTF-16	utf-16	UTF-16	Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。	false	可変長（2または4バイト）	true	1114112	system	1996
UTF-32	utf-32	UTF-32	Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。	false	固定長（4バイト）	true	1114112	internal	1996
Shift_JIS	shift-jis	Shift_JIS	日本語のレガシーエンコーディング。Windowsで広く使用されていました。	false	可変長（1〜2バイト）	true	10000	legacy	1978
EUC-JP	euc-jp	EUC-JP	Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。	true	可変長（1〜3バイト）	true	11000	legacy	1988
ISO-2022-JP	iso-2022-jp	ISO-2022-JP	7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。	true	7ビット可変長（エスケープシーケンス使用）	true	10000	legacy	1983
GB2312	gb2312	GB2312	中国語簡体字の国家標準エンコーディング。	false	可変長（1〜2バイト）	false	7445	legacy	1980
Big5	big5	Big5	台湾・香港で使用される繁体字中国語のエンコーディング。	false	可変長（1〜2バイト）	false	13000	legacy	1984
Windows-1252	windows-1252	Windows-1252	Windowsで使用される西欧言語用のエンコーディング。	true	固定長（1バイト）	false	256	legacy	1992

文字エンコーディング方式は、人間が理解する文字をコンピュータが処理できるデジタルデータに変換するための規格です。1960年代のASCII誕生以来、様々なエンコーディングが開発され、それぞれの時代や地域のニーズに応じて進化してきました。

現代のシステム開発において、エンコーディングの選択は技術的負債に直結する重要な決定です。特に日本語環境では、Shift_JISやEUC-JPといったレガシーエンコーディングが依然として使用されており、文字化け（モジバケ）の問題が発生しやすくなっています。

主要エンコーディング方式の特徴

ASCIIは1963年に制定された最も基礎的なエンコーディングで、英数字と記号を7ビットで表現します。現代の全てのエンコーディングはASCIIとの互換性を維持することを前提として設計されています。

UTF-8は1993年に策定されたUnicodeの符号化方式で、1〜4バイトの可変長で全てのUnicode文字を表現できます。ASCII文字は1バイトで表現されるため、英語圏のテキストでは効率的であり、Web標準として現在98%以上の採用率を誇っています。

UTF-16は主にWindowsやJavaの内部処理で使用される2バートまたは4バイトの可変長エンコーディングです。基本多言語面（BMP）の文字は2バイトで表現できますが、ASCII文字も2バイト必要となるため、英語テキストではUTF-8より非効率です。

日本語エンコーディングの歴史と課題

日本語を扱うエンコーディングとして、Shift_JISとEUC-JPが長年使用されてきました。Shift_JISはMicrosoft Windowsの標準として広く普及し、1バイトと2バイトの可変長構造を持ちます。一方、EUC-JPはUnix/Linuxシステムで標準として使用され、ASCII互換性を持つ構造が特徴です。

これらのレガシーエンコーディングにはいくつかの課題があります。Shift_JISはバイト列の解釈が曖昧な場合があり、文字化けのリスクが高いです。また、NEC選定IBM拡張文字などのベンダー拡張により、異なるシステム間での互換性問題が生じることがあります。

現代のシステム開発では、国際化と互換性を確保するためにUTF-8の採用が強く推奨されています。WHATWG Encoding Standardも、Web関連の技術ではUTF-8以外のエンコーディング使用を推奨していません。

エンコーディング移行のベストプラクティス

既存システムのエンコーディングをUTF-8に移行する際は、以下のポイントに注意が必要です。データベース、ファイル、通信プロトコル、ユーザーインターフェースの全てのレイヤーで一貫したエンコーディング設定が必要です。

移行時には文字化けの検出と修復の仕組みを用意し、バックアップと検証プロセスを確立することが重要です。特にShift_JISからUTF-8への移行では、機種依存文字の扱いに注意が必要です。