CSV
文字エンコーディング方式 - CSV
文字エンコーディング方式は、コンピュータが文字をデジタルデータとして扱うための符号化規格です。ASCII、UTF-8、UTF-16、Shift_JIS、EUC-JPなど様々な方式があり、それぞれ異なる文字セット、バイト構造、互換性を持ちます。現代ではUTF-8が国際標準として広く採用されていますが、日本語環境では従来のShift_JISやEUC-JPも依然として使用されています。
文字エンコーディング
Unicode
UTF-8
ASCII
Shift_JIS
EUC-JP
文字コード
国際化
code,slug,name,description,asciiCompatible,byteStructure,japaneseSupport,maxCharacters,usage,yearIntroduced
ASCII,ascii,ASCII,アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。,true,固定長(1バイト、7ビット使用),false,128,legacy,1963
UTF-8,utf-8,UTF-8,Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。,true,可変長(1〜4バイト),true,1114112,standard,1993
UTF-16,utf-16,UTF-16,Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。,false,可変長(2または4バイト),true,1114112,system,1996
UTF-32,utf-32,UTF-32,Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。,false,固定長(4バイト),true,1114112,internal,1996
Shift_JIS,shift-jis,Shift_JIS,日本語のレガシーエンコーディング。Windowsで広く使用されていました。,false,可変長(1〜2バイト),true,10000,legacy,1978
EUC-JP,euc-jp,EUC-JP,Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。,true,可変長(1〜3バイト),true,11000,legacy,1988
ISO-2022-JP,iso-2022-jp,ISO-2022-JP,7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。,true,7ビット可変長(エスケープシーケンス使用),true,10000,legacy,1983
GB2312,gb2312,GB2312,中国語簡体字の国家標準エンコーディング。,false,可変長(1〜2バイト),false,7445,legacy,1980
Big5,big5,Big5,台湾・香港で使用される繁体字中国語のエンコーディング。,false,可変長(1〜2バイト),false,13000,legacy,1984
Windows-1252,windows-1252,Windows-1252,Windowsで使用される西欧言語用のエンコーディング。,true,固定長(1バイト),false,256,legacy,1992