TSV
文字エンコーディング方式 - TSV
文字エンコーディング方式は、コンピュータが文字をデジタルデータとして扱うための符号化規格です。ASCII、UTF-8、UTF-16、Shift_JIS、EUC-JPなど様々な方式があり、それぞれ異なる文字セット、バイト構造、互換性を持ちます。現代ではUTF-8が国際標準として広く採用されていますが、日本語環境では従来のShift_JISやEUC-JPも依然として使用されています。
文字エンコーディング
Unicode
UTF-8
ASCII
Shift_JIS
EUC-JP
文字コード
国際化
code slug name description asciiCompatible byteStructure japaneseSupport maxCharacters usage yearIntroduced
ASCII ascii ASCII アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。 true 固定長(1バイト、7ビット使用) false 128 legacy 1963
UTF-8 utf-8 UTF-8 Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。 true 可変長(1〜4バイト) true 1114112 standard 1993
UTF-16 utf-16 UTF-16 Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。 false 可変長(2または4バイト) true 1114112 system 1996
UTF-32 utf-32 UTF-32 Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。 false 固定長(4バイト) true 1114112 internal 1996
Shift_JIS shift-jis Shift_JIS 日本語のレガシーエンコーディング。Windowsで広く使用されていました。 false 可変長(1〜2バイト) true 10000 legacy 1978
EUC-JP euc-jp EUC-JP Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。 true 可変長(1〜3バイト) true 11000 legacy 1988
ISO-2022-JP iso-2022-jp ISO-2022-JP 7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。 true 7ビット可変長(エスケープシーケンス使用) true 10000 legacy 1983
GB2312 gb2312 GB2312 中国語簡体字の国家標準エンコーディング。 false 可変長(1〜2バイト) false 7445 legacy 1980
Big5 big5 Big5 台湾・香港で使用される繁体字中国語のエンコーディング。 false 可変長(1〜2バイト) false 13000 legacy 1984
Windows-1252 windows-1252 Windows-1252 Windowsで使用される西欧言語用のエンコーディング。 true 固定長(1バイト) false 256 legacy 1992