TSV

文字エンコーディング方式 - TSV

文字エンコーディング方式は、コンピュータが文字をデジタルデータとして扱うための符号化規格です。ASCII、UTF-8、UTF-16、Shift_JIS、EUC-JPなど様々な方式があり、それぞれ異なる文字セット、バイト構造、互換性を持ちます。現代ではUTF-8が国際標準として広く採用されていますが、日本語環境では従来のShift_JISやEUC-JPも依然として使用されています。

文字エンコーディング Unicode UTF-8 ASCII Shift_JIS EUC-JP 文字コード 国際化
code	slug	name	description	asciiCompatible	byteStructure	japaneseSupport	maxCharacters	usage	yearIntroduced
ASCII	ascii	ASCII	アメリカ標準情報交換符号。英数字と記号を7ビットで表現します。	true	固定長(1バイト、7ビット使用)	false	128	legacy	1963
UTF-8	utf-8	UTF-8	Unicodeの可変長符号化形式。ASCII互換で世界中の文字を表現します。	true	可変長(1〜4バイト)	true	1114112	standard	1993
UTF-16	utf-16	UTF-16	Unicodeの16ビット符号化形式。WindowsやJavaで広く使用されます。	false	可変長(2または4バイト)	true	1114112	system	1996
UTF-32	utf-32	UTF-32	Unicodeの固定長32ビット符号化形式。内部処理用に使用されます。	false	固定長(4バイト)	true	1114112	internal	1996
Shift_JIS	shift-jis	Shift_JIS	日本語のレガシーエンコーディング。Windowsで広く使用されていました。	false	可変長(1〜2バイト)	true	10000	legacy	1978
EUC-JP	euc-jp	EUC-JP	Unix/Linuxで使用された日本語エンコーディング。ASCII互換です。	true	可変長(1〜3バイト)	true	11000	legacy	1988
ISO-2022-JP	iso-2022-jp	ISO-2022-JP	7ビットエスケープシーケンス方式の日本語エンコーディング。メールで使用。	true	7ビット可変長(エスケープシーケンス使用)	true	10000	legacy	1983
GB2312	gb2312	GB2312	中国語簡体字の国家標準エンコーディング。	false	可変長(1〜2バイト)	false	7445	legacy	1980
Big5	big5	Big5	台湾・香港で使用される繁体字中国語のエンコーディング。	false	可変長(1〜2バイト)	false	13000	legacy	1984
Windows-1252	windows-1252	Windows-1252	Windowsで使用される西欧言語用のエンコーディング。	true	固定長(1バイト)	false	256	legacy	1992