日本語では漢字を使います。ひらがなもカタカナも英字も使います。
世界中の文字を一つの文字コードで表現できれば、多言語が混在する文書を作るのが楽ですし、ソフトウェアの製作が楽です。
たくさんの文字を表現するには工夫が必要です。代表的な方法は次の3つです。
大きく分けてJISとユニコードに分類できます。日本語の文字だけに限ればほぼ同じ文字が登録されています。一般の人が使用する文字は網羅されていてほぼ間に合いますが、戸籍や古文書にでてくる文字も考えるとこれでは足りません。もっと多くの文字を登録する試みがいくつかありますが、戸籍統一文字を加えておきました。
文字セット(の系列) | 説明 | 代表的なエンコード方式 |
---|---|---|
JIS X 0208-1990 ↓ | 日本工業規格の古い規格。第1,第2水準漢字と記号、英字、かななど約7000文字が登録されている。 機種依存の補助漢字を加えたものをWindows-31Jと呼んで区別することがある。 | Shift_JIS, (Windows-31J), EUC-JP, ISO-2022-JP |
JIS X 0213:2004 ↓ | 日本工業規格の新しい規格。第1,第2水準に第3,第4水準漢字を加えて約1万文字が登録されている。JIS2004などと呼ばれることもある。 | Shift-JIS-2004, EUC-JIS-2004, ISO-2022-JP-2004 |
Unicode ↓ | ユニコードコンソーシアム,ISO/IECの国際規格。世界中の文字をひとつの文字コードで表すことを目指している。漢字の部分は日本,中国,韓国のものを統合している。最大で21ビットを使う。 | UTF-32, UTF-16, UTF-8 |
戸籍統一文字 ↓ | 法務省が戸籍の電子データ化のために策定した。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれないが6万文字近くが登録されている。この6万という数を考えると戸籍の文字をJISやユニコード内の文字で済ませるのは無理がある。 | 戸籍統一文字番号(10進数6桁) |