文字コードの拡張

使用したい文字の増加に対応する

日本語では漢字を使います。ひらがなもカタカナも英字も使います。

世界中の文字を一つの文字コードで表現できれば、多言語が混在する文書を作るのが楽ですし、ソフトウェアの製作が楽です。

たくさんの文字を表現するには工夫が必要です。代表的な方法は次の3つです。

日本語の文字を表現できる文字コード

大きく分けてJISとユニコードに分類できます。日本語の文字だけに限ればほぼ同じ文字が登録されています。一般の人が使用する文字は網羅されていてほぼ間に合いますが、戸籍や古文書にでてくる文字も考えるとこれでは足りません。もっと多くの文字を登録する試みがいくつかありますが、戸籍統一文字を加えておきました。

文字セット(の系列) 説明 代表的なエンコード方式
JIS X 0208-1990 日本工業規格の古い規格。第1,第2水準漢字と記号、英字、かななど約7000文字が登録されている。 機種依存の補助漢字を加えたものをWindows-31Jと呼んで区別することがある。 Shift_JIS, (Windows-31J), EUC-JP, ISO-2022-JP
JIS X 0213:2004 日本工業規格の新しい規格。第1,第2水準に第3,第4水準漢字を加えて約1万文字が登録されている。JIS2004などと呼ばれることもある。 Shift-JIS-2004, EUC-JIS-2004, ISO-2022-JP-2004
Unicode ユニコードコンソーシアム,ISO/IECの国際規格。世界中の文字をひとつの文字コードで表すことを目指している。漢字の部分は日本,中国,韓国のものを統合している。最大で21ビットを使う。 UTF-32, UTF-16, UTF-8
戸籍統一文字 法務省が戸籍の電子データ化のために策定した。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれないが6万文字近くが登録されている。この6万という数を考えると戸籍の文字をJISやユニコード内の文字で済ませるのは無理がある。 戸籍統一文字番号(10進数6桁)
聖愛中学高等学校
http://www.seiai.ed.jp/
Jun. 2011