文字コードの拡張

使用したい文字の増加に対応する

日本語では漢字を使います。ひらがなもカタカナも英字も使います。

世界中の文字を一つの文字コードで表現できれば、多言語が混在する文書を作るのが楽ですし、ソフトウェアの製作が楽です。

たくさんの文字を表現するには工夫が必要です。代表的な方法は次の3つです。

使用するバイト数(ビット数)を増やす
ここからは英字ここからは漢字というように制御文字を使って切り替える
1バイト目によってそのまま1バイトの文字とするか次に続くバイトと合わせて文字とするかを決める

日本語の文字を表現できる文字コード

大きく分けてJISとユニコードに分類できます。日本語の文字だけに限ればほぼ同じ文字が登録されています。一般の人が使用する文字は網羅されていてほぼ間に合いますが、戸籍や古文書にでてくる文字も考えるとこれでは足りません。もっと多くの文字を登録する試みがいくつかありますが、戸籍統一文字を加えておきました。

文字セット(の系列)	説明	代表的なエンコード方式
JIS X 0208-1990 ↓	日本工業規格の古い規格。第1,第2水準漢字と記号、英字、かななど約7000文字が登録されている。機種依存の補助漢字を加えたものをWindows-31Jと呼んで区別することがある。	Shift_JIS, (Windows-31J), EUC-JP, ISO-2022-JP
JIS X 0213:2004 ↓	日本工業規格の新しい規格。第1,第2水準に第3,第4水準漢字を加えて約1万文字が登録されている。JIS2004などと呼ばれることもある。	Shift-JIS-2004, EUC-JIS-2004, ISO-2022-JP-2004
Unicode ↓	ユニコードコンソーシアム,ISO/IECの国際規格。世界中の文字をひとつの文字コードで表すことを目指している。漢字の部分は日本,中国,韓国のものを統合している。最大で21ビットを使う。	UTF-32, UTF-16, UTF-8
戸籍統一文字 ↓	法務省が戸籍の電子データ化のために策定した。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれないが6万文字近くが登録されている。この6万という数を考えると戸籍の文字をJISやユニコード内の文字で済ませるのは無理がある。	戸籍統一文字番号(10進数6桁)

聖愛中学高等学校
http://www.seiai.ed.jp/
Jun. 2011