文字コードの拡張

使用したい文字の増加に対応する

日本語では漢字を使います。ひらがなもカタカナも英字も使います。

世界中の文字を一つの文字コードで表現できれば、多言語が混在する文書を作るのが楽ですし、ソフトウェアの製作が楽です。

たくさんの文字を表現するには工夫が必要です。代表的な方法は次の3つです。

日本語の文字を表現できる文字コード

大きく分けてJISとユニコードに分類できます。日本語の文字だけに限ればほぼ同じ文字が登録されています。

一般の人が使用する文字は JIS X 0213 や ユニコードでほぼ間に合いますが、戸籍や古文書にでてくる文字も考えるとこれでは足りません。もっと多くの文字を登録する試みがいくつかありますが、戸籍統一文字を加えておきました。

文字セット
(の系列)
説明 代表的なエンコード方式
JIS X 0208-1990 日本工業規格の古い規格。第1,第2水準漢字と記号、英字、かななど約7000文字が登録されている。 機種依存の補助漢字を加えたものをWindows-31Jと呼んで区別することがある。 Shift_JIS, (Windows-31J), EUC-JP, ISO-2022-JP
JIS X 0213:2004
(JIS2004)
日本工業規格の新しい規格。第1,第2水準に第3,第4水準漢字を加えて約1万文字が登録されている。JIS2004などと呼ばれることもある。 Shift-JIS-2004, EUC-JIS-2004, ISO-2022-JP-2004
Unicode
(ユニコード)
ユニコードコンソーシアム,ISO/IECの国際規格。世界中の文字をひとつの文字コードで表すことを目指している。漢字の部分は日本,中国,韓国のものを統合している。最大で21ビットを使う。 UTF-32, UTF-16, UTF-8
戸籍統一文字 法務省が戸籍の電子データ化のために策定した。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれないが6万文字近くが登録されている。この6万という数を考えると戸籍の文字をJISやユニコード内の文字で済ませるのは無理がある。 戸籍統一文字番号(10進数6桁)

文字セット

文字を集めたものを文字セット(JISの用語では文字集合)といいます。JISを例にしてどのようにセットが決められるか要点を考えてみます。

どういう文字を入れるか

漢字が多いのですが、ひらがなやかたかなも必要です
か が き ぎ く ぐ け げ こ ご カ ガ キ ギ ク グ ケ ゲ コ ゴ
記号も必要です
、。{ } 〈 〉 《 》 「 」 『 』 ≦ ≧ ∞ ∴ ♂ ♀ @ § ☆ ★ ○ ● ◎ ◇ ━ ┃ ┏ ┓ ┛ ┗ ┣ ┳ ┫ ┻ ╋
日本語の文字セットですが、アルファベットも使います。
A B C D E F G a b c d e f g
ギリシア文字もよく使うので入れます
α β γ π λ Λ Σ μ ω Ω など
よく使う漢字はもちろん
亜 唖 娃 阿 哀 愛 挨 姶 逢 葵 茜 穐 悪
あまり使わない漢字も必要です。でも漢字を全部入れるのは多すぎます。
齶 龕 龜 龠 堯 槇 遙 瑤 凜 熙

別の字と同じ字の判別をどうするか

異なる書き方をする文字を同じ字とみなすことを「包摂(ほうせつ)」といいます。

ひらがなの場合は意見の違いはありません。どれも同じ文字としています。つまり同じ文字コードです。

比較する文字 違い 文字コード
「さ」のデザインの差 点がつながっているかいないか、はねがあるかないか 同じ文字
「そ」のデザインの差 第1画が点か、水平線か、ちょっと斜めの線か 同じ文字
「ふ」のデザインの差 点がつながっているかいないか、はねがあるかないか 同じ文字
「や」のデザインの差 点がつながっているかいないか、交わっているかいないか 同じ文字

漢字の場合は意見の違うものがあります。文字セットを作った時の考え方によります。

同じ文字と書いてあるものは同じ文字コードで、2つの文字を区別して表示できません。

異なる文字と書いてあるものは別々の文字コードが割り当てられていて、2つの文字を区別して表示することができます。

比較する文字 違い JIS X 0208 JIS X 0213 常用/人名 Unicode
「餅」のデザインの差 へんの形が昔の形(𩙿)か省略形(飠)か 同じ文字 同じ文字 (常)( ) 同じ文字
「遡」のデザインの差 二点しんにょう(辶)か一点しんにょう(辶)か 同じ文字 同じ文字 (常)( ) 同じ文字
「崎」と「﨑」のデザインの差 大の字か、立の字か 同じ文字 異なる文字 (常)( ) 異なる文字
「高」と「髙」のデザインの差 口か、甘のような字か 同じ文字 同じ文字 (常)( ) 異なる文字
「吉」と「𠮷」のデザインの差 士か、土か 同じ文字 同じ文字 (常)( ) 異なる文字
「葛」のデザインの差 ∟に人か、ヒか 同じ文字 同じ文字 (常)( ) 同じ文字
「渇」と「渴」のデザインの差 ∟に人か、ヒか 同じ文字 異なる文字 (人)(常) 異なる文字
「褐」と「褐」のデザインの差 ∟に人か、ヒか 同じ文字 異なる文字 ( )(常) 異なる文字
「謁」と「謁」のデザインの差 ∟に人か、ヒか 同じ文字 異なる文字 (人)(常) 異なる文字
「喝」と「喝」のデザインの差 ∟に人か、ヒか 同じ文字 異なる文字 ( )(常) 異なる文字

「常用/人名」の欄は常用漢字表にある漢字に(常)、人名用漢字にあるものに(人)を書いてあります。褐褐 の欄に(人)(常)とあるのは、褐は人名用漢字、褐は常用漢字であるという意味です。( )はそのどちらでもありません。

葛のつくりの扱いは、一貫していないように見えますが、葛のつくりと渇のつくりは、そもそも異なるものが混同されたという可能性もあります。詳しく調べてみないとわかりません。