フォント

文字コードに対応する字の形をフォントファイルから

文字コードとして記録されたり送られたりしたデータを画面に表示をするときにどのような形の文字であるかの情報を各コンピュータが持っています。これを字体とかフォントなどといいます。この情報はファイルとして保存されていてフォントファイルといいます。

コンピュータは普通複数の異なるデザインの字体を持っています。

Unicode IPAゴシック IPA明朝 さざなみゴシック さざなみ明朝
U+845B 葛 葛 葛 葛
JIS X 0213:2004準拠 JIS X 0208準拠または
JIS X 0213:2000準拠

日本の文字の場合、ゴシック系と明朝系の2つに大別されます。毛筆体も加えられる場合があります。

2004年のJISの改訂で「例示字形」が変わったので同じ文字コードでもフォントがどの規格に合わせてあるかで表示される字の形が異なる場合があります。「葛」の字の「ヒ」か「人」かの違いは有名です。

つまり「葛」の字は自分のところで「人」が入った字のつもりで書いても、表示するコンピュータのフォントが「ヒ」であれば書いた人の意図のとおりにはならないわけです。

特殊なフォント

特殊なフォントファイルを作って文字コード本来の文字でないものと対応させる場合があります。

次の cmex10 というフォントは今回のOSにたまたま入っていたものです。ここには全部の欄に opqrstuvw と入力してあるのですが、cmex10 というフォントでは数式に使う括弧やルートの記号になっています。環境によっては表示されないので、cmex10(画像) という欄を用意しました。

フォント名 字体
ゴシック系(サンセリフ) opqrstuvw
明朝系(セリフ) opqrstuvw
cmex10 opqrstuvw
cmex10(画像) cmex

このような特殊フォントは同じフォントがない環境では異なって表示されますから使用には注意が必要です。

異体字セレクタ

Unicodeでは同じ字として同一の文字コードを与えられた文字(例えば、葛の2字など)を区別するために、異体字セレクタ(variation selector)という仕組みを考えています。

U+E0100〜U+E01EFのコードが漢字の異体字セレクタとして使われます。このコードは単独では文字を表しません。他の文字コードの後に付加してその文字の何番目の異体字であるかをセレクトするというものです。

Unicode 選択される文字
U+845B U+E0100 葛
U+845B U+E0101 葛

このために Ideographic Variation Database が整備されつつあります。

たとえば「葛」の字には次の様に登録があります。

Charts for the Unicode Ideographic Variation Database (November 14, 2010) より

葛

Adobe社のものと汎用電子情報交換環境整備プログラム(経済産業省の委託事業)の成果がともに登録されているが、重複しているように見えます。

聖愛中学高等学校
http://www.seiai.ed.jp/
Jun. 2011