文字コードとして記録されたり送られたりしたデータを画面に表示をするときにどのような形の文字であるかの情報を各コンピュータが持っています。これを字体とかフォントなどといいます。この情報はファイルとして保存されていてフォントファイルといいます。
コンピュータは普通複数の異なるデザインの字体を持っています。
Unicode | IPAゴシック | IPA明朝 | さざなみゴシック | さざなみ明朝 |
---|---|---|---|---|
U+845B | ||||
JIS X 0213:2004準拠 | JIS X 0208準拠または JIS X 0213:2000準拠 |
日本の文字の場合、ゴシック系と明朝系の2つに大別されます。毛筆体も加えられる場合があります。
2004年のJISの改訂で「例示字形」が変わったので同じ文字コードでもフォントがどの規格に合わせてあるかで表示される字の形が異なる場合があります。「葛」の字の「ヒ」か「人」かの違いは有名です。
つまり「葛」の字は自分のところで「人」が入った字のつもりで書いても、表示するコンピュータのフォントが「ヒ」であれば書いた人の意図のとおりにはならないわけです。
特殊なフォントファイルを作って文字コード本来の文字でないものと対応させる場合があります。
次の cmex10 というフォントは今回のOSにたまたま入っていたものです。ここには全部の欄に opqrstuvw と入力してあるのですが、cmex10 というフォントでは数式に使う括弧やルートの記号になっています。環境によっては表示されないので、cmex10(画像) という欄を用意しました。
フォント名 | 字体 |
---|---|
ゴシック系(サンセリフ) | opqrstuvw |
明朝系(セリフ) | opqrstuvw |
cmex10 | opqrstuvw |
cmex10(画像) |
このような特殊フォントは同じフォントがない環境では異なって表示されますから使用には注意が必要です。
Unicodeでは同じ字として同一の文字コードを与えられた文字(例えば、葛の2字など)を区別するために、異体字セレクタ(variation selector)という仕組みを考えています。
U+E0100〜U+E01EFのコードが漢字の異体字セレクタとして使われます。このコードは単独では文字を表しません。他の文字コードの後に付加してその文字の何番目の異体字であるかをセレクトするというものです。
Unicode | 選択される文字 |
---|---|
U+845B U+E0100 | |
U+845B U+E0101 |
このために Ideographic Variation Database が整備されつつあります。
たとえば「葛」の字には次の様に登録があります。
Charts for the Unicode Ideographic Variation Database (November 14, 2010) より
Adobe社のものと汎用電子情報交換環境整備プログラム(経済産業省の委託事業)の成果がともに登録されているが、重複しているように見えます。
聖愛中学高等学校