漢字には同じ字でも異なる書き方のである異体字や略字、通用するが正しい字体ではない俗字などがあります。
戸籍の電子データ化のために字の形が微妙に異なるものを独自に登録して番号をつけています。これを戸籍統一文字番号と呼んでいます。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれませんが、JISの1万字より圧倒的に多い6万文字近くが登録されています。
例えば姓の「葛西」や地名の「葛飾区」などで使われる「葛」という字は次のように5つ登録されています。
JISとUnicodeに登録されている文字はこのうち1つだけです。これは同じ字であると判断したからです。
法務省「戸籍統一文字情報」より | 独自調査部分 | ||||||||
---|---|---|---|---|---|---|---|---|---|
戸籍統 一文字 |
戸籍統一 文字番号 |
Unicode | Unicode (JIS2004) |
Shift_JIS | Shift_JIS (JIS2004) |
名 前 |
Unicode | Windows-31J | テキスト (さざなみ/IPA) |
349920 | U+845B | 8A8B | |||||||
352760 | U+845B | 8A8B | ○ | U+845B | 8A8B | 葛葛 | |||
352870 | |||||||||
353070 | |||||||||
355990 |
(JIS2004)がついている欄で登録の位置が異なるのは、2004年に「例示字形」が変更になっているからです。349920 の字形(ヒ)から 352760 の字形(人)になりました。文字コードは一つだけですので変更後の規格にあわせたOSやフォントの環境で表示すると(JIS2004)の文字に変わってしまうということです。名前の欄に○があるのは、新生児につける名前として使える文字です。
別の字として登録するのか同じ字としてまとめるのかの判断は難しいものがあります。同じコードを割り当てると字形の違いを区別して表現できなくなりますが、別のコードを割り当てることで検索に支障が出る場合も考えられます。
JISで規定される文字コード表に使われている字は「例示字形」ということになっていて字の形を決めているものではないという建前ですが、事実上規範として受け取られています。もともと当用漢字や常用漢字にそって決められましたが、間違いや解釈の違いがありました。そこで2004年の改訂で国語審議会の字体表にあわせて168文字の「例示字形」が変更されました。中でも葛が有名です。
JISではこれは同じ文字であるとして片方しか登録していません。登録されていない方は「つちよし」と呼ばれています。戸籍統一文字では登録されていて区別されています。
戸籍統一文字の検索ではUnicodeにもない文字となっていますが、台湾起源の文字として登録されています。ただしUnicodeのUTF-16というエンコーディングでは2バイトで表現できず、サロゲートペアという手法を使います。これに対応していないソフトでは利用できません。
法務省「戸籍統一文字情報」より | 独自調査部分 | ||||||||
---|---|---|---|---|---|---|---|---|---|
戸籍統 一文字 |
戸籍統一 文字番号 |
Unicode | Unicode (JIS2004) |
Shift_JIS | Shift_JIS (JIS2004) |
名 前 |
Unicode | Windows-31J | テキスト (さざなみ/IPA) |
038130 | U+5409 | U+5409 | 8B67 | 8B67 | ○ | U+5409 | 8B67 | 吉吉 | |
038140 | U+20BB7 | 𠮷𠮷 |
これもJISでは同じ文字であるとして片方しか登録していません。登録されていない方は「はしごだか」と呼ばれています。。戸籍統一文字では登録されていて区別されています。
戸籍統一文字の検索ではUnicodeにもない文字となっていますが、中国、台湾、北朝鮮の文字コードにある字として「高」の隣に登録されています。Windows-31Jでは独自拡張の部分に登録されていて使われている例があります。FBFC ですが、Shift_JIS-2004では別の文字になってしまいます。
法務省「戸籍統一文字情報」より | 独自調査部分 | ||||||||
---|---|---|---|---|---|---|---|---|---|
戸籍統 一文字 |
戸籍統一 文字番号 |
Unicode | Unicode (JIS2004) |
Shift_JIS | Shift_JIS (JIS2004) |
名 | Unicode | Windows-31J | テキスト (さざなみ/IPA) |
513270 | U+9AD8 | U+9AD8 | 8D82 | 8D82 | ○ | U+9AD8 | 8D82 | 高高 | |
513280 | U+9AD9 | FBFC | 髙髙 |
JIS X 0213 で追加されて両方使えるようになった文字です。追加された方は「たちさき」と呼ばれています。もちろん戸籍統一文字でも登録されていて区別されています。
0213で追加される前にWindows-31Jでは独自拡張の部分に登録されていて使われていました。FAB1 ですが、Shift_JIS-2004では別の文字になってしまいます。
法務省「戸籍統一文字情報」より | 独自調査部分 | ||||||||
---|---|---|---|---|---|---|---|---|---|
戸籍統 一文字 |
戸籍統一 文字番号 |
Unicode | Unicode (JIS2004) |
Shift_JIS | Shift_JIS (JIS2004) |
名 | Unicode | Windows-31J | テキスト (さざなみ/IPA) |
092550 | U+5D0E | U+5D0E | 8DE8 | 8DE8 | ○ | U+5D0E | 8DE8 | 崎崎 | |
094190 | U+FA11 | 9892 | U+FA11 | FAB1 | 﨑﨑 |
これも JIS X 0213 で追加されて両方使えるようになった文字です。フォントでは違いを強調していますが、手書きではわからない違いです。
戸籍統一文字の検索ではUnicodeにない文字となっていますが、登録されています。ただしUnicodeのUTF-16というエンコーディングでは2バイトで表現できず、サロゲートペアという手法を使います。これに対応していないソフトでは利用できません。
法務省「戸籍統一文字情報」より | 独自調査部分 | ||||||||
---|---|---|---|---|---|---|---|---|---|
戸籍統 一文字 |
戸籍統一 文字番号 |
Unicode | Unicode (JIS2004) |
Shift_JIS | Shift_JIS (JIS2004) |
名 | Unicode | Windows-31J | テキスト (さざなみ/IPA) |
037710 | U+53F1 | U+53F1 | 8EB6 | 8EB6 | U+53F1 | 8EB6 | 叱叱 | ||
037940 | 9873 | ○ | U+20B9F | 𠮟𠮟 |