Unicode と JIS

Unicodeの漢字部分は中国や韓国で使われている漢字と合わせて配置したため、JIS X 0213 とまったく異なる表になっており、換算はできません。対応表を見るしかなくなっています。(しかも記号については複数の対応が考えられて混乱しています)

Unicode 自体もさまざまな事情のため複雑なのですが、ここでは JIS X 0213 との文字セットの違いを認識してください。

以下はUnicodeの表のごく一部です。緑色部分が JIS X 0208 にある文字。水色部分が JIS X 0213:2004 で追加された文字。白い色の部分は中国や韓国の由来でJISにない文字です。

Unicodeのうち日本で使用する漢字はJISを元にUnicodeに登録しているためJISにある文字はすべて登録されています。

また、Unicode(正確にはISO/IEC 10646)を翻訳してJISとして定めた JIS X 0221 もあります。このような規格を国際一致規格といいます。JIS X 0221の規格名称は「国際符号化文字集合(UCS)」といいます。Unicode と JIS との関係もまたさまざまな事情を含んでいます。

UTF-16の順に並べた亜の近辺の一覧。UTF-8もUTF-16を元にしたエンコード方式なので順番になっています。しかし、面区点とそれを元にした 2022(ISO-2022-JP-2004)、SJIS(Shift_JIS-2004)、EUC(EUC-JIS-2004)は順番がばらばらです。空欄は中国や韓国の漢字のためJISに定められていない漢字です。

いろいろなエンコードの比較(亜の近辺)
UTF-16UTF-8面-区-点2022SJISEUC文字
4E91E4BA911-17-303-313E 895DB1BE
4E92E4BA921-24-633-385F 8CDDB8DF
4E93E4BA93
4E94E4BA941-24-623-385E 8CDCB8DE
4E95E4BA951-16-703-3066 88E4B0E6
4E96E4BA96
4E97E4BA97
4E98E4BA981-47-433-4F4B 986ACFCB
4E99E4BA991-47-423-4F4A 9869CFCA
4E9AE4BA9A
4E9BE4BA9B1-26-193-3A33 8DB1BAB3
4E9CE4BA9C1-16-013-3021 889FB0A1
4E9DE4BA9D2-01-174-2131 F0508FA1B1
4E9EE4BA9E1-48-193-5033 98B1D0B3
4E9FE4BA9F1-48-203-5034 98B2D0B4

漢字を中心に紹介しましたが、ハングル文字、タイ文字、アラビア文字、デーヴァナーガリ文字、モンゴル文字、タミル文字などたくさんの文字が登録されています。対応する文字の形(フォント)がコンピュータに登録されて入れば表示されます。

聖愛中学高等学校
http://www.seiai.ed.jp/
Jun. 2011