UTF-8の仕組み

バイトの値から素性を読む

UTF-8は１～４バイト(初期の定義では６バイトまで)の可変長コードです。

それぞれの1バイトの値で、それが文字の最初のバイトであるか、2バイト目以降のバイトであるかがわかるようになっています。

U+XXXX と表されるUnicodeからUTF-8への換算表です。もちろん逆も可能。

ビットの状態にしてから切り張りをしています。

サロケートペアを使っている時には21ビットの表現に戻してから換算します。

聖愛中学高等学校
http://www.seiai.ed.jp/
Last Modified:2009/08/09