Unicodeの漢字統合と絵文字(草稿)


1.Unicodeとは (草稿)
の続きです。

漢字の統合

漢字の共通コードを作る試みはISO/IEC 10646にもあったが、Unicodeは漢字統合の提案をISO/IEC 10646に持ち込み、中国・日本・韓国の共同作業部会(CJK-JRG)において作業が行われた。この作業の成果として1992年に最初のCJK漢字統合(Unified Repertoire and Ordering (URO))ができあがった。UROは中国・日本・韓国の地域別標準文字コード表を出典とするが、元になる文字コード表で別のコードになっていれば統合しないという出典分離規則がある。URO漢字はUnicode V1.0.1で20,902文字が規定され、その後、48文字が追加されている。また、出典文字コードとの双方向対応や出典外の主要文字として互換漢字が302文字導入された。その後、互換漢字は170文字追加されている。UROと互換漢字は(472文字)のみがBMPに収容されている。

URO以外のCJK統合漢字は第2面に追加されており、1993年10月にCJK-JRGはIRG(Ideographic Rapporteur Group)に変更され、さらに多くの出典から漢字を追加する作業が行われた。IRGが追加したCJK統合漢字ブロックとしては漢字拡張A 6,582文字(Unicode 3.0で追加)、漢字拡張 B 42,711文字(同3.1で追加)、漢字拡張 C 4,149文字(同5.0で追加)、漢字拡張 D 222文字(同6.0で追加)、漢字拡張 E 5,765文字(同8.0で追加)、互換漢字補助542文字がある。漢字拡張B以降は第2面に追加されている。

Unicode 5.1.0からコードポイントと出典を対応つけるデータベース(UAX#38)が付属仕様として提供されている。

絵文字

2009年のUnicode 5.2で、ARIB(Association of Radio Industries and Businesses)が定義する114の絵文字がBMPに追加された。さらにUnicode 6.0で608の絵文字が第1面の記号エリア(U+1D000…U+1E7FF)に追加され、主要な日本の携帯端末用の絵文字が揃った。その後、Unicode7.0までに多数の絵文字が追加され、世界中のメディアの注目を集めた。もともと様々な記号類(天気記号など)はUnicodeでいくつかのブロックに定義されているので、絵文字の登録自体は不自然ではない。しかし、絵文字に関連して人種差別にならないように肌の色調を変えるための符号(U+1F3FB…U+1F3FF)が導入された。また、マルチカラー、アニメーションなどの可視化方法、デザインなどの複雑な問題がある。こうした利用方法に関してはガイドライン(UTR#51)が作成されている。

Unicodeの漢字統合と絵文字(草稿)” への1件のコメント

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA値として計算に合う値を入力してください。 *