テーマ:Unicode

Unicode 6.0絵文字対応Encode::JP::Emoji 0.60をリリース(Perl)

今月10月11日 に Unicode Version 6.0 がリリースされたのに対応して、 川崎がメンテしている Perl モジュール Encode::JP::Emoji もバージョンアップして、 Unicode 6.0 で追加された絵文字を正式サポートしました。 エンコーディング名は x-utf8-e4u-unicode …
トラックバック:0
コメント:0

続きを読むread more

Encode::JP::Emoji - emoji4unicode ベースの絵文字変換モジュール

emoji4unicode(Emoji for Unicode)プロジェクトでは、Google が中心となって 日本の携帯各キャリアの絵文字コードを Unicode に登録すべく提案を行っています。 今回、その emoji4unicode の絵文字マッピングテーブルを利用して文字コードの 相互変換を行う Perl モジュール En…
トラックバック:0
コメント:0

続きを読むread more

Pythonに初挑戦(お題:不正なUTF-8バイト値を探す)

前のポスト で、なぜ Unicode の仕様を調べていたかというと、 実は Python でプログラムを書いてみたかっただけだったり。   お題:『UTF-8 文書に登場しないバイト値を探してみる』 我ながら、日々の業務に役立つ実用的なお題です。(違) 普段なら Perl か JavaScript で組みたくなってしまうけ…
トラックバック:0
コメント:1

続きを読むread more

Unicode は計17面、21ビットまで。UTF-8 は4バイトまで。

UTF-8 の仕様を知ったとき、U+0080 以降では1バイト目が C0~FF、 2バイト目以降が 80~BF の範囲内になっていて、EUC とかと違って 文字の先頭バイトの位置が確認できる仕様は賢いと思った。   その頃の UCS-4 では、1文字31ビットで最大で128群×256面×65,536文字の 収録が想定されていて…
トラックバック:1
コメント:0

続きを読むread more