Encode::JP::Emoji の携帯絵文字コード変換マッピングまとめ Encode::JP::Emoji モジュールは、多数のエンコーディングを提供しています。 ここでも解説しています が、ちょっと複雑なので改めて紹介します。 Encode::JP::Emoji のx-utf8-e4u-*** と x-sjis-e4u-*** 系のエンコーディングは、 decode後(encode前)の内部の … トラックバック:0 コメント:0 2010年10月24日 続きを読むread more
Unicode 6.0絵文字対応Encode::JP::Emoji 0.60をリリース(Perl) 今月10月11日 に Unicode Version 6.0 がリリースされたのに対応して、 川崎がメンテしている Perl モジュール Encode::JP::Emoji もバージョンアップして、 Unicode 6.0 で追加された絵文字を正式サポートしました。 エンコーディング名は x-utf8-e4u-unicode … トラックバック:0 コメント:0 2010年10月24日 続きを読むread more
Encode::JP::Emoji - emoji4unicode ベースの絵文字変換モジュール emoji4unicode(Emoji for Unicode)プロジェクトでは、Google が中心となって 日本の携帯各キャリアの絵文字コードを Unicode に登録すべく提案を行っています。 今回、その emoji4unicode の絵文字マッピングテーブルを利用して文字コードの 相互変換を行う Perl モジュール En… トラックバック:0 コメント:0 2009年07月01日 続きを読むread more
Shift_JIS~Unicode文字コード(16進数)相互変換ワンライナー/Perl 今日も、Perl の呪文の時間がやって参りました。 例えば「漢」の字の Unicode は 6F22、Shift_JIS コードは 8ABF なわけで、 これらを Perl のワンライナーで相互変換するコードを書いてみました。 Unicode~Shift_JIS の相互変換 UCS2(16進数Unicode)→ Shift_… トラックバック:0 コメント:3 2009年06月23日 続きを読むread more
Pythonに初挑戦(お題:不正なUTF-8バイト値を探す) 前のポスト で、なぜ Unicode の仕様を調べていたかというと、 実は Python でプログラムを書いてみたかっただけだったり。 お題:『UTF-8 文書に登場しないバイト値を探してみる』 我ながら、日々の業務に役立つ実用的なお題です。(違) 普段なら Perl か JavaScript で組みたくなってしまうけ… トラックバック:0 コメント:1 2008年11月09日 続きを読むread more
Unicode は計17面、21ビットまで。UTF-8 は4バイトまで。 UTF-8 の仕様を知ったとき、U+0080 以降では1バイト目が C0~FF、 2バイト目以降が 80~BF の範囲内になっていて、EUC とかと違って 文字の先頭バイトの位置が確認できる仕様は賢いと思った。 その頃の UCS-4 では、1文字31ビットで最大で128群×256面×65,536文字の 収録が想定されていて… トラックバック:1 コメント:0 2008年11月09日 続きを読むread more
[Perl] 2つのシグマ 03A3/2211 シグマの文字には以下の2種類のコードがあるそうです。 Unicode 03A3 (GREEK CAPITAL LETTER SIGMA) JIS 2632 EUC-JP A6B2 Shift_JIS 83B0と Unicode 2211 (N-ARY SUMMATI… トラックバック:0 コメント:0 2006年02月02日 続きを読むread more