テーマ:UTF-8

Pythonに初挑戦(お題:不正なUTF-8バイト値を探す)

前のポスト で、なぜ Unicode の仕様を調べていたかというと、 実は Python でプログラムを書いてみたかっただけだったり。   お題:『UTF-8 文書に登場しないバイト値を探してみる』 我ながら、日々の業務に役立つ実用的なお題です。(違) 普段なら Perl か JavaScript で組みたくなってしまうけ…
トラックバック:0
コメント:1

続きを読むread more

Unicode は計17面、21ビットまで。UTF-8 は4バイトまで。

UTF-8 の仕様を知ったとき、U+0080 以降では1バイト目が C0~FF、 2バイト目以降が 80~BF の範囲内になっていて、EUC とかと違って 文字の先頭バイトの位置が確認できる仕様は賢いと思った。   その頃の UCS-4 では、1文字31ビットで最大で128群×256面×65,536文字の 収録が想定されていて…
トラックバック:1
コメント:0

続きを読むread more

[Perl] 5.10.0 で pack・unpack の仕様が変わった『U0C*』とか

日本語・中国語・韓国語の文字列をローマ字読み下しする Lingua::*::Romanize::* 系モジュール群を Google Code に移動したので、この週末に久しぶりにバージョンアップを実施。 従来は、UTF-8 フラグ OFF のバイト列 UTF-8 コードにのみ対応していたのを、 UTF-8 フラグ ON の文字列と…
トラックバック:0
コメント:0

続きを読むread more

[Perl] JSON モジュールの utf8 フラグ周りの仕様 tips 注意点

Perl の JSON モジュールで日本語を含む文字列を扱う際の tips。 [Perl] JSON モジュール 2.x 系は、1.x 系と互換性が△ の記事で、JSON::XS モジュールとの互換性(ソース&ドキュメントも!)を実現した代わりに 従来の JSON.pm のインターフェースが obsolete になってしまうのは残…
トラックバック:0
コメント:1

続きを読むread more