アクセスカウンタ

テーマ「UTF-8」の記事 help リーダーに追加 RSS

トップへ  |  テーマトップへ  |  テーマランキング一覧へ

タイトル 日 時
Pythonに初挑戦(お題:不正なUTF-8バイト値を探す)
Pythonに初挑戦(お題:不正なUTF-8バイト値を探す) 前のポスト で、なぜ Unicode の仕様を調べていたかというと、 実は Python でプログラムを書いてみたかっただけだったり。   お題:『UTF-8 文書に登場しないバイト値を探してみる』 ...続きを見る

トラックバック 0 / コメント 1

2008/11/09 17:28
Unicode は計17面、21ビットまで。UTF-8 は4バイトまで。
Unicode は計17面、21ビットまで。UTF-8 は4バイトまで。 UTF-8 の仕様を知ったとき、U+0080 以降では1バイト目が C0〜FF、 2バイト目以降が 80〜BF の範囲内になっていて、EUC とかと違って 文字の先頭バイトの位置が確認できる仕様は賢いと思った。   その頃の UCS-4 では、1文字31ビットで最大で128群×256面×65,536文字の 収録が想定されていて(または32ビットだったかも…?)、 それをUTF-8 で表すと1文字あたり最大6バイト長まで続く仕様だったけど、 今は Unicode では、第16面(〜U... ...続きを見る

トラックバック 1 / コメント 0

2008/11/09 16:28
[Perl] 5.10.0 で pack・unpack の仕様が変わった『U0C*』とか
日本語・中国語・韓国語の文字列をローマ字読み下しする Lingua::*::Romanize::* 系モジュール群を Google Code に移動したので、この週末に久しぶりにバージョンアップを実施。 従来は、UTF-8 フラグ OFF のバイト列 UTF-8 コードにのみ対応していたのを、 UTF-8 フラグ ON の文字列と OFF のバイト列のどちらも透過的に扱うように改良。   しかし、CPAN Testers からエラーの報告が。 Perl 5.10.0 では、unpac... ...続きを見る

トラックバック / コメント

2008/01/14 14:37
[Perl] JSON モジュールの utf8 フラグ周りの仕様 tips 注意点
Perl の JSON モジュールで日本語を含む文字列を扱う際の tips。 [Perl] JSON モジュール 2.x 系は、1.x 系と互換性が△ の記事で、JSON::XS モジュールとの互換性(ソース&ドキュメントも!)を実現した代わりに 従来の JSON.pm のインターフェースが obsolete になってしまうのは残念。 今後、JSON.pm は XS 版の JSON::XS とほぼ同機能の Pure Perl 版の JSON::PP の いずれかを自動選択してくれるラッ... ...続きを見る

トラックバック 0 / コメント 1

2008/01/07 05:21

トップへ  |  テーマトップへ  |  テーマランキング一覧へ

EDGE Now!