|
京都大学 情報学研究科のオープンソース形態素解析エンジンMeCab(和布蕪)を インストールして試してみたメモ。ChaSen, Juman, KAKASIより高速らしい。 今回は、形態素解析自体じゃなくて、分かち書き・読み仮名取得が目的です。 http://mecab.sourceforge.jp/ http://dl.sourceforge.jp/mecab/19465/mecab-0.90.tar.gz http://dl.sourceforge.jp/mecab/18371/mecab-ipadic-2.7.0-20051110.tar.gz http://dl.sourceforge.jp/mecab/19467/mecab-perl-0.90.tar.gz ※インストール先パスは/usr/local/mecab-0.90、環境はMac OS X 10.4です。 (追記:Fedora Core 5 でも↓の手順でインストールを確認しました) まずMeCab本体をインストールする tar zxvf mecab-0.90.tar.gz 次に別パッケージで配布されているIPA辞書をインストールする tar zxvf mecab-ipadic-2.7.0-20051110.tar.gz とりあえず、コマンドラインで動作確認する(EUC-JP) /usr/local/mecab-0.90/bin/mecab Perlバインディング(MeCab.pm)をインストールする tar zxvf mecab-perl-0.90.tar.gz※MACOSX_DEPLOYMENT_TARGETの行はMac OS X環境でのみ必要。 Perlからの分かち書き(読み仮名+品詞情報)取得のサンプルスクリプト #!/usr/bin/perl 実行結果(見出し/読み/品詞)
Juman.pmとは異なり、MeCab.pmから直接MeCabのライブラリにアクセスしているようで 動作も軽いです。JumanとMeCabの品詞分類を比べてみるのも面白いです。 |
| << 前記事(2006/04/04) | トップへ | 後記事(2006/04/13)>> |
| タイトル (本文) | ブログ名/日時 |
|---|---|
perl - rubyfury.cgi now sports mecab!
これにインスパイヤされて、以前転がしといたrubyfury.cgiをMeCabを使うように書き換えてみました。 [Perl] 形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ京都大学 情報学研究科のオープンソース形態素解析エンジンMeCab(和布蕪)を インスト... ...続きを見る |
404 Blog Not Found 2006/04/10 06:05 |
| 内 容 | ニックネーム/日時 |
|---|---|
ほっほっぉー(゜o゜) |
beginner 2006/04/04 11:27 |
日本語→ローマ字変換モジュールを、JUMAN・MeCabに対応させました。 |
ゆうすけ 2006/04/04 15:40 |
にゃるほど。ご説明いただき、ありがとうございました。(遅いレスですみません) |
beginner 2006/04/10 13:53 |
| << 前記事(2006/04/04) | トップへ | 後記事(2006/04/13)>> |