Kawanet Blog II

アクセスカウンタ

zoom RSS [Perl] 形態素解析MeCab(和布蕪)をPerlから使ってみる

<<   作成日時 : 2006/04/04 00:40   >>

ブログ気持玉 0 / トラックバック 2 / コメント 3

京都大学 情報学研究科のオープンソース形態素解析エンジンMeCab(和布蕪)を
インストールして試してみたメモ。ChaSen, Juman, KAKASIより高速らしい。
今回は、形態素解析自体じゃなくて、分かち書き・読み仮名取得が目的です。

http://mecab.sourceforge.jp/
http://dl.sourceforge.jp/mecab/19465/mecab-0.90.tar.gz
http://dl.sourceforge.jp/mecab/18371/mecab-ipadic-2.7.0-20051110.tar.gz
http://dl.sourceforge.jp/mecab/19467/mecab-perl-0.90.tar.gz

※インストール先パスは/usr/local/mecab-0.90、環境はMac OS X 10.4です。
 (追記:Fedora Core 5 でも↓の手順でインストールを確認しました)

まずMeCab本体をインストールする
tar zxvf mecab-0.90.tar.gz
cd mecab-0.90
./configure --prefix=/usr/local/mecab-0.90
make
sudo make install
cd ..


次に別パッケージで配布されているIPA辞書をインストールする
tar zxvf mecab-ipadic-2.7.0-20051110.tar.gz
cd mecab-ipadic-2.7.0-20051110
./configure --prefix=/usr/local/mecab-0.90 \
    --with-mecab-config=/usr/local/mecab-0.90/bin/mecab-config
make
sudo make install
cd ..


とりあえず、コマンドラインで動作確認する(EUC-JP)
/usr/local/mecab-0.90/bin/mecab


Perlバインディング(MeCab.pm)をインストールする
tar zxvf mecab-perl-0.90.tar.gz
cd mecab-perl-0.90
PATH=/usr/local/mecab-0.90/bin:$PATH perl Makefile.PL
export MACOSX_DEPLOYMENT_TARGET=10.4
LD_RUN_PATH=/usr/local/mecab-0.90/lib make
make test
sudo make install
※MACOSX_DEPLOYMENT_TARGETの行はMac OS X環境でのみ必要。

Perlからの分かち書き(読み仮名+品詞情報)取得のサンプルスクリプト
#!/usr/bin/perl

use strict;
use MeCab;

my $str = "この文を形態素解析して下さい。";

my $mecab = MeCab::Tagger->new();
my $node = $mecab->parseToNode($str);
for( ; $node; $node = $node->{next} ) {
    next unless defined $node->{surface};
    my $midasi = $node->{surface};
    my( $hinsi, $yomi ) = (split( /,/, $node->{feature} ))[0,7];
    print $midasi, "\t", $yomi, "\t", $hinsi, "\n";
}


実行結果(見出し/読み/品詞)
このコノ連体詞
ブン名詞
助詞
形態素ケイタイソ名詞
解析カイセキ名詞
動詞
助詞
下さいクダサイ動詞
記号


Juman.pmとは異なり、MeCab.pmから直接MeCabのライブラリにアクセスしているようで
動作も軽いです。JumanとMeCabの品詞分類を比べてみるのも面白いです。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(2件)

タイトル (本文) ブログ名/日時
perl - rubyfury.cgi now sports mecab!
これにインスパイヤされて、以前転がしといたrubyfury.cgiをMeCabを使うように書き換えてみました。 [Perl] 形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ京都大学 情報学研究科のオープンソース形態素解析エンジンMeCab(和布蕪)を インスト... ...続きを見る
404 Blog Not Found
2006/04/10 06:05
形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ
形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ ...続きを見る

2012/01/23 23:33

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(3件)

内 容 ニックネーム/日時
ほっほっぉー(゜o゜)
形態素解析のシステム比較、興味深いねぇ〜
ちなみに、どんなものに、これら形態素解析機能を利用しようとされているのでしょう。
それも興味深いです。
beginner
2006/04/04 11:27
日本語→ローマ字変換モジュールを、JUMAN・MeCabに対応させました。
形態素解析がしたかった、というよりは日本語の読み下しをしたかったのです。
http://www.kawa.net/works/perl/romanize/romanize.html#history

JUMAN・MeCab についてはまだウェブからは試せるようにしていませんが、
この程度の用途ではJUMAN・MeCab どちらも精度は変わらないですね。
SKK の辞書を使って自前で読み下し処理をしていたルーチンと比較すると、
例えば、助詞の前の短い音読みの単語とかが、賢くなります。
ゆうすけ
2006/04/04 15:40
にゃるほど。ご説明いただき、ありがとうございました。(遅いレスですみません)
beginner
2006/04/10 13:53

コメントする help

ニックネーム
本 文
[Perl] 形態素解析MeCab(和布蕪)をPerlから使ってみる Kawanet Blog II/BIGLOBEウェブリブログ
文字サイズ:       閉じる