Kawa.netブログ(川崎有亮)

アクセスカウンタ

help リーダーに追加 RSS [Mac] MacOS X 10.4 に MeCab をインストールした手順

<<   作成日時 : 2005/12/05 00:42   >>

トラックバック 0 / コメント 0

MeCab とは、奈良先端科技大で開発されている形態素解析器のプログラム。
日本語の文章を品詞ごとに分解してくれます。
今回はソースから MacOS X 10.4 (gcc 4.0) にインストールしました。
fink では MeCab のパッケージが用意されていないらしい、たぶん?

●ダウンロード

http://www.chasen.org/~taku/software/mecab/src/mecab-0.81.tar.gz
http://chasen.naist.jp/stable/ipadic/ipadic-2.5.1.tar.gz
http://www.chasen.org/~taku/software/mecab/bindings/mecab-perl-0.81.tar.gz

※ipadic の最新版は2.7.0だがコンパイルできなかったので、2.5.1を利用した。

●インストール

gcc は標準の 4.0 のままで入りました。
--disable-shared を付けなくても動きました。
今回の用途では Perl から使いたいので、UTF-8 にしています。
/usr/local/***-*.* に入れてるのは、ソースから入れるときの好みです。

tar zxvf mecab-0.81.tar.gz
cd mecab-0.81/dic/
tar zxvf ../../ipadic-2.5.1.tar.gz
cd ..
./configure --prefix=/usr/local/mecab-0.81 --with-charset=utf8 && make
sudo make install
cd ..
PATH=/usr/local/mecab-0.81/bin:$PATH perl Makefile.PL
MACOSX_DEPLOYMENT_TARGET=10.4 make
sudo make install


●mecab本体のテスト

『MeCab は, 奈良先端科学技術大学院大学自然言語処理学講座の開発する形態素解析器 ChaSenを基に開発された高速な形態素解析器です.』の1行が入ったテキストファイルを test.txt という名前で作成します。
(文字コードは UTF-8 を使用する)

$ /usr/local/mecab-0.81/bin/mecab test.pl
MeCab 未知語,*,*,*,*,*,*,*,*
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
, 未知語,*,*,*,*,*,*,*,*
奈良先端科学技術大学院大学 名詞,固有名詞,組織,*,*,*,奈良先端科学技術大学院大学,ナラセ
ンタンカガクギジュツダイガクインダイガク,ナラセンタンカガクギジュツダイガクインダイガク
自然 名詞,形容動詞語幹,*,*,*,*,自然,シゼン,シゼン
言語 名詞,一般,*,*,*,*,言語,ゲンゴ,ゲンゴ
処理 名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ
学 名詞,接尾,一般,*,*,*,学,ガク,ガク
講座 名詞,一般,*,*,*,*,講座,コウザ,コーザ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
開発 名詞,サ変接続,*,*,*,*,開発,カイハツ,カイハツ
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
器 名詞,接尾,一般,*,*,*,器,キ,キ
ChaSen 未知語,*,*,*,*,*,*,*,*
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
基 名詞,一般,*,*,*,*,基,モト,モト
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
開発 名詞,サ変接続,*,*,*,*,開発,カイハツ,カイハツ
さ 動詞,自立,*,*,サ変・スル,未然レル接続,する,サ,サ
れ 動詞,接尾,*,*,一段,連用形,れる,レ,レ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
高速 名詞,一般,*,*,*,*,高速,コウソク,コーソク
な 助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
器 名詞,接尾,一般,*,*,*,器,キ,キ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
. 未知語,*,*,*,*,*,*,*,*
EOS


●Perlバインディングのテスト

Perl バインディングについては、mecab-perl-0.81.tar.gz の中に
サンプルプログラム test.pl が入っているので、EUC コードから
UTF-8 コードに変換した上で試してみる。

$ nkf -Ew test.pl > test-utf8.pl
$ perl test-utf8.pl
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS
BOS/EOS,*,*,*,*,*,*,*,*
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*
EOS


インストールできた。さーてこれを使えるかな?

設定テーマ

注目テーマ 一覧

月別リンク

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文

EDGE Now!