卒研メモ:日本語形態素解析ツール

 日本語は英語とは異なり,単語の分かち書き(単語間にスペースを入れる書き方)をしないため,文章を解析して単語を分割する必要があります。分解する際には単語の品詞を区別するため,形態素解析(Morphological Analysis)と呼ばれるツールが,日本語のテキスト解析には不可欠のものになります。

 フリーで使える形態素解析ツールとして有名なのはMeCabです。このサーバにも入っていますので,試してみて下さい。但し,辞書の更新を行っていないため,最近の固有名詞には対応していません。適宜アップデートしてくれる機構もあるのですが,辞書が一方的に馬鹿でかくなるので,そろそろストレージに余裕のなくなってきた本サーバには組み込んでいません(多分,本学クラウドに用意することになる筈)。

 インストールしなくても使えるものとしては,Yahoo! Japanが用意しているWeb APIがあります。ここにサンプルプログラムを突っ込んでみましたので,試してみて下さい。辞書のメンテナンスがどの程度行われているのかは良く分かりませんので,調べてみる価値はあるかと思います。

 適宜,良さげなものを使ってみて下さい。

投稿者: T.Kouya

静岡理工科大学 情報学部 コンピュータシステム学科 教員