[debian-users 00050] Re: mecab用の辞書

NOKUBI Takatsugu knok @ daionet.gr.jp
2017年 3月 30日 (木) 17:58:58 JST


On Wed, 01 Feb 2017 08:08:57 +0900
NOKUBI Takatsugu <knok @ daionet.gr.jp> wrote:

>  私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら
> く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方
> の意見もうかがいたいところです。

 今月行われた言語処理学会第23回年次大会の発表資料が公開されて
いたので、この内容を調べれば定量的な評価ができると思い、調べて
みました。

 公開されているPDFは306あります。そのうち、関係ありそうなものは
44ありました。
 テキスト化してキーワードでgrepしつつ、内容を精査して実際にMeCabの
辞書として利用しているケースを調べたところ、以下のようになりました。

|ipadic|mecab-ipadic-NEologd|UniDic|naist-jdic|jumandic|
|------|--------------------|------|----------|--------|
|     2|                   9|    13|         1|       1|

 やはりアカデミック用途ではUniDicが一番多いようです。
ついでに利用されている形態素解析器についても調べてみました。

|MeCab|JUMAN|JUMAN++|
|-----|-----|-------|
|   22|   10|      4|

 ChaSenを使った例はありませんでした(個人的には予想通り)。まだ
debになっていないJUMAN++の利用例が増えている点が気になります。
ただ、JUMAN++はライブラリになっていなくて使いづらいという問題が
あるのですよね…pipeで呼び出すタイプのpython bindingなどはある
のですが、予期せぬ解析ミスでエラーになったりして具合がよろしく
ありません。


debian-users メーリングリストの案内