[debian-users 00050] Re: mecab用の辞書
NOKUBI Takatsugu
knok @ daionet.gr.jp
2017年 3月 30日 (木) 17:58:58 JST
On Wed, 01 Feb 2017 08:08:57 +0900
NOKUBI Takatsugu <knok @ daionet.gr.jp> wrote:
> 私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら
> く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方
> の意見もうかがいたいところです。
今月行われた言語処理学会第23回年次大会の発表資料が公開されて
いたので、この内容を調べれば定量的な評価ができると思い、調べて
みました。
公開されているPDFは306あります。そのうち、関係ありそうなものは
44ありました。
テキスト化してキーワードでgrepしつつ、内容を精査して実際にMeCabの
辞書として利用しているケースを調べたところ、以下のようになりました。
|ipadic|mecab-ipadic-NEologd|UniDic|naist-jdic|jumandic|
|------|--------------------|------|----------|--------|
| 2| 9| 13| 1| 1|
やはりアカデミック用途ではUniDicが一番多いようです。
ついでに利用されている形態素解析器についても調べてみました。
|MeCab|JUMAN|JUMAN++|
|-----|-----|-------|
| 22| 10| 4|
ChaSenを使った例はありませんでした(個人的には予想通り)。まだ
debになっていないJUMAN++の利用例が増えている点が気になります。
ただ、JUMAN++はライブラリになっていなくて使いづらいという問題が
あるのですよね…pipeで呼び出すタイプのpython bindingなどはある
のですが、予期せぬ解析ミスでエラーになったりして具合がよろしく
ありません。
debian-users メーリングリストの案内