On Wed, 01 Feb 2017 08:08:57 +0900 NOKUBI Takatsugu knok@daionet.gr.jp wrote:
私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方 の意見もうかがいたいところです。
今月行われた言語処理学会第23回年次大会の発表資料が公開されて いたので、この内容を調べれば定量的な評価ができると思い、調べて みました。
公開されているPDFは306あります。そのうち、関係ありそうなものは 44ありました。 テキスト化してキーワードでgrepしつつ、内容を精査して実際にMeCabの 辞書として利用しているケースを調べたところ、以下のようになりました。
|ipadic|mecab-ipadic-NEologd|UniDic|naist-jdic|jumandic| |------|--------------------|------|----------|--------| | 2| 9| 13| 1| 1|
やはりアカデミック用途ではUniDicが一番多いようです。 ついでに利用されている形態素解析器についても調べてみました。
|MeCab|JUMAN|JUMAN++| |-----|-----|-------| | 22| 10| 4|
ChaSenを使った例はありませんでした(個人的には予想通り)。まだ debになっていないJUMAN++の利用例が増えている点が気になります。 ただ、JUMAN++はライブラリになっていなくて使いづらいという問題が あるのですよね…pipeで呼び出すタイプのpython bindingなどはある のですが、予期せぬ解析ミスでエラーになったりして具合がよろしく ありません。