やまねです。
mecabのデフォルト辞書はunidicにしたほうがいいよ、というバグレポートが ありました。 http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=788822
どなたか ・jumandic ・naist-jdic ・ipadic ・unidic はどういう優先度にするのがよいか、ご意見と理由をいただけませんか。
野首です。
At Sun, 29 Jan 2017 20:50:53 +0900, Hideki Yamane wrote:
mecabのデフォルト辞書はunidicにしたほうがいいよ、というバグレポートが ありました。 http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=788822
この指摘は概ね正しいと思います。ipadicは古く、新たに語彙が追加される ことはないでしょう。unidicは形態素の単位かなり小さくとっているので、 「形態素解析」用の辞書としては適していると思います。
利用する上で留意すべき点としては、unidicとipadicで品詞体系が異なって いることです。ipadicの品詞情報を期待している場合に互換性がないので利用 者が困ることがもしかするとあるかもしれません。
互換性の点ではnaist-jdicがipadicと同等なので、新しさでいえばそちらを 優先しても良いかもしれません。
jumandicはまたさらに若干異なる品詞体系となっています。なので、先の3 の辞書よりもオプショナルな位置づけで良いのかなと思います。
mecabの使われ方として必ずしも厳密な形態素解析を求められるばかりでは なく、「単語の分割」レベルであることも多いのですが、その場合にもunidic が適しているかというとそうでもないのではないかと個人的には思います。
私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方 の意見もうかがいたいところです。
この件と直接関係ないのですが、mecab-ipadicに新しい語彙を追加している mecab-ipadic-NEologd[1]というものがあります。一時これのパッケージ化も 考えたのですが、更新が割と頻繁なので直接パッケージにせず、最新のものを パッケージ化するツール(javaでいえばjava-packageに相当するもの)の方がい いかなと今は思っています。
On Wed, 01 Feb 2017 08:08:57 +0900 NOKUBI Takatsugu knok@daionet.gr.jp wrote:
私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方 の意見もうかがいたいところです。
今月行われた言語処理学会第23回年次大会の発表資料が公開されて いたので、この内容を調べれば定量的な評価ができると思い、調べて みました。
公開されているPDFは306あります。そのうち、関係ありそうなものは 44ありました。 テキスト化してキーワードでgrepしつつ、内容を精査して実際にMeCabの 辞書として利用しているケースを調べたところ、以下のようになりました。
|ipadic|mecab-ipadic-NEologd|UniDic|naist-jdic|jumandic| |------|--------------------|------|----------|--------| | 2| 9| 13| 1| 1|
やはりアカデミック用途ではUniDicが一番多いようです。 ついでに利用されている形態素解析器についても調べてみました。
|MeCab|JUMAN|JUMAN++| |-----|-----|-------| | 22| 10| 4|
ChaSenを使った例はありませんでした(個人的には予想通り)。まだ debになっていないJUMAN++の利用例が増えている点が気になります。 ただ、JUMAN++はライブラリになっていなくて使いづらいという問題が あるのですよね…pipeで呼び出すタイプのpython bindingなどはある のですが、予期せぬ解析ミスでエラーになったりして具合がよろしく ありません。