野首です。
At Sun, 29 Jan 2017 20:50:53 +0900, Hideki Yamane wrote:
mecabのデフォルト辞書はunidicにしたほうがいいよ、というバグレポートが ありました。 http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=788822
この指摘は概ね正しいと思います。ipadicは古く、新たに語彙が追加される ことはないでしょう。unidicは形態素の単位かなり小さくとっているので、 「形態素解析」用の辞書としては適していると思います。
利用する上で留意すべき点としては、unidicとipadicで品詞体系が異なって いることです。ipadicの品詞情報を期待している場合に互換性がないので利用 者が困ることがもしかするとあるかもしれません。
互換性の点ではnaist-jdicがipadicと同等なので、新しさでいえばそちらを 優先しても良いかもしれません。
jumandicはまたさらに若干異なる品詞体系となっています。なので、先の3 の辞書よりもオプショナルな位置づけで良いのかなと思います。
mecabの使われ方として必ずしも厳密な形態素解析を求められるばかりでは なく、「単語の分割」レベルであることも多いのですが、その場合にもunidic が適しているかというとそうでもないのではないかと個人的には思います。
私は自然言語処理をきちんと体系的に学んだわけではないので(ここしばら く学習はしていますが)、この意見はこれまでの経験で得た所感です。他の方 の意見もうかがいたいところです。
この件と直接関係ないのですが、mecab-ipadicに新しい語彙を追加している mecab-ipadic-NEologd[1]というものがあります。一時これのパッケージ化も 考えたのですが、更新が割と頻繁なので直接パッケージにせず、最新のものを パッケージ化するツール(javaでいえばjava-packageに相当するもの)の方がい いかなと今は思っています。