[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18483] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか



さて、

確かに、UBUNTUとSOURCEレベルで揃えられるといいですね。

Open JTalk及び関連パッケージですが:

> これは http://lists.debian.or.jp/debian-devel/201110/msg00004.html が理由です。

これですね。
| Debianに既にある辞書(mecab-jumandic-utf8)を使ったところ、ひらがな以外を音声化で
| きませんでした。mecab-naist-jdic-***を使えば正しく動作するかもしれませんが、
| utf8版が無いので、とりあえずopen-jtalk独自に辞書パッケージを作成しようと思います。

mainだけを探されたのかな?ipadicはnon-freeに置かれていた時期かもしれませんね。

実はパッケージ名がかなり混乱しています。この辺はjessieでは整理が要ります。

UTF-8タイプ
 * mecab-jumandic-utf8
 * mecab-ipadic-utf8
 * mecab-naist-jdic

EUCJPタイプ
 * mecab-jumandic
 * mecab-ipadic
 * mecab-naist-jdic-eucjp

今後は全て
-eucjp
-utf8
をつけるのがいいのでしょう。

> 青木さんがおっしゃるように本質的には同じものですが、いくつかデータが追加されているように
> 見えます。

mecab-naist-jdic系 は mecab-ipadic系よりデーターは増えましたが、
品詞データー品質に問題があるとの認識です。これはmozcのデベロッパ
ー(mecabやipadicに関与?)からも聞いています。
(参照: http://code.google.com/p/mozc/issues/detail?id=20 )

先述のhttp://bugs.debian.org/636056 バグレポートに添付の 
naist-jdic-110831.odt に解析比較詳細結果を書いています。
http://bugs.debian.org/cgi-bin/bugreport.cgi?msg=10;filename=naist-jdic-110831.odt;att=2;bug=636056
さわりを引用すると:
 IPADICからNAIST-JDICへの移行で、単語辞書から活用表により演繹的に
 単語発現形を系統的かつ網羅的に辞書ファイルが作成されなくなり、
 CORPUSでの発現ごとに帰納的に辞書ファイルが作成されることなったよ
 うである。どうもこれによりIPADICにあったICOTライセンス問題を
 クリーンにしたというメリットが確かにあったようだ。しかし、この
 ことは逆に品詞の活用形が系統的に設定されず品詞設定者の判断間違い等
 によると推測される混乱が混入し、どうも非整合のデーターが混入したと
 いう副作用が発生した。これがNAIST-JDICの品質が悪いとのMOZC作者によ
 る評価に継ったのではないだろうか?

またライセンスですが、あくまでディスクレーマー条項なので問題ないと
いうことで、このレポートのあとipadicはDebianのmainに入りました。
この辺も改善の余地があるのですが、コンタクト仕方が。。。

> 赤部さん、確認してもらえますか。また mecab-ipadic-utf8 ベース に移行した場合の動作チェック等を
> 行なって頂けますか。

 mecab-ipadic-utf8
 mecab-naist-jdic
この両方を試して下さい。
 
青木