[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか



こんばんは、

On Wed, Jan 09, 2013 at 05:00:32PM +0900, Koichi Akabe wrote:
> あかべです。
> 
> On Mon, 7 Jan 2013 21:59:04 +0900
> Osamu Aoki <osamu@debian.org> wrote:
> 
> > > 赤部さん、確認してもらえますか。また mecab-ipadic-utf8 ベース に移行した場合の動作チェック等を
> > > 行なって頂けますか。
> > 
> >  mecab-ipadic-utf8
> >  mecab-naist-jdic
> > この両方を試して下さい。
> >  
> 
> 両方で試しましたが漢字を再生できませんでした。
> Open JTalkの辞書にはアクセント情報が入っているようで[1]、csvファイルを見
> ると実際に各行の末尾に追加的なデータが入っていることを確認しました。
> アクセント情報の有無が再生に影響しているのではないかと思っています。

> [1] https://twitter.com/heigazen/status/192887361170980864

あ、そうでした。確か前に調べてそうっだったのを忘れてました。

ソースを見てみたのですが、辞書ファイルのnaist-jdic.csv(EUC)が例えば:

mecab-naist-jdic :
あおざめる,645,645,6636,動詞,自立,*,*,一段,基本形,あおざめる,アオザメル,アオザメル,あおざめる/青ざめる,

open-jtalk
あおざめ,649,649,8251,動詞,自立,*,*,一段,未然形,あおざめる,アオザメ,アオザメ,4/4,C1

と発音情報が加わってい、一方表記法違いの列記情報がなくなっています。

よく見ると、品詞分解も単に「学校文法」への分解ではなく、
どうも実用性を考えた品詞分解や辞書単語選択になっています。
naist-jdicの辞書がかなり手作業での改良があったと見受けました。
そういった意味で品質問題はかなりいいのではないでしょうか。

char.defの日付も 2006/07/05 ->2009-11-11の3年間たって変更されています。

そうしてみると、open-jtalkから作られるUTF-8辞書があるといいなというのが
むしろ実感です。

青木