[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか



こんばんは。あかべです。

On Wed, 9 Jan 2013 22:42:17 +0900
Osamu Aoki <osamu@debian.org> wrote:

> ソースを見てみたのですが、辞書ファイルのnaist-jdic.csv(EUC)が例えば:
> 
> mecab-naist-jdic :
> あおざめる,645,645,6636,動詞,自立,*,*,一段,基本形,あおざめる,アオザメル,アオザメル,あおざめる/青ざめる,
> 
> open-jtalk
> あおざめ,649,649,8251,動詞,自立,*,*,一段,未然形,あおざめる,アオザメ,アオザメ,4/4,C1
> 
> と発音情報が加わってい、一方表記法違いの列記情報がなくなっています。
> 
> よく見ると、品詞分解も単に「学校文法」への分解ではなく、
> どうも実用性を考えた品詞分解や辞書単語選択になっています。
> naist-jdicの辞書がかなり手作業での改良があったと見受けました。
> そういった意味で品質問題はかなりいいのではないでしょうか。
> 
> char.defの日付も 2006/07/05 ->2009-11-11の3年間たって変更されています。
> 
> そうしてみると、open-jtalkから作られるUTF-8辞書があるといいなというのが
> むしろ実感です。
> 

詳しく調べていただきありがとうございます。

open-jtalk-mecab-naist-jdic はUTF-8でインデックス化しています。GNOME端末
やgeditのデフォルトのエンコードがUTF-8なので、すぐに使い始めるにはUTF-8
が一番便利かと思っています。

もしも需要があるようであれば、EUC-JPなど他のエンコードのパッケージも検討
してみます。

-- 
Koichi Akabe
  vbkaisetsu at {gmail.com, debian.or.jp}