[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか

From: Osamu Aoki <osamu@debian.org>
Subject: [debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Date: Wed, 9 Jan 2013 22:42:17 +0900
Content-disposition: inline
List-help: <mailto:debian-devel-ctl@debian.or.jp?body=help>
List-id: debian-devel.debian.or.jp
List-owner: <mailto:debian-devel-admin@debian.or.jp>
List-post: <mailto:debian-devel@debian.or.jp>
List-software: fml [fml 4.0.3 release (20011202/4.0.3)]
List-unsubscribe: <mailto:debian-devel-ctl@debian.or.jp?body=unsubscribe>
X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-devel-ctl@debian.or.jp; help=<mailto:debian-devel-ctl@debian.or.jp?body=help>
X-ml-name: debian-devel
X-mlserver: fml [fml 4.0.3 release (20011202/4.0.3)]; post only (only members can post)
X-nifty-srcip: [113.151.139.119]
X-original-to: debian-devel-dist@debian.or.jp
X-spam-checker-version: SpamAssassin 3.2.5 (2008-06-10) on osdn.debian.or.jp
X-spam-level:
X-spam-status: No, score=0.5 required=10.0 tests=KI,TVD_SPACE_RATIO autolearn=disabled version=3.2.5
References: <20130106145233.c6d6db5086c50e94f1c88df2@debian.or.jp> <20130106131723.GB29783@xxxxxxxxxxxxxxxxx> <CABMQnVKDfNuHfY9gbPRSTReZ-ZZS0aA4Jk4AJ8QH6hKYvqE4tA@xxxxxxxxxxxxxx> <20130107125852.GB5789@xxxxxxxxxxxxxxxxx> <20130109170027.b75873d458ad10520b7acf59@xxxxxxxxx>
Message-id: <20130109134212.GB10154@xxxxxxxxxxxxxxxxx>
X-mail-count: 18488
User-agent: Mutt/1.5.21 (2010-09-15)

こんばんは、

On Wed, Jan 09, 2013 at 05:00:32PM +0900, Koichi Akabe wrote:
> あかべです。
> 
> On Mon, 7 Jan 2013 21:59:04 +0900
> Osamu Aoki <osamu@debian.org> wrote:
> 
> > > 赤部さん、確認してもらえますか。また mecab-ipadic-utf8 ベース に移行した場合の動作チェック等を
> > > 行なって頂けますか。
> > 
> > 　mecab-ipadic-utf8
> > 　mecab-naist-jdic
> > この両方を試して下さい。
> >  
> 
> 両方で試しましたが漢字を再生できませんでした。
> Open JTalkの辞書にはアクセント情報が入っているようで[1]、csvファイルを見
> ると実際に各行の末尾に追加的なデータが入っていることを確認しました。
> アクセント情報の有無が再生に影響しているのではないかと思っています。

> [1] https://twitter.com/heigazen/status/192887361170980864

あ、そうでした。確か前に調べてそうっだったのを忘れてました。

ソースを見てみたのですが、辞書ファイルのnaist-jdic.csv（EUC）が例えば：

mecab-naist-jdic :
あおざめる,645,645,6636,動詞,自立,*,*,一段,基本形,あおざめる,アオザメル,アオザメル,あおざめる/青ざめる,

open-jtalk
あおざめ,649,649,8251,動詞,自立,*,*,一段,未然形,あおざめる,アオザメ,アオザメ,4/4,C1

と発音情報が加わってい、一方表記法違いの列記情報がなくなっています。

よく見ると、品詞分解も単に「学校文法」への分解ではなく、
どうも実用性を考えた品詞分解や辞書単語選択になっています。
naist-jdicの辞書がかなり手作業での改良があったと見受けました。
そういった意味で品質問題はかなりいいのではないでしょうか。

char.defの日付も　2006/07/05 ->2009-11-11の３年間たって変更されています。

そうしてみると、open-jtalkから作られるUTF-8辞書があるといいなというのが
むしろ実感です。

青木

Follow-Ups:
- [debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Koichi Akabe

References:
- [debian-devel:18471] [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Hideki Yamane
- [debian-devel:18473] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Osamu Aoki
- [debian-devel:18478] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Nobuhiro Iwamatsu
- [debian-devel:18483] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Osamu Aoki
- [debian-devel:18485] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Koichi Akabe

Prev by Date: [debian-devel:18487] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Next by Date: [debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Previous by thread: [debian-devel:18487] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Next by thread: [debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Index(es):
- Date
- Thread