[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか

From: Koichi Akabe <vbkaisetsu@xxxxxxxxx>
Subject: [debian-devel:18489] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Date: Wed, 9 Jan 2013 23:03:31 +0900
Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=20120113; h=x-received:date:from:to:subject:message-id:in-reply-to:references :x-mailer:mime-version:content-type:content-transfer-encoding; bh=N4wgk16IXoyS2+Z+g+wVzxEixmR2iHUOo8bch4ZiL20=; b=btLN1guFa3CoT4DZTq93K/uvrAv1UFlg7oK4P+dvmVfM9LCiFmbLGyLw59IOzuoef6 qFxGfC6wM66RtF8MRtzDHxktVnugLlQmM4Q7Wte87jjGyleab7oUROEiS3S71mufbbJu 3BVCeNH2emzky4Spr5IW1R4TtGdgRCr6+klBS+ll52m6/cRSH8dMfxgWExkaH4I4o7Hi VjC6A3oSYbCc/sOwVsY30PXso+ukQaLNoOIfna5kEjJb/zPXOEko09qdFe9IJNKxuZ2q a93kgouzU7GCXcoUvdKbS+DBC5lgYYCFYPai+4+GZGj1yPOlJ09JlFrsBjy5R+Zendbk oAVQ==
List-help: <mailto:debian-devel-ctl@debian.or.jp?body=help>
List-id: debian-devel.debian.or.jp
List-owner: <mailto:debian-devel-admin@debian.or.jp>
List-post: <mailto:debian-devel@debian.or.jp>
List-software: fml [fml 4.0.3 release (20011202/4.0.3)]
List-unsubscribe: <mailto:debian-devel-ctl@debian.or.jp?body=unsubscribe>
X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-devel-ctl@debian.or.jp; help=<mailto:debian-devel-ctl@debian.or.jp?body=help>
X-ml-name: debian-devel
X-mlserver: fml [fml 4.0.3 release (20011202/4.0.3)]; post only (only members can post)
X-original-to: debian-devel-dist@debian.or.jp
X-received: by 10.68.248.70 with SMTP id yk6mr209375674pbc.160.1357740209134; Wed, 09 Jan 2013 06:03:29 -0800 (PST)
X-spam-checker-version: SpamAssassin 3.2.5 (2008-06-10) on osdn.debian.or.jp
X-spam-level:
X-spam-status: No, score=-3.4 required=10.0 tests=KI,RCVD_IN_DNSWL_LOW autolearn=disabled version=3.2.5
References: <20130106145233.c6d6db5086c50e94f1c88df2@debian.or.jp> <20130106131723.GB29783@xxxxxxxxxxxxxxxxx> <CABMQnVKDfNuHfY9gbPRSTReZ-ZZS0aA4Jk4AJ8QH6hKYvqE4tA@xxxxxxxxxxxxxx> <20130107125852.GB5789@xxxxxxxxxxxxxxxxx> <20130109170027.b75873d458ad10520b7acf59@xxxxxxxxx> <20130109134212.GB10154@xxxxxxxxxxxxxxxxx>
Message-id: <20130109230325.309e38393217e76387b29706@xxxxxxxxx>
X-mail-count: 18489
X-mailer: Sylpheed 3.3.0 (GTK+ 2.24.13; i686-pc-linux-gnu)

こんばんは。あかべです。

On Wed, 9 Jan 2013 22:42:17 +0900
Osamu Aoki <osamu@debian.org> wrote:

> ソースを見てみたのですが、辞書ファイルのnaist-jdic.csv（EUC）が例えば：
> 
> mecab-naist-jdic :
> あおざめる,645,645,6636,動詞,自立,*,*,一段,基本形,あおざめる,アオザメル,アオザメル,あおざめる/青ざめる,
> 
> open-jtalk
> あおざめ,649,649,8251,動詞,自立,*,*,一段,未然形,あおざめる,アオザメ,アオザメ,4/4,C1
> 
> と発音情報が加わってい、一方表記法違いの列記情報がなくなっています。
> 
> よく見ると、品詞分解も単に「学校文法」への分解ではなく、
> どうも実用性を考えた品詞分解や辞書単語選択になっています。
> naist-jdicの辞書がかなり手作業での改良があったと見受けました。
> そういった意味で品質問題はかなりいいのではないでしょうか。
> 
> char.defの日付も　2006/07/05 ->2009-11-11の３年間たって変更されています。
> 
> そうしてみると、open-jtalkから作られるUTF-8辞書があるといいなというのが
> むしろ実感です。
> 

詳しく調べていただきありがとうございます。

open-jtalk-mecab-naist-jdic はUTF-8でインデックス化しています。GNOME端末
やgeditのデフォルトのエンコードがUTF-8なので、すぐに使い始めるにはUTF-8
が一番便利かと思っています。

もしも需要があるようであれば、EUC-JPなど他のエンコードのパッケージも検討
してみます。

-- 
Koichi Akabe
  vbkaisetsu at {gmail.com, debian.or.jp}

References:
- [debian-devel:18471] [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Hideki Yamane
- [debian-devel:18473] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Osamu Aoki
- [debian-devel:18478] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Nobuhiro Iwamatsu
- [debian-devel:18483] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Osamu Aoki
- [debian-devel:18485] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Koichi Akabe
- [debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
  - From: Osamu Aoki

Prev by Date: [debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Next by Date: [debian-devel:18490] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Previous by thread: [debian-devel:18488] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Next by thread: [debian-devel:18480] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか
Index(es):
- Date
- Thread