[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18473] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか



こんばんは、

On Sun, Jan 06, 2013 at 04:57:58PM +0900, Hideki Yamane wrote:
> 
>  やまねです。
> 
>  手元にある日本語形態素解析関連なパッケージを git.debian.org の collab-maint
>  (あるいはaliothに別途チーム作る)に置くのはどうか、と思いたちました。

基本的に賛成です。技術的にはcollab-maint設定なら今すぐ出来ます。
snapshot.debian.orgのパッケージを持ってきて、

 $ git-import-dscs `ls *.dsc`

でPUSHでOKですね。この作業はかなり慣れているので、合意後1ヶ月ぐらいい
ただければ時間を見つけて簡単にやっちゃいますよ。

むしろaliothにMLを適当な名前で開設し、そこに
情報を共有化し、メンテナアドレスを一本化する(IMでは
Maintainer: IME Packaging Team <pkg-ime-devel@lists.alioth.debian.org> 
というのを作ってから、風通しと情報共有がが良くなりました。)

>  みなさんのご意見を伺いたく。
 
aliothにpkg-mecabをプロジェクト登録し、pkg-mecab-develを共通で使うのが
一番自然な気がします。(あまり分散すると、困るので…)

http://mecab.googlecode.com/svn/trunk/mecab/doc/feature.html
によれば、mecab以前のオープンな形態素解析器として Juman, ChaSen
が存在するそうですので。

>  #私だけかもしれませんが、一人で持っててもシンドイだけなので。
> 
>   - naist-jdic
>   - mecab-naist-jdic

まあ、本当はこれら2つはmecab-ipadicとipadicとほとんど同じ
データーですがね。naist系はライセンスがより綺麗ですが、
その作業の際にどうもデーターの整合性が落ちたという印象を
持っています。  http://bugs.debian.org/636056
この指摘はあくまでひどいところだけですから。。。

ドキュメンテーションのエンコーディングをなるべくUTF-8で
そろえたり、encoding違いのデーター作成をパッケージング段
階でするか、postinstで強引にするのかどういうポリシーで
パッケージするのか悩ましいところです。

>   - unidic-mecab(ITPed)

少なくともディストリビュータブルなら。。。ぜひ加えたいですね。

>   - darts

mecab のライブラリですね。

>   - chasen (co-maint、野首さん)

mecab のご先祖さんというか親戚というかの感じかな。。。
> 
>  ついでに
>   - mecab(土屋さん、安井さん)
>   - mecab-jumandic(土屋さん)

jumandicの本家はとおもって探したら
 http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
からのリンクは死んでますね。

>   - mecab-ipadic(青木さん)
すでに、collab-maint になってます。

Source: mecab-ipadic
Maintainer: Osamu Aoki <osamu@debian.org>
Uploaders: TSUCHIYA Masatoshi <tsuchiya@xxxxxxxxxx>
Homepage: http://code.google.com/p/mecab/
Vcs-Git: git://git.debian.org/collab-maint/mecab-ipadic.git
Vcs-Browser: http://git.debian.org/?p=collab-maint/mecab-ipadic.git;a=summary

それから、これもですね。
Source: ipadic
Section: misc
Maintainer: Osamu Aoki <osamu@debian.org>
Homepage: http://chasen-legacy.sourceforge.jp/
Vcs-Git: git://git.debian.org/git/collab-maint/ipadic.git
Vcs-browser: http://git.debian.org/?p=collab-maint/ipadic.git

>   - libmecab-{jni,java} (谷口さん)
mecabのjava binding ですね?

>   - open-jtalk-mecab-naist-jdic (赤部さん)

ソースはopen-jtalk ですよね。でもmecab-naist-jdicとは本質的には同じもの?
なぜ大きなデーターパッケージが重複存在するのか、collab-maintする意味あり
そうですね。

>  が加われば完璧、というところでしょうか。
>  
>  #python-mecab,ruby-mecab,libmecab-perl,は各言語の専任チーム配下なのでそのままで。

この辺もMLがあれば情報共有楽になりそうですね。このメールで関係者全員に届いてい、
合意になるのかな?関係者の方、レスお願いします。

青木