[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:18478] Re: [Q] 日本語形態素解析関連なパッケージを git.debian.org の collab-maint に置くのはどうか



こんにちは。岩松です。

2013/1/6 Osamu Aoki <osamu@debian.org>:
> こんばんは、
>
> On Sun, Jan 06, 2013 at 04:57:58PM +0900, Hideki Yamane wrote:
>>
>>  やまねです。
>>
>>  手元にある日本語形態素解析関連なパッケージを git.debian.org の collab-maint
>>  (あるいはaliothに別途チーム作る)に置くのはどうか、と思いたちました。
>
> 基本的に賛成です。技術的にはcollab-maint設定なら今すぐ出来ます。
> snapshot.debian.orgのパッケージを持ってきて、
>
>  $ git-import-dscs `ls *.dsc`
>
> でPUSHでOKですね。この作業はかなり慣れているので、合意後1ヶ月ぐらいい
> ただければ時間を見つけて簡単にやっちゃいますよ。
>
> むしろaliothにMLを適当な名前で開設し、そこに
> 情報を共有化し、メンテナアドレスを一本化する(IMでは
> Maintainer: IME Packaging Team <pkg-ime-devel@lists.alioth.debian.org>
> というのを作ってから、風通しと情報共有がが良くなりました。)
>
>>  みなさんのご意見を伺いたく。
>
> aliothにpkg-mecabをプロジェクト登録し、pkg-mecab-develを共通で使うのが
> 一番自然な気がします。(あまり分散すると、困るので…)
>
> http://mecab.googlecode.com/svn/trunk/mecab/doc/feature.html
> によれば、mecab以前のオープンな形態素解析器として Juman, ChaSen
> が存在するそうですので。
>
>>  #私だけかもしれませんが、一人で持っててもシンドイだけなので。
>>
>>   - naist-jdic
>>   - mecab-naist-jdic
>
> まあ、本当はこれら2つはmecab-ipadicとipadicとほとんど同じ
> データーですがね。naist系はライセンスがより綺麗ですが、
> その作業の際にどうもデーターの整合性が落ちたという印象を
> 持っています。  http://bugs.debian.org/636056
> この指摘はあくまでひどいところだけですから。。。
>
> ドキュメンテーションのエンコーディングをなるべくUTF-8で
> そろえたり、encoding違いのデーター作成をパッケージング段
> 階でするか、postinstで強引にするのかどういうポリシーで
> パッケージするのか悩ましいところです。
>
>>   - unidic-mecab(ITPed)
>
> 少なくともディストリビュータブルなら。。。ぜひ加えたいですね。
>
>>   - darts
>
> mecab のライブラリですね。
>
>>   - chasen (co-maint、野首さん)
>
> mecab のご先祖さんというか親戚というかの感じかな。。。
>>
>>  ついでに
>>   - mecab(土屋さん、安井さん)
>>   - mecab-jumandic(土屋さん)
>
> jumandicの本家はとおもって探したら
>  http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
> からのリンクは死んでますね。
>
>>   - mecab-ipadic(青木さん)
> すでに、collab-maint になってます。
>
> Source: mecab-ipadic
> Maintainer: Osamu Aoki <osamu@debian.org>
> Uploaders: TSUCHIYA Masatoshi <tsuchiya@xxxxxxxxxx>
> Homepage: http://code.google.com/p/mecab/
> Vcs-Git: git://git.debian.org/collab-maint/mecab-ipadic.git
> Vcs-Browser: http://git.debian.org/?p=collab-maint/mecab-ipadic.git;a=summary
>
> それから、これもですね。
> Source: ipadic
> Section: misc
> Maintainer: Osamu Aoki <osamu@debian.org>
> Homepage: http://chasen-legacy.sourceforge.jp/
> Vcs-Git: git://git.debian.org/git/collab-maint/ipadic.git
> Vcs-browser: http://git.debian.org/?p=collab-maint/ipadic.git
>
>>   - libmecab-{jni,java} (谷口さん)
> mecabのjava binding ですね?
>
>>   - open-jtalk-mecab-naist-jdic (赤部さん)
>
> ソースはopen-jtalk ですよね。でもmecab-naist-jdicとは本質的には同じもの?
> なぜ大きなデーターパッケージが重複存在するのか、collab-maintする意味あり
> そうですね。

これは http://lists.debian.or.jp/debian-devel/201110/msg00004.html が理由です。
青木さんがおっしゃるように本質的には同じものですが、いくつかデータが追加されているように
見えます。

赤部さん、確認してもらえますか。また mecab-ipadic-utf8 ベース に移行した場合の動作チェック等を
行なって頂けますか。

>
>>  が加われば完璧、というところでしょうか。
>>
>>  #python-mecab,ruby-mecab,libmecab-perl,は各言語の専任チーム配下なのでそのままで。
>
> この辺もMLがあれば情報共有楽になりそうですね。このメールで関係者全員に届いてい、
> 合意になるのかな?関係者の方、レスお願いします。
>
> 青木
>
>

岩松


-- 
Nobuhiro Iwamatsu
   iwamatsu at {nigauri.org / debian.org}
   GPG ID: 40AD1FA6