[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-devel:11727] Re: new search engine for our web pages? [was:masayuki-h@xxxxxxxxxxxxxxx: Re: ITP: namazu2]



<87itzfrc0l.wl@xxxxxxxxxxxxxxxxxxxx>の記事において
kitame@xxxxxxxxxxxxさんは書きました。

>> さきほど移行おわりました。

  どうもお疲れ様です。

>> で、indexing の時間ですが...
>>  Kakasi が Perl module ではないので、これよりさらに改善があるでしょう。

  やはり libtext-kakasi-perl を ITP しますかね...

>>  ただし、Debian Project のメーリングリストや BTS はそもそも KAKASI を使って
>>  いない(英語だから)ので、これ以上の改善はないと思います。

  index の対象となるファイルの形式が一種類であり、なおかつ事前に判って
いるのであれば、-t mediatype オプションを付加することで File::MMagic
によるファイル判別を行なわなくなる分早くなるはずです。

>> とくにオプションはつけてません。(--mhonarcを必要なものだけ)

  あ、--mhonarc をつけているのなら、確かにこれが最速ですね... もっとも、
英語環境では nkf も KAKASI/ChaSen も呼ばないので、実際にはもっと高速で
あると思いますけど。

>> BTS
>> Size (bytes):        139,887,588
>> Total Documents:     16,748
>> Total Keywords:      1,352,486
>> Time (sec):          12,566
>> File/Sec:            1.33

  BTS 用フィルターがあったら便利ですかね?

>> debian-devel.org
>> Size (bytes):        281,988,180
>> Total Documents:     60,399
>> Total Keywords:      579,385
>> Time (sec):          16,163
>> File/Sec:            3.74

  LANG=C で mknmz を実行すればもっと早いかも。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)