[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[debian-devel:11727] Re: new search engine for our web pages? [was:masayuki-h@xxxxxxxxxxxxxxx: Re: ITP: namazu2]
<87itzfrc0l.wl@xxxxxxxxxxxxxxxxxxxx>の記事において
kitame@xxxxxxxxxxxxさんは書きました。
>> さきほど移行おわりました。
どうもお疲れ様です。
>> で、indexing の時間ですが...
>> Kakasi が Perl module ではないので、これよりさらに改善があるでしょう。
やはり libtext-kakasi-perl を ITP しますかね...
>> ただし、Debian Project のメーリングリストや BTS はそもそも KAKASI を使って
>> いない(英語だから)ので、これ以上の改善はないと思います。
index の対象となるファイルの形式が一種類であり、なおかつ事前に判って
いるのであれば、-t mediatype オプションを付加することで File::MMagic
によるファイル判別を行なわなくなる分早くなるはずです。
>> とくにオプションはつけてません。(--mhonarcを必要なものだけ)
あ、--mhonarc をつけているのなら、確かにこれが最速ですね... もっとも、
英語環境では nkf も KAKASI/ChaSen も呼ばないので、実際にはもっと高速で
あると思いますけど。
>> BTS
>> Size (bytes): 139,887,588
>> Total Documents: 16,748
>> Total Keywords: 1,352,486
>> Time (sec): 12,566
>> File/Sec: 1.33
BTS 用フィルターがあったら便利ですかね?
>> debian-devel.org
>> Size (bytes): 281,988,180
>> Total Documents: 60,399
>> Total Keywords: 579,385
>> Time (sec): 16,163
>> File/Sec: 3.74
LANG=C で mknmz を実行すればもっと早いかも。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
nokubi@xxxxxxxxx (official)