[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-users:47804] Re: SpamAssassin のベイジアンフィルター学習



こんにちは。松田陽一@三鷹です。

From: KISE Hiroshi <kise@xxxxxxxxxxx>
Subject: [debian-users:47775] Re: SpamAssassin のベイジアンフィルター学習
Date: Wed, 13 Dec 2006 16:04:04 +0900

> From: peko <peko@xxxxxxxxxxxxxx>
> Subject: [debian-users:47772] SpamAssassin のベイジアンフィルター学習
> Date: Wed, 13 Dec 2006 14:50:03 +0900
> > ベイジアンフィルタのDB学習についてなのですが、これは、他人が集めたスパム
> > を使用しても特段問題はないのでしょうか?(送信先Toについても集計されてい
> > るため他人のは使用しないほうが良いとかはないでしょうか?)
> 
> 一般的な話ですと、ベイジアンフィルタの学習はユーザごとに
> したほうがよいそうです。

その通りです。
正確には、

「自分が使用する SA には、 spam を含めて、自分が受信するメイルを喰
わせるのが最善である」

です。

良い機会ですので、ここで、従来より私が取っていた考え方が誤っていた
ことを釈明しますと共に、その理由を説明します。

以下は SA 本家サイトの wiki 文書です。

http://wiki.apache.org/spamassassin/BayesInSpamAssassin

| Things to remember
| 
|      * Do not train Bayes on different mail streams or public spam
|        corpora. These method will mislead Bayes into believing certain
|        tokens are spammy or hammy when they are not.                  

しかし、この wiki 文書には、理由が記載されていません。

# 余談ですが、 SA 本家サイトの文書の多くは、このように根拠の記載の
# ない文書が多数見受けられます。

これについては、初期の日本語対応パッチを書かれた久保さん@サードウェア
から説明を受けたことがあります。

SA のベイズエンジンは、本文だけでなくヘッダも評価対象とします。
したがいまして、メイル受信経路が全く異なる他人の spam をベイズエン
ジンに喰わせても、少なくともヘッダについては正しい学習がなされません。

しかし、 MTA を運用しているサーバであれば、当該 MTA のユーザは全員
同じメイル受信経路ですから、それらユーザ同士が spam を融通し合うの
は理に適っていると思います。

悲惨なのは日本語 spam です。
標準の SA は日本語のわかち書きをしません。
したがって、日本語 spam を喰わせても、本文については正しい学習が元
から期待できません。
かろうじて、ヘッダが学習できるくらいです。

そこで、現在滝澤隆史さんを中心に、有志にて日本語対応が進められてい
ます。

http://www.emaillab.org/spamassassin/
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxxxxx
http://www.flcl.org/~yoh/diary/