Ktery bayesovsky filtr?
Ing. Vlastimil Pospíchal
vpospichal na tiscali.cz
Středa Červenec 23 16:14:26 CEST 2003
On Wed, Jul 23, 2003 at 15:20:04 +0200, Jan Kasprzak wrote:
> Zdravim,
>
> pouzivate nekdo nejaky bayesovsky filtr na detekci spamu?
> Muzete nekdo doporucit konkretni program? Potreboval bych to pouzivat
> v procmailu a ucit to v muttu, priblizne zpusobem popsanym na
> http://xtrmntr.org/ORBman/ifile.procmail.html.
>
> Zajimavy mi prijde ifile (ale pisou o nem ze je "naive bayesian
> spam filter" - proc naive? v cem muze byt lepsi) nebo spamprobe.
>
> Co pouzivate vy?
> -Y.
Používám ifile, ale má několik nectností, které trochu snižují jeho
použitelnost:
- soubor ~/.idata, ve kterém si ukládá slovníček a který se načítá
při každém testu, časem narostl na 0.5MB
- nerozpozná česká slova (možná jen chyba konfigurace)
- mailů psaných v base64 si podle všeho nevšimne - nevím to však jistě
- spamy jsou často v HTML a profláknutá slova bývají proložena komentáři,
např. vi<!--hjhjg-->agra pe<!--pooppo-->nis, které neumí ignorovat
- spamy často obsahují spoustu nesmyslných řetězců, které jen zaplňují
databázi a tím celý proces zpomalují
Přes všechny nevýhody je pro mne ifile vydatným pomocníkem, filtruje
mi cca 95% spamů. Používám ho v kombinaci s procmailem a muttem. Pro
zlepšení jeho vlastností by bylo vhodné doplnit:
- analýzu MIME a dekódování různých znakových sad (pokud tam už není)
- lepší lexikální analýzu, zejména v HTML
- podporu locales - české nebo unicode znaky
- slovníček v indexované databázi, resp. asociativním poli
- práci v daemon režimu
Kit
--
Ing. Vlastimil Pospíchal
http://www.hoteldrnholec.cz
Další informace o konferenci Linux