Ktery bayesovsky filtr?

Ing. Vlastimil Pospíchal vpospichal na tiscali.cz
Středa Červenec 23 16:14:26 CEST 2003


On Wed, Jul 23, 2003 at 15:20:04 +0200, Jan Kasprzak wrote:
> 	Zdravim,
> 
> 	pouzivate nekdo nejaky bayesovsky filtr na detekci spamu?
> Muzete nekdo doporucit konkretni program? Potreboval bych to pouzivat
> v procmailu a ucit to v muttu, priblizne zpusobem popsanym na
> http://xtrmntr.org/ORBman/ifile.procmail.html.
> 
> 	Zajimavy mi prijde ifile (ale pisou o nem ze je "naive bayesian
> spam filter" - proc naive? v cem muze byt lepsi) nebo spamprobe.
> 
> 	Co pouzivate vy?
> -Y.

Používám ifile, ale má několik nectností, které trochu snižují jeho
použitelnost:

- soubor ~/.idata, ve kterém si ukládá slovníček a který se načítá
  při každém testu, časem narostl na 0.5MB
- nerozpozná česká slova (možná jen chyba konfigurace)
- mailů psaných v base64 si podle všeho nevšimne - nevím to však jistě
- spamy jsou často v HTML a profláknutá slova bývají proložena komentáři,
  např. vi<!--hjhjg-->agra pe<!--pooppo-->nis, které neumí ignorovat
- spamy často obsahují spoustu nesmyslných řetězců, které jen zaplňují
  databázi a tím celý proces zpomalují

Přes všechny nevýhody je pro mne ifile vydatným pomocníkem, filtruje
mi cca 95% spamů. Používám ho v kombinaci s procmailem a muttem. Pro
zlepšení jeho vlastností by bylo vhodné doplnit:

- analýzu MIME a dekódování různých znakových sad (pokud tam už není)
- lepší lexikální analýzu, zejména v HTML
- podporu locales - české nebo unicode znaky
- slovníček v indexované databázi, resp. asociativním poli
- práci v daemon režimu

Kit
-- 
Ing. Vlastimil Pospíchal
http://www.hoteldrnholec.cz


Další informace o konferenci Linux