sa-learn

Honza Houstek houstek-lists na utf.mff.cuni.cz
Pondělí Prosinec 29 12:10:58 CET 2003


> Jo tohle je pomerne dobre reseni, u nas to ale resime tak ze lide spam
> preposilaji na spam na nasedomena.cz, coz chodi postmasterovi a ten to pak
> jednou za cas vezme a nauci to. Problem je pak ale s hamem, protoze
> vetsina lidi to POPkou ze serveru maze a brat jako ham pouze postu tech
> 2 lidi, co to ctou na serveru a nechavaji si prectene mejly, je asi
> trochu nedostatecne.

K tomu par postrehu:

- Kdyz uz chci bez premysleni cpat maily uzivatelu do SA, tak me prece
nezastavi to, ze mi je uzivatele ze serveru smazou! Muzu si prece nekde
ukladat kopie.

- Neni uplne nejlepsi bayesovsky filtr krmit uplne vsemi spamy a hamy,
ktere na server dorazi. Konciva to tak, ze filter pak rozpozna jako spam
ci ham jen to, co ma naucene, a ostatni se mu zda prilis neurcite. Spise
je ucelne urzovat jakysi reprezentativni vzorek.

- Byva slusnosti ctit trochu soukromi uzivatelu a nesahat jim jen tak na
postu (byt je ucelem pouze uceni antispamoveho filtru). Lepsi se mi zda
maily vyssim hodnocenim nejak nenasilne oznacit a pozadat uzivatele, aby v
pripade, ze tam neni nic tajneho, je poslali na ham na nasedomena.cz.

- Kdyz uz je rec o preposilani mailu, je vhodne uzivatele naucit to
provadet tak, aby poslali mail presne jak jim prisel, tj. vcetne hlavicek.
Ty jsou totiz pro rozpoznani spamu znacne dulezite.

- Soucasne s ucenim filtru je vhodne si "korpus" naucenych spamu a hamu
nekde uchovat pro pripad korupce databaze, zmeny strategie uceni, zmeny
filtrovaciho sw apod.

-- Honza Houstek


P.S. Vetsina techto zkusenosti pochazi od Pavla Kankovskeho, aby mi zase
nemuzel psat a ptat se, jestli to tak opravu je :-))


Další informace o konferenci Linux