Spoluprace na projektu - antispam
Jan Houstek
jan.houstek na mff.cuni.cz
Úterý Říjen 19 17:51:50 CEST 2004
Petr Vileta wrote:
> No jenze prave spamy vetsinou maji jen html cast. Nevim proc.
To sice mozna jo, ale existuji i jine znaky, podle kterych lze usuzovat
na to, ze se jedna o spam. Obecne plati to, ze cim vic ruznych znaku
bere prislusna analyza obsahu v potaz, tim spolehlivejsi je rozpoznavani.
Proto se obavam, ze cela ta vase snaha je ponekud licha, jestli doufate,
ze naleznete nejaky univerzalni recept na spammery v podobe nekolika
malo jednoduchych pravidel, musim vas zklamat. Kdyby neco takoveho bylo
mozne, budte si jist, ze spammeri se velmi rychle postaraji o to, aby to
mozne byt prestalo.
Metody typu zahodit vse s pouze html casti, vse z .kr, vse co neni cesky
atp. jsou pomerne dost riskantni (i kdyz si treba myslite, ze zadny
takovy mail vam opravdu nemuze byt urceny).
Sila spamovych content filtru je v tom, ze dokazou podstatnym zpusobem
redukovat objem junk-mailu (napr. na 1/10), se zanedbatelne nizkou
pravdepodobnosti false-positive (v idealnim pripade dokonce nizsi, nez
jakou by mel sam uzivatel v pripade, ze by se musel rucne probirat temi
tunami balastu). Rozhodne neni cilem odfiltrovat junk 100% (za cenu
vysokeho false-positive).
-- Honza Houstek
Další informace o konferenci Linux