Spoluprace na projektu - antispam

Jan Houstek jan.houstek na mff.cuni.cz
Úterý Říjen 19 17:51:50 CEST 2004


Petr Vileta wrote:

> No jenze prave spamy vetsinou maji jen html cast. Nevim proc.

To sice mozna jo, ale existuji i jine znaky, podle kterych lze usuzovat 
na to, ze se jedna o spam. Obecne plati to, ze cim vic ruznych znaku 
bere prislusna analyza obsahu v potaz, tim spolehlivejsi je rozpoznavani.

Proto se obavam, ze cela ta vase snaha je ponekud licha, jestli doufate, 
ze naleznete nejaky univerzalni recept na spammery v podobe nekolika
malo jednoduchych pravidel, musim vas zklamat. Kdyby neco takoveho bylo 
mozne, budte si jist, ze spammeri se velmi rychle postaraji o to, aby to 
mozne byt prestalo.

Metody typu zahodit vse s pouze html casti, vse z .kr, vse co neni cesky 
atp. jsou pomerne dost riskantni (i kdyz si treba myslite, ze zadny 
takovy mail vam opravdu nemuze byt urceny).

Sila spamovych content filtru je v tom, ze dokazou podstatnym zpusobem 
redukovat objem junk-mailu (napr. na 1/10), se zanedbatelne nizkou 
pravdepodobnosti false-positive (v idealnim pripade dokonce nizsi, nez 
jakou by mel sam uzivatel v pripade, ze by se musel rucne probirat temi 
tunami balastu). Rozhodne neni cilem odfiltrovat junk 100% (za cenu 
vysokeho false-positive).

-- Honza Houstek


Další informace o konferenci Linux