Prestazioni

Graham afferma in ``A Plan For Spam'' [3] che su un totale di 1750 email spam ricevute in un mese solo 4 sono passate (falsi negativi). La accuratezza è stata quindi del 99.77%.

Di quelle quattro email, due passarono perchè contenenti parole che occorrevano frequentementi nel set di email legittime.

La terza anche era difficile da scoprire poichè conteneva header legittimi e molti termini ``innocenti''.

La quarta email era ciò che Paul Graham teme che diventerà lo spam nel futuro: dei messaggi di posta elettronica con testo assolutamente ``neutro'' (e quindi difficile da marchiare come spam) e alla fine un url che viene proposto come da visitare. E' il caso tipico di pubblicità pornografiche. La preoccupazione è reale per questo tipo di email perchè se gli spammer usano header validi, se il contenuto del messaggio ha una più che parvenza di innocenza e l' url contenuto alla fine è ogni volta o quasi differente, allora è molto difficile ricoscere tale spam.

In conclusione l' autore di questo interessante articolo dice che la percentuale di falsi positivi che ha riscontrato con il suo algoritmo di filtraggio è stata dello 0.6%. Questo numero, a suo dire, non è indicativo delle reali capacità dell' algoritmo bayesiano (ma è comunque una più che buona stima) poichè potrebbe dipende dalla sua particolare implementazione (soprattutto per quel che riguarda la tokenizzazione) e i suoi set di messaggi spam e non spam.

Alessio Pace 2004-03-26