Di quelle quattro email, due passarono perchè contenenti parole che occorrevano frequentementi nel set di email legittime.
La terza anche era difficile da scoprire poichè conteneva header legittimi e molti termini ``innocenti''.
La quarta email era ciò che Paul Graham teme che diventerà lo spam nel futuro: dei messaggi di posta elettronica con testo assolutamente ``neutro'' (e quindi difficile da marchiare come spam) e alla fine un url che viene proposto come da visitare. E' il caso tipico di pubblicità pornografiche. La preoccupazione è reale per questo tipo di email perchè se gli spammer usano header validi, se il contenuto del messaggio ha una più che parvenza di innocenza e l' url contenuto alla fine è ogni volta o quasi differente, allora è molto difficile ricoscere tale spam.
In conclusione l' autore di questo interessante articolo dice che la percentuale di falsi positivi che ha riscontrato con il suo algoritmo di filtraggio è stata dello 0.6%. Questo numero, a suo dire, non è indicativo delle reali capacità dell' algoritmo bayesiano (ma è comunque una più che buona stima) poichè potrebbe dipende dalla sua particolare implementazione (soprattutto per quel che riguarda la tokenizzazione) e i suoi set di messaggi spam e non spam.
Alessio Pace 2004-03-26