L' idea di Paul Graham

Paul Graham in particolare dice di aver ottenuto risultati più che soddisfacenti combinando la probabilità bayesiana di essere indice di spam di certe parole, seguendo il modello di classificazione detto Naive Bayes.

Il metodo statistico non è quello che viene in mente per primo da utilizzare nel tentativo di filtrare lo spam. L' approccio più semplice che viene in mente, e allo stesso tempo quello più sbagliato, è quello di determinare la spammosità di un messaggio da una singola parola o frase (magari composta da un' espressione regolare), che se presente determina in modo irrevocabile che l' email è spam. Questo approccio è infatti semplicissimo da implementare, basta una linea di codice, ma i risultati (soprattutto in fatto di falsi positivi) non sono affatto soddisfacenti e costringono oltretutto a un continuo aggiornamento delle parole che si vuole che siano indice assoluto di spam.

Alessio Pace 2004-03-26