Bogofilter [6]
Sviluppato da Eric Raymond, è probabilmente
il più famoso filtro anti spam basato sull' algoritmo visto nella Sezione 2.8.3
descritto da Paul Grahm nella sua opera ``A Plan For Spam''.
Esso presenta tutte le caratteristiche peculiari
di tale algoritmo:
- deve essere inizialmente addestrato dall' utente con dei set di email spam e
non spam, affinchè possa costruirsi un database di token con le loro
probabilità di spammosità. Nonostante questa fase non sia obbligatoria, è
altamente raccomandata per evitare che le prestazioni iniziali del filtro
sia piuttosto basse (altissimo numero di falsi negativi)
- considera solo i 15 token più interessanti nella categorizzazione di un
nuovo messaggio
- impara automaticamente dopo aver categorizzato un messaggio in arrivo:
l' email, in base al risultato della categorizzazione, viene aggiunta al
training set dello spam o non del spam (a seconda del risultato). Se tale
aggiornamento automatico del database è scorretto, l' utente può rieffettuare
la fase di training specificando il messaggio che si deve spostare da un set
all' altro
- dopo questo continuo processo di adattamento il sistema virtualmente non
commetterà più errori
Le prestazioni di bogofilter, secondo quanto sperimentato dal Linux User
Group di Ferrara [7], sono state le seguenti: dato un training
set di messaggi spam di 592 messaggi iniziali e un training set di non spam di
3946 messaggi iniziali, sono stati ricevuti successivamente 4880 messaggi email,
di cui 290 spam reali (5.9% del totale). I falsi negativi sono stati
36 (errore
del 12.4%); i falsi positivi sono stati invece 8 (errore 0.2%, molto
buono). Di questi otto messaggi falsi positivi, due sono state email scritte in
modo troppo veloce da mittenti in realtà legittimi (magari una sola riga, senza
firma), gli altri sei messaggi di conferme di iscrizione a un certo servizio.
Da notare comunque che il sistema ha imparato nel corso del tempo dai suoi
errori, migliorando le sue prestazioni.
Bogofilter è scritto in C ed è rilasciato sotto la Gnu General
Public License.
Alessio Pace
2004-03-26