Introduzione

Il filtraggio di email considerate spam è un compito non banale da risolvere con tecniche di filtraggio classiche basate su regole, ma ben si presta ad approcci basati invece su algoritmi di Categorizzazione Testi che rientrano nell' ambito del Machine Learning. Questo è l' obbiettivo del progetto SpamGAME, il cui nome associa il contesto di applicazione per la Categorizzazione Testi (il filtraggio di email di spam) all' algoritmo usato: GA.M.E. (GAussian Mono-dimensional Environment) [1], [2].

SpamGAME è nato infatti con lo scopo di fornire uno strumento utile (e riutilizzabile) al filtraggio dello spam, attraverso delle tecniche moderne di Machine Learning applicate al dominio della Categorizzazione Testi e, grazie a piccoli accorgimenti specifici, al caso di classificazione di messaggi di posta elettronica.

Il sistema si basa principalmente sull' algoritmo GAME, il quale è un algoritmo di apprendimento supervisionato: partendo da un insieme di documenti di addestramento esso costruisce una configurazione di funzioni Gaussiane. Nel caso specifico di SpamGAME i documenti di esempio sono messaggi di posta elettronica di un certo tipo: spam o ham^0.1. Gli insiemi di email utilizzati per i test sono stati collezionati e selezionati personalmente nel corso dello sviluppo di SpamGAME, non essendoci la possibilità per motivi di privacy (o altre ragioni) di reperire dei documenti di pubblico dominio su cui effettuare delle analisi delle prestazioni con maggiore oggettività.

L' applicazione si colloca nel panorama dei filtri anti spam commerciali o di pubblico dominio che sono sorti in questi ultimi tempi nel panorama di Internet ma ciò che la differenzia profondamente fra tutti è l' algoritmo che ne sta alla base. SpamGAME, infatti, è il primo applicativo ad usare l' algoritmo GAME per la classificazione di messaggi di posta elettronica. Ulteriore sfida è quella di vedere se i risultati possono tenere testa a quelli degli altri programmi basati invece su altri procedimenti automatici, che si avvalgono spesso di interventi ad-hoc per il dominio specifico di messaggi di posta elettronica. La scelta di questo algoritmo (che è stato sviluppato proprio all' Università di Roma Tre, presso il laboratorio di Intelligenza Artificiale del Dipartimento di Informatica e Automazione) per il progetto è stata dettata principalmente dal fatto che le sue caratteristiche (non pesante come costo computazionale e di non difficile implementazione) lo rendono adatto al contesto specifico di SpamGAME, ovvero la classificazione di messaggi di posta elettronica nelle due categorie spam e ham.

Questo lavoro è organizzato come segue:

La Sezione 1 fornisce una breve introduzione su cosa sia il fenomeno dello spam e chi siano e come agiscono gli ``spammer''
La Sezione 2 analizza le tecniche di filtraggio dello spam attualmente applicate allo Stato dell' Arte e i maggiori applicativi utilizzati con, dove possibile, un analisi del loro funzionamento e delle prestazioni
La Sezione 3 espone in dettaglio l' algoritmo GAME e il concreto funzionamento di SpamGAME nel classificare messaggi di posta elettronica
La Sezione 4 descrive la piattaforma e l' architettura software usata dall' applicazione SpamGAME
La Sezione 5 riporta i risultati delle sperimentazioni effettuate con SpamGAME nel classificare i messaggi di posta elettronica personalmente ricevuti nel corso delle ultime settimane
La Sezione 6 espone il bilancio del progetto SpamGAME, i suoi aspetti positivi, le sue mancanze e i suoi possibili miglioramenti futuri

Alessio Pace 2004-03-26