Introduzione

Il filtraggio di email considerate spam è un compito non banale da risolvere con tecniche di filtraggio classiche basate su regole, ma ben si presta ad approcci basati invece su algoritmi di Categorizzazione Testi che rientrano nell' ambito del Machine Learning. Questo è l' obbiettivo del progetto SpamGAME, il cui nome associa il contesto di applicazione per la Categorizzazione Testi (il filtraggio di email di spam) all' algoritmo usato: GA.M.E. (GAussian Mono-dimensional Environment) [1], [2].

SpamGAME è nato infatti con lo scopo di fornire uno strumento utile (e riutilizzabile) al filtraggio dello spam, attraverso delle tecniche moderne di Machine Learning applicate al dominio della Categorizzazione Testi e, grazie a piccoli accorgimenti specifici, al caso di classificazione di messaggi di posta elettronica.

Il sistema si basa principalmente sull' algoritmo GAME, il quale è un algoritmo di apprendimento supervisionato: partendo da un insieme di documenti di addestramento esso costruisce una configurazione di funzioni Gaussiane. Nel caso specifico di SpamGAME i documenti di esempio sono messaggi di posta elettronica di un certo tipo: spam o ham0.1. Gli insiemi di email utilizzati per i test sono stati collezionati e selezionati personalmente nel corso dello sviluppo di SpamGAME, non essendoci la possibilità per motivi di privacy (o altre ragioni) di reperire dei documenti di pubblico dominio su cui effettuare delle analisi delle prestazioni con maggiore oggettività.

L' applicazione si colloca nel panorama dei filtri anti spam commerciali o di pubblico dominio che sono sorti in questi ultimi tempi nel panorama di Internet ma ciò che la differenzia profondamente fra tutti è l' algoritmo che ne sta alla base. SpamGAME, infatti, è il primo applicativo ad usare l' algoritmo GAME per la classificazione di messaggi di posta elettronica. Ulteriore sfida è quella di vedere se i risultati possono tenere testa a quelli degli altri programmi basati invece su altri procedimenti automatici, che si avvalgono spesso di interventi ad-hoc per il dominio specifico di messaggi di posta elettronica. La scelta di questo algoritmo (che è stato sviluppato proprio all' Università di Roma Tre, presso il laboratorio di Intelligenza Artificiale del Dipartimento di Informatica e Automazione) per il progetto è stata dettata principalmente dal fatto che le sue caratteristiche (non pesante come costo computazionale e di non difficile implementazione) lo rendono adatto al contesto specifico di SpamGAME, ovvero la classificazione di messaggi di posta elettronica nelle due categorie spam e ham.

Questo lavoro è organizzato come segue:

Alessio Pace 2004-03-26