Sperimentazione

In questa sezione vengono esposti i principali test eseguiti per misurare l'accuratezza del filtro anti spam. Non essendo disponibile un database pubblico di messaggi ham o spam di test (essenzialmente per motivi di privacy), le misurazioni sono state effettuate in base alla posta ricevuta e conservata personalmente nel corso dello sviluppo del sistema.

Tutti i messaggi di posta elettronica utilizzati contengono testo in lingua italiana; per rimuovere le parole non rilevanti in questa lingua cosí come per (eventualmente) messaggi in inglese, sono state usate due stop list rispettivamente di 119 e 95 termini (cfr. file config.xml nell'Appendice A). Come discusso precedentemente, non viene effettuato stemming sui termini.

Se si vuole effettuare un proprio benchmark è necessario avere un set di messaggi di posta elettronica su cui effettuare i test, in formato Unix mbox. Condizione opzionale ma altamente consigliata per avere dei veri risultati è anche quella di avere un set di messaggi di ham e uno di spam (anche essi in formato mbox), con cui addestrare il sistema prima di effettuare il benchmark della categorizzazione di una intera casella di posta. Se non si addestrasse il sistema infatti tutti i messaggi sottoposti al classificatore verrebbero categorizzati come ham, non avendo l' applicazione nessuna informazione su come distinguere le categorie di messaggi. Questa soluzione di default è stata scelta perchè in caso di dubbio, il classificatore classifichi sempre come ham un messaggio, poichè un falso negativo è assai meno grave di un falso positivo.

Subsections

Alessio Pace 2004-03-26