Pregi dell' approccio Naive Bayes

Un grosso vantaggio di questo approccio statistico è che non bisogna leggere tante email di spam per cercare di entrare nell' ottica degli spammer. Infatti come discusso in precedenza (cfr. Sezione 2.2), i filtri basati su caratteristiche individuali dei messaggi spam (soggetto in maiuscolo, body contenente una certa parola, e cosí via) devono sapere o comunque avere una idea di cosa aspettarsi nelle email, e le loro performance sono piuttosto scarse (alto numero di falsi positivi) e per giunta richiedono continuo intervento dell' utente (o dell' amministratore) nell' aggiornare le regole di filtraggio per contrassegnare come spam messaggi contententi termini che prima non erano mai presenti (si pensi ad esempio al caso della parola viagra ormai presente in moltissimi messaggi di spam ma che fino a qualche tempo fa non compariva affatto).

Ma il più grosso vantaggio di questo filtraggio è il fatto che si sà cosa viene misurato concretamente. Infatti con SpamAssassin (cfr. Sezione 2.7.1) e in generale tutti i sistemi di filtraggio basati su punteggi di spammosità assegnati alle parole di un messaggio, non si sa di preciso che cosa tale punteggi significhino o perchè assumano quei determinati valori. Essi infatti vengono stabiliti dagli sviluppatori del programma perchè da benchmark è stato appurato che sono i valori che meglio contribuiscono alla catalogazione dei messaggi in spam o ham. Ma se fra qualche mese alcune parole o trucchi usati dagli spammer non venissero più usati oppure utilizzati di meno, allora punteggio assegnato ad essi dovrebbe essere decrementato e i nuovi termini e stratagemmi utilizzati dovrebbero essere definiti nel filtro. Con l' approccio statistico invece si sà che cosa rappresenta la percentuale di spammosità di un termine in una email, essa ha un significato preciso matematico e non c' è nulla da interpretare. Se col passare del tempo i messaggi degli spammer cambieranno di fisionomia, il filtro statistico dovrà semplicemente essere addestrato con tali messaggi cosí come era stato fatto in precenza con i vecchi messaggi di spam, e i risultati ci si aspetta che siano pressapoco gli stessi, quindi senza nessun intervento nel codice del programma da parte degli sviluppatori di un eventuale filtro anti spam basato ad esempio sull' algoritmo (Sezione 2.8.3) di Paul Graham. Poichè ciò che vengono misurate sono delle probabilità, se una email legittima contiene una parola come sesso ma tutti altri termini ``innocenti'', la parola incriminata avrebbe un peso relativo molto piccolo tale da non far bollare il messaggio come spam (cfr. invece con quanto detto sui filtri basati su parole chiavi, Sezione 2.2).

La potenza di questo sistema di filtraggio è che le sue performance sono modellate proprio sui set di spam e ham che il singolo utente riceve, e in base ai quali il filtro costruisce le sue tabelle hash. Più l' utente raffina e colleziona email spam e ham, più il filtro diventa accurato nel classificare nuovi messaggi in ingresso. Questo è proprio l' approccio detto Machine Learning applicato al campo della Classificazione Testi, di cui se ne darà una maggiore descrizione nella Sezione 3.2.1.

Se lo spam evolve, cosí farà anche il filtro bayesiano. Infatti, se gli spammer cominciassero a usare il termine p0rn invece di porn, il filtro lo ``imparerebbe'' da solo guardando i set di messaggi spam ricevuti, mentre un filtraggio basato su parole chiave (come SpamAssassin) dovrebbe subire delle modifiche implementative per tenere conto di questo ``nuovo'' termine.

Un filtro basato sull' algoritmo bayesiano è difficile per gli spammer da aggirare: non sarebbe sufficiente mandare semplicemente delle email ogni volta diverse (aggirando cosí i filtri basati su checksum, cfr. sezione 2.6), ma occorrerebbe inviare delle email che ``sembrano'' legittime. Si ritiene pertanto che i filtri statistici (in questo caso quelli bayesiani, e in seguito si vedrà SpamGAME basato su GAME) siano la soluzione ideale, per il momento, al filtraggio dei messaggi di posta elettronica.

Alessio Pace 2004-03-26