Modifiche all' algoritmo

Essendo SpamGAME un filtro statistico basato sul contenuto dei messaggi, è soggetto al principale problema dei filtri che operano con questo algoritmo: se lo spammer riempe il messaggio con del testo ``legittimo'' per camuffare lo spam, il sistema potrebbe essere probabilmente aggirato. Infatti in questo modo, se ci fosse una netta prevalenza di termini ``buoni'' rispetto a quelli ``cattivi'', il messaggio verrebbe classificato come spam (e sarebbe perciò un falso negativo). E' questo ciò che accade con i tipici messaggi firmati da donne sconosciute che ci invitano per una chat insieme, terminando l' email con l' indirizzo web di riferimento.

Una soluzione che si penserebbe di attuare è quella di usare per il compito dei coefficienti di spammosità o hammosità di un messaggio solo i termini più caratteristici (fra quelli rilevanti ovviamente) in esso contenuti. Con riferimento all' algoritmo bayesiano di Paul Graham, si potrebbero considerare -ad esempio- i 10-15 termini con output maggiore per la categoria spam e i 10-15 termini con output maggiore per la categoria ham e fare un confronto fra i due output totali, assegnando il documento email alla categoria con il coefficiente risultato maggiore. In questo modo si avrebbe ipoteticamente una valutazione più precisa del messaggio e non sarebbe tanto facile aggirare il sistema di filtraggio riempendo il contenuto con testo legittimo per camuffarlo come tale.

Alessio Pace 2004-03-26