Il fenomeno dei filtri anti spam

Nella sezione precedente è stata fornita una descrizione del fenomeno dello spam, in questa sezione si vuole di contro esporre le soluzioni rapidamente sorte per combattere questa vera e propria piaga.

La quantità di spam inviata nella Rete aumenta sempre di più di giorno in giorno (cfr. Figura 2.1), ma finalmente, da un paio d' anni a questa parte, ci si sta muovendo in modo serio per combattere, in modo automatico, questo brutto fenomeno di Internet.

**Figura 2.1:** diagramma andamento spam: raddoppiamento della quantità di messaggi ricevuti, ogni 42 giorni
$\includegraphics[scale=0.4]{spamcount.ps}$

Le modalità per arginare lo spam sono sfortunatamente solo a livello di software e non di leggi, e quindi i filtri anti spam dello Stato dell' Arte si possono considerare delle soluzioni momentanee in attesa di una risoluzione più forte e punitiva. Essi sono comunque un ottimo banco di prova per testare tecniche di classificazione testi e nel seguito verranno esposti i principali metodi, ``intelligenti'' e non, per filtrare lo spam.

Riconoscere lo spam da parte di un utente umano è cosa semplice, ed infatti ciò che la maggior parte della gente comune fa ogni giorno, dopo aver scaricato la posta elettronica, è identificare e cancellare lo spam. Esso come si vede, è causa di perdite di tempo (e quindi denaro), banda passante e spazio su disco. Ciò è ancor più spiacevole per chi è una persona il cui indirizzo email deve stare ben visibile sulla Rete per motivi di lavoro: queste persone a causa della loro visibilità ricevono uno o due ordini di grandezza di messaggi spam in più dei messaggi non spam. Se tutti avessero un sistema automatico di filtraggio dello spam, ciò scoraggerebbe in buona parte gli spammer a continuare nelle loro pratiche, nell'attesa di leggi serie che limitino questo fenomeno.

Con riferimento a [14] vengono enunciate nel seguito di questa sezione le principali tecniche utilizzate per filtrare in modo automatico lo spam; vengono citati anche i più importanti programmi che le implementano e dove possibile, sono riportati anche i loro risultati (se dichiarati) e la loro licenza d' uso.

Subsections

Alessio Pace 2004-03-26