La categorizzazione

La fase di categorizzazione può essere graficamente schematizzata con il diagramma in Figura 3.7.

**Figura 3.7:** diagramma classificazione
$\includegraphics[scale=0.45]{DiagramClassification.ps}$

In tale Figura si vede come in input si ha, chiaramente, un messaggio di posta elettronica.

Nella prima fase su di esso viene effettuato il parsing e viene compiuta la tokenization allo stesso modo di come avviene al momento dell' addestramento: viene costruito un set dei termini rilevanti trovati nel messaggio.

Successivamente avviene il computo del coefficiente di hammosità o spammosità del messaggio in base all' algoritmo visto nella Sezione 3.2. Infatti l'output totale di una singola categoria è dato dalla somma degli output ottenuti dai singoli termini (rilevanti) distinti costituenti header e body del messaggio. Vengono sommati all'output complessivo solo gli output dei termini per i quali la presenza $P_{i\vert t}$ è superiore del fissato ThreshP e la espressività $E_{i\vert t}$ è superiore al ThreshE. I valori di questi threshold sono stati settati sperimentalmente a dei valori nell' intorno rispettivamente di (ThreshP) e (ThreshE), per i quali si ottengono i risultati di classificazione (in media) migliori. Il singolo output di ogni termine è dato dal computo del valore (cfr. equazione (3.21) ), ovvero il valore della funziona gaussiana in cui il valor medio è la presenza $P_{i\vert t}$ sempre di quel termine in quella categoria , mentre la varianza è il prodotto della presenza stessa per l'espressività $E_{i\vert t}$ del termine nell' altra categoria (nel caso di SpamGAME le categorie sono solo due: ham e spam).

C' è da sottolineare come il centro e la varianza della gaussiana settata nel modo appena citato corrispondono alle linee guida indicate da [1], ma in fase sperimentale (cfr. Sezione 5.1) sono state tentate diverse configurazioni per cercare di raggiungere migliori risultati.

Al termine di tale computo, il messaggio viene classificato come di quella categoria il cui output è maggiore. In caso di parità di valori (che ad esempio si verifica se il sistema non è stato addestrato), nel dubbio il messaggio viene categorizzato come ham, perchè un falso negativo è assai meno grave di un falso positivo.

Per un ulteriore diagramma rappresentativo della fase di classificazione di un messaggio si può fare riferimento alla Figura 3.8.

**Figura 3.8:** diagramma classificazione
$\includegraphics[scale=0.37]{DiagrammaBlocchi.ps}$

L' algoritmo GAME non prevede che il sistema di apprendimento sia auto-adattivo e allo stesso modo agisce l' applicazione SpamGAME: una volta che il filtro ha classificato un nuovo messaggio come ham (o spam) non aggiorna anche il training set dei messaggi ham (o di quelli spam), questo perchè al momento i risultati di classificazione ottenuti (cfr. Sezione 5.2) non consentono di avere la quasi certezza che la classificazione sia giusta.

Alessio Pace 2004-03-26