Test sperimentali

Per rendersi conto delle capacità di classificazione dell'algoritmo GAME nell'ambito specifico di messaggi di posta elettronica sono stati effettuati diversi tipi di test, cercando di variare il più possibile i parametri a disposizione, onde avere un prospetto delle potenzialità di SpamGAME. I parametri variabili sono infatti:

Si è deciso di effettuare le seguenti ``classi'' di test (prendendo spunto da [1]), in cui ciò che le distingue sono i valori dei parametri della funziona gaussiana:

  1. Original GW test run: parametri della funziona gaussiana (centro e varianza) settati come esposto nelle sezioni precedenti, ovvero $\mu_i = P_i$ e $\sigma^2_i = P_i \cdot E_i$ (risultati nella Sezione 5.2.1)

  2. Simple GW test run: $\mu_i = P_i$ e $\sigma^2_i = P_i$ (risultati nella Sezione 5.2.2)

  3. Another Simple GW test run: $\mu_i = P_i$ e $\sigma^2_i = E_i$ (risultati nella Sezione 5.2.3)

La prima della tre classi di test (Original GW test run) corrisponde al settaggio originale ``standard'' con cui è nato l' algoritmo GAME. La seconda tipologia (Simple GW test run) è stata presa in esame in quanto utilizzata per alcuni test nel più volte citato ``Does a New Simple Gaussian Weighting Approach Perform Well in Text Categorization?'' [1]. La terza classe di test (Another Simple GW test run) invece è stata personalmente elaborata e testata in fase di sviluppo e sperimentazione di SpamGAME, dall' idea che potesse rendere sullo stesso livello delle altre due e per confrontare cosí i diversi risultati ottenuti.

In ognuna delle 3 classi di test effettuati sono stati utilizzati gli stessi corpus di messaggi spam e ham, che sono stati personalmente raccolti nelle ultime settimane perchè, come più volte ripetuto, non è possibile reperire dei messaggi di pubblico dominio per problemi di privacy. Si è voluto utilizzare lo stesso numero di messaggi per ambedue i corpus, per far in modo che non essendoci una categoria che appare (magari molto) più frequentemente di un' altra, le misure dei risultati venissero fuori come le più indicative possibili delle reali capacità del sistema.

Sono stati quindi presi fra i propri messaggi personali 500 messaggi spam e 500 messaggi ham, tutti in lingua italiana. Si è deciso poi di suddividere i due corpus nel seguente modo:

I training e i test set sono due insiemi disgiunti: effettuare l' addestramento e il test sul medesimo corpus di messaggi avrebbe infatti risultati sorprendentemente buoni ma al tempo stesso non veritieri perchè i documenti utilizzati per la fase di test non devono in alcun modo far parte dei documenti della fase di addestramento.

La scelta del numero e del tipo di messaggi, $500$ per ogni categoria e tutti in italiano, è stata dettata dai seguenti motivi:

Durante i test i valori di ThreshP e ThreshE sono stati variati per vedere come oscillavano le prestazioni di classificazione, al fine di scoprire quali fossero i valori migliori.

Per ogni classe di test, i benchmark esposti sono stati ripetuti due volte: la prima volta utilizzando la stop list di termini non rilevanti nella categorizzazione testi, la seconda volta senza usarla, per vedere anche in questo caso quale fosse la configurazione che rende meglio.

Si crede che con le specifiche definite di cui sopra si possa ottenere una sufficiente stima di quale sia il miglior settaggio dei parametri di SpamGAME e quale siano oltretutto le sue reali capacità nel classificare messaggi di posta elettronica in situazioni reali.

Alessio Pace 2004-03-26