if
then
La DNF (forma normale disgiuntiva) è una disgiunzione di congiunzioni logiche; un documento
è classificato sotto
se e solo se il documento soddisfa la formula,
ovvero se soddisfa una delle clausole disgiuntive. Il grosso problema di questo approccio è che
è richiesta una grande conoscenza del dominio delle categorie e dei loro contenuti per settare
le regole del classificatore e se le categorie vengono aggiornate bisogna, sempre manualmente,
riscrivere le regole.
Nell' approccio Machine Learning (che è quello dominante al momento) la costruzione del classificatore viene compiuta invece in modo automatico. GAME (e quindi SpamGAME) segue proprio l' approccio detto machine learning e pertanto ha il vantaggio di essere un procedimento automatico che induttivamente costruisce un classificatore di testi imparando, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse, caratteristiche che un nuovo documento dovrebbe avere per essere classificato sotto quel genere. La finalità è ovviamente quella di assegnare dei documenti nuovi (messaggi di posta elettronica) alle due categorie predefinite (spam e ham).
Alessio Pace 2004-03-26