Il problema della Text Categorization
Dato un insieme (dominio) di documenti
e essendo
un insieme di categorie tale che
, la Text
Categorization ha il compito di assegnare un valore booleano ad ogni coppia
tale che:
 |
(3.11) |
Lo scopo della Categorizzazione Testi è pertanto quello di approssimare la funzione:
 |
(3.12) |
che classifica correttamente i
documenti in una o più categorie, con una funzione:
(chiamata classificatore o modello)
la quale deve coincidere il più possibile con
.
Vengono fatte le seguenti assunzioni:
- nessuna conoscenza delle categorie
del dominio (come il loro significato o contenuto),
eccetto che il loro nome, è fornita al classificatore
- nessuna informazione esogena dei documenti
da classificare viene data, il classificatore
deve basarsi solo sulla conoscenza endogena che riesce a farsi dal contenuto dei documenti
stessi
Nella Categorizzazione Testi in letteratura (cfr. [39]) si è soliti distinguere diverse
caratteristiche di un classificatore. In seguito vengono elencate le più rilevanti per quel che concerne
il classificatore di SpamGAME.
Subsections
Alessio Pace
2004-03-26