Il problema della Text Categorization

Dato un insieme (dominio) di documenti $D = \left\{d_{1}, \cdots, d_{\vert D\vert}\right\}$ e essendo $C$ un insieme di categorie tale che $C = \left\{c_{1}, \cdots, c_{\vert C\vert} \right\}$, la Text Categorization ha il compito di assegnare un valore booleano ad ogni coppia $ \langle d_j, c_j \rangle $ tale che:


\begin{displaymath}
\left \{ \begin{array}{l}
\langle d_j, c_j \rangle = True \...
...ad $ se d non è classificato sotto c$
\end{array} \right.
\end{displaymath} (3.11)

Lo scopo della Categorizzazione Testi è pertanto quello di approssimare la funzione:


\begin{displaymath}
\bar{\phi}: D \times C \longrightarrow \{T, F\}
\end{displaymath} (3.12)

che classifica correttamente i documenti in una o più categorie, con una funzione:


\begin{displaymath}
\phi: D \times C \longrightarrow \{T, F\}
\end{displaymath}

(chiamata classificatore o modello) la quale deve coincidere il più possibile con $\bar{\phi}$.

Vengono fatte le seguenti assunzioni:

Nella Categorizzazione Testi in letteratura (cfr. [39]) si è soliti distinguere diverse caratteristiche di un classificatore. In seguito vengono elencate le più rilevanti per quel che concerne il classificatore di SpamGAME.



Subsections
Alessio Pace 2004-03-26