Il problema della Text Categorization

Dato un insieme (dominio) di documenti $D = \left\{d_{1}, \cdots, d_{\vert D\vert}\right\}$ e essendo

un insieme di categorie tale che $C = \left\{c_{1}, \cdots, c_{\vert C\vert} \right\}$ , la Text Categorization ha il compito di assegnare un valore booleano ad ogni coppia $\langle d_j, c_j \rangle$ tale che:

$\begin{displaymath} \left \{ \begin{array}{l} \langle d_j, c_j \rangle = True \... ...ad $ se d non è classificato sotto c$ \end{array} \right. \end{displaymath}$

(3.11)

Lo scopo della Categorizzazione Testi è pertanto quello di approssimare la funzione:

$\begin{displaymath} \bar{\phi}: D \times C \longrightarrow \{T, F\} \end{displaymath}$

(3.12)

che classifica correttamente i documenti in una o più categorie, con una funzione:

$\begin{displaymath} \phi: D \times C \longrightarrow \{T, F\} \end{displaymath}$

(chiamata classificatore o modello) la quale deve coincidere il più possibile con $\bar{\phi}$ .

Vengono fatte le seguenti assunzioni:

nessuna conoscenza delle categorie del dominio (come il loro significato o contenuto), eccetto che il loro nome, è fornita al classificatore
nessuna informazione esogena dei documenti da classificare viene data, il classificatore deve basarsi solo sulla conoscenza endogena che riesce a farsi dal contenuto dei documenti stessi

Nella Categorizzazione Testi in letteratura (cfr. [39]) si è soliti distinguere diverse caratteristiche di un classificatore. In seguito vengono elencate le più rilevanti per quel che concerne il classificatore di SpamGAME.

Subsections

Alessio Pace 2004-03-26