Multi Label vs Single Label

Multi Label Text Classification (MLTC): se ogni documento $d \in D$ può essere assegnato a una o più categorie di $C$, ovvero c' è un sotto insieme di $C$, $C_m = \left\{c_1, \cdots, c_k \right\}$ con $k>1$ e:


\begin{displaymath}
\phi(d, c_1) = \cdots = \phi(d, c_k) = True
\end{displaymath}

La cardinalità di $C_m$ varia da compito a compito.

Il caso in cui un documento può essere assegnato ad una sola categoria ($k=1$), è invece la Single Label Text Classification (SLTC).

SpamGAME è un caso particolare di Single Label: infatti esso è un classificatore binario, in quanto ogni documento (un messaggio di posta elettronica) può essere assegnato o alla categoria $c_i$ o al suo complemento $\bar{c_i}$, dove le due categorie in esame sono spam e ham.



Alessio Pace 2004-03-26