Definizione di

Definizione di $\Phi$

La funzione $\Phi$ calcola le

parole distinte contenute nel set di documenti di addestramento per ciascuna categoria e calcola due parametri specifici che vengono chiamati Presenza (Presence) e Espressività (Expressiveness). Questi parametri sono specifici di GAME (sempre secondo quanto esposto in [1]) e a differenza di quanto accade per differenti parametri usati da altri algoritmi di classificazione, sono dei valori ``umanamente comprensibili'':

indica quanto un termine

è presente nei documenti appartenenti a una categoria

dà una stima di quanto lo stesso termine (non) appaia nei documenti delle altre categorie.

Il vettore $\phi$ diventa dunque il seguente:

$\begin{displaymath} \phi = \left[ \begin{array}{c} \{ E_1, P_1 \} \\ \{ E_2, P_2 \} \\ \cdots \\ \{ E_w, P_w \} \end{array} \right] \end{displaymath}$

(3.13)

Dato un set di categorie $C = \{c_1, c_2, \cdots, c_k, \cdots, c_n\}$ , ciascuna categoria avente (per semplicità) un numero di documenti (ad es: $c_1 = \{ d_{1,1}, d_{1,2}, \cdots, d_{1,j}, \cdots, d_{1,m} \}$ ), vengono date le seguenti definizioni:

Il numero totale di documenti $D_{tot}$ del dominio è:

$\begin{displaymath} D_{tot} = \sum\limits_{k = 1}^{n} \vert c_k \vert = \sum\limits_{k = 1}^{n} \sum\limits_{j = 1}^{m} d_{k,j} \end{displaymath}$ (3.14)

dove come già definiti, sono il numero di categorie e il numero di documenti per ciascuna categoria
Il numero di documenti della k-esima categoria è:

$\begin{displaymath} D_k = \vert c_k \vert = \sum\limits_{j = 1}^{m} d_{k,j} \end{displaymath}$ (3.15)
Il numero di documenti della categoria in cui il termine è presente^3.1:

$\begin{displaymath} D_{k\vert t} = \vert c_{k\vert t} \vert = \sum\limits_{j = 1}^{m} (d_{k,j}\vert t) \end{displaymath}$ (3.16)
Infine la Presenza di un termine nella k-esima categoria è, usando le equazioni (3.15) e (3.16):

$\begin{displaymath} P_{k\vert t} = \frac{D_{k\vert t}}{D_k} \end{displaymath}$ (3.17)

mentre l'Espressività di un termine nella k-esima categoria è calcolata tramite:

$\begin{displaymath} E_{k\vert t} = 1 - \frac{\sum\limits_{p = 1}^{n} P_{p\vert t}}{\vert C\vert - 1} \qquad p \neq k \end{displaymath}$ (3.18)

E' importante far notare come lo stesso termine in categorie differenti abbia diversi valori di espressività. Per un esempio di ciò, si guardi la Tabella 3.1. Un termine è presente in tutte e tre le categorie e la sua presenza $P_{k\vert t}$ è mostrata nella prima riga. La seconda riga mostra i valori di espressività $E_{k\vert t}$ dello stesso termine per ogni categoria.

Tabella 3.1: esempio numerico di

. Per una categoria

, meno un termine

è presente nelle altre categorie, più alta è la espressività che possiede.


$P_{k\vert t}$	0.9	0.4	0.2
$E_{k\vert t}$	0.7	0.45	0.35

Si nota come il termine della categoria abbia una espressività maggiore poichè lo stesso termine ha un relativamente piccola presenza nel resto del dominio.

Alessio Pace 2004-03-26