Definizione di $\Phi $

La funzione $\Phi $ calcola le $w$ parole distinte contenute nel set di documenti di addestramento per ciascuna categoria e calcola due parametri specifici che vengono chiamati Presenza (Presence) e Espressività (Expressiveness). Questi parametri sono specifici di GAME (sempre secondo quanto esposto in [1]) e a differenza di quanto accade per differenti parametri usati da altri algoritmi di classificazione, sono dei valori ``umanamente comprensibili'': $P$ indica quanto un termine $t$ è presente nei documenti appartenenti a una categoria $c_i$, $E$ dà una stima di quanto lo stesso termine (non) appaia nei documenti delle altre categorie.

Il vettore $\phi$ diventa dunque il seguente:


\begin{displaymath}
\phi = \left[
\begin{array}{c}
\{ E_1, P_1 \} \\
\{ E_2, P_2 \} \\
\cdots \\
\{ E_w, P_w \}
\end{array} \right]
\end{displaymath} (3.13)

Dato un set di categorie $C = \{c_1, c_2, \cdots, c_k, \cdots, c_n\}$, ciascuna categoria avente (per semplicità) un numero di documenti $m$ (ad es: $c_1 = \{ d_{1,1},
d_{1,2}, \cdots, d_{1,j}, \cdots, d_{1,m} \}$), vengono date le seguenti definizioni:

E' importante far notare come lo stesso termine in categorie differenti abbia diversi valori di espressività. Per un esempio di ciò, si guardi la Tabella 3.1. Un termine $t$ è presente in tutte e tre le categorie e la sua presenza $P_{k\vert t}$ è mostrata nella prima riga. La seconda riga mostra i valori di espressività $E_{k\vert t}$ dello stesso termine per ogni categoria.

Tabella 3.1: esempio numerico di $P$ e $E$. Per una categoria $c_x$, meno un termine $t$ è presente nelle altre categorie, più alta è la espressività che possiede.
$c_1$ $c_2$ $c_3$
$P_{k\vert t}$ 0.9 0.4 0.2
$E_{k\vert t}$ 0.7 0.45 0.35


Si nota come il termine $t$ della categoria $c_1$ abbia una espressività maggiore poichè lo stesso termine ha un relativamente piccola presenza nel resto del dominio.

Alessio Pace 2004-03-26