Algoritmo per la classificazione di un nuovo documento

Il seguente è l'algoritmo utilizzato per la categorizzazione di un nuovo documento:

   1.begin: 

2. For each category $c_i \in C$:
3. $outputc_i = 0, \quad Nterm = 0$
4. For each term $t$ in $P{i\vert t}$:
5. If $\quad P_{i\vert t} > ThreshP \quad \& \quad E_{i\vert t} > ThreshE$ then:
6. $outputc_i = outputc_i + GW(1,t,\textit{c})$
7. end if
8. $Nterm = Nterm + 1$
9. end foreach
10. $outputc_i = \frac{outputc_i}{Nterm}$
10. end foreach
11.end

Come si vede l'algoritmo calcola, per ogni categoria, la media delle funzioni Gaussiane dei termini i cui $P_{i\vert t}$ e $E_{i\vert t}$ superano il valore di due fissati thresholds, rispettivamente ThreshP e ThreshE. Il costo computazionale di questo algoritmo è ${O(C \cdot T \cdot k)}$.



Alessio Pace 2004-03-26