Nel caso di messaggi di posta elettronica, che si vuole classificare in maniera binaria
come ham o spam, la formula si puà riscrivere con i seguenti simboli:
dove rappresenta la probabilità che l' email
appartenga alla categoria
(ham o spam);
è la probabilità che data una
categoria
(sempre ham o spam), le parole contenute nel messaggio
siano presenti in
;
è la probabilità della categoria i-esima, ovvero che dato un messaggio, esso appartenga a tale
categoria;
è la probabilità che tale messaggio occorra.
Per assegnare il messaggio ad una delle
categorie (ham o spam), bisogna calcolare
il risultato dell' equazione (2.2) per ciascuna di loro. Il messaggio
viene quindi
suddiviso in tutte le parole che lo compongono (
), e per calcolare
si calcola il prodotto delle probabilità delle singole parole che compongono l' email
,
assumendo che siano pertanto statisticamente indipendenti (questo è l' approccio ``naive'', poichè
generalmente tale assunzione non è vera):
Il messaggio email viene cosí assegnato alla categoria con la probabilità
più alta,
con
pertanto uguale a:
La divisione per viene omessa perchè è un fattore uguale per tutte le categorie del dominio,
e quindi il suo calcolo può essere evitato in fase di classificazione.
Alessio Pace 2004-03-26