Una soluzione che si penserebbe di attuare è quella di usare per il compito dei coefficienti di spammosità o hammosità di un messaggio solo i termini più caratteristici (fra quelli rilevanti ovviamente) in esso contenuti. Con riferimento all' algoritmo bayesiano di Paul Graham, si potrebbero considerare -ad esempio- i 10-15 termini con output maggiore per la categoria spam e i 10-15 termini con output maggiore per la categoria ham e fare un confronto fra i due output totali, assegnando il documento email alla categoria con il coefficiente risultato maggiore. In questo modo si avrebbe ipoteticamente una valutazione più precisa del messaggio e non sarebbe tanto facile aggirare il sistema di filtraggio riempendo il contenuto con testo legittimo per camuffarlo come tale.
Alessio Pace 2004-03-26