succ  prec  indice 

Apprendimento Adduttivo

Il ragionamento logico tradizionale utilizza regole di inferenza "valide", in grado cioe' di trarre conclusioni vere, indipendentemente dall'interpretazione delle formule.
La regola di inferenza "valida" piu' conosciuta e' indubbiamente la regola-MP "modus ponens", che afferma:
 

P,    P -> Q
___________________

            Q
 

Un'altra rogola di inferenza "valida", altrettanto nota e' il "modus tollens":

    not Q,     P -> Q
______________________

                                 P

Per "ragionamento per abduzione" si intende l'inferenza della verita' della premessa, data la verita' della conclusione.
 

( Q    and    P -> Q)    ->    P
 
Questo tipo di inferenza e' evidentemente non valido, permettendo chiaramente interpretazioni che non verificano l'implicazione.

Malgrado questo, l'abduzione viene spesso utilizzata, piu' o meno consciamente, nel ragionamento di senso comune. Questo vale spesso nell' inferenza "causale", ovvero dove l'implicazione logica viene intesa come:

        causa    ->    effetto
 
In generale, le cause "sufficienti" a determinare un certo effetto possono essere diverse, e questo schema di ragionamento sottintende in realta' la scelta della giustificazione piu' "verosimile" di un certo fenomeno.

Un esempio di inferenza per abduzione potrebbe essere la determinazione di un guasto ad un automezzo:
 

se    il motore non parte
   e se    le luci non si accendono

allora
            c'e' un guasto alla batteria
 

una schema di deduzione corretto, sarebbe invece:
 
se     c'e' un guasto alla batteria

allora   il motore non parte
       e     le luci non si accendono

Quantificando il concetto di "verosimiglianza" in termini probabilistici, l'abduzione trova una propria giustificazione statistica, espressa dalla regola di Bayes
 

P(evento| ipotesi)     P(ipotesi)
P( ipotesi | evento ) = ____________________________________
P(evento)
 
Se esiste un insieme H di ipotesi distinte, sufficienti a giustificare un certo evento e, viene definita "ipotesi di massima verosimiglianza", l'ipotesi hmax  tale che:
 
hmax      =     argmax    P(h|e)
                        h in H
 

               =    argmax    P(e|h) P(h)
                        h in H    __________
                                            P(e)
 

               =    argmax    P(e|h) P(h)
                        h in H

 

Nel contesto dell'apprendimento automatico, e' possibile applicare il modello bayesiano per classificare un insieme di esempi in accordo all'ipotesi che presenta la migliore verosimiglianza rispetto a tutto il training set.

Un problema con questo tipo di approccio e' che richiede la stima dei valori di P(e|h) e P(h) per ogni coppia <e,h>, dove pero' l'evento e ha una caratterizzazione multi-dimensionale, potendo essere rappresentato come vettore di attributi tra loro correlati.

Evidenziando gli attributi, la definizione di hmax viene riscritta come:
 
 

                 hmax      =     argmax    P(hi | a1,a2, ... ,an)
                                         hk in H
 

               =    argmax    P(a1,a2, ... ,an|hk) P(hk)
                        hk in H    _____________________
                                            P(a1,a2, ... ,an)
 

               =    argmax    P(a1,a2, ... ,an|hk) P(hk)
                        hk in H

in cui i occorre fornire la stima di P(a1,a2, ... ,an|hi) per tutte le possibili tuple di attributi.

Il classificatore bayesiano denominato "naive" assume che gli attributi ai, dipendano dall'ipotesi hk in modo tra loro indipendente.
Questo permette di semplificare il problema di stima, richiedendo la sola determinazione dei P(ai|hk), ottenibile calcolando le frequenze relative sui dati di esempio.

P(a1,a2, ... ,an|hk)    =    P(a1|hk) P(a2|hk)  ...  P(an|hk)

Quando questa assunzione di indipendenza non risulta applicabile, e' possibile ricorrere ad una sua generalizzazione, denominata "indipendenza condizionale".
Si dice che "X  e' indipendente da Y posto Z" se
 

P( X=xi | Y=yj,Z=zk )    =    P( X=xi | Z=zk )
 
Assumendo che i rapporti di dipendenza tra attributi siano organizzati secondo una gerarchia, si arriva ad introdurre la rappresentazione a grafo detta "rete Bayesiana di credenze" (Bayesian belief network).
In una rete di questo tipo, i nodi corrispondono o ad attributi o a ipotesi di classificazione, mentre gli archi indicano la relazione di dipendenza. Per ogni nodo e' poi stimata la distribuzione di probabilita' dell'evento corrispondente condizionata a tutte le possibili tuple dei nodi entranti.
Denotando con Genitori( Yi) l'insieme degli nodi da cui dipende l'attributo Yi , occorrera' stimare
P( Yi |  Genitori( Yi) )     per ogni nodo Yi
ricordando che
P( a, b )    =    P( a | b ) P( b )    =    P( b | a ) P( a )
 
e' possibile riscrivere la probabilita' congiunta di attributi e ipotesi nel modo seguente:
 
P(a1,a2, ... ,an|hk) P(hk)    =    P(a1,a2, ... ,an, hk)

                                           =     IIi  P( Yi |  Genitori( Yi) ) 

L'applicazione delle reti Bayesiane a problemi di apprendimento, anche se di recente sviluppo sembra molto promettente. Al fine di consentire un loro utilizzo pratico sono stati proposti algoritmi di determinazione delle probabilita' condizionate che utilizzano tecniche di ottimizzazione,  come ad esempio il metodo del gradiente.
 

 


 succ  prec  indice