Toma de decisiones complejas

TOMA DE DECISIONES COMPLEJAS

"En donde se examinan métodos para saber qué hacer hoy, sabiendo que existe la posibilidad de actuar nuevamente mañana"


Los problemas de decisión secuencial, donde el agente depende de una secuencia de decisiones, este tipo de problemas implican utilidades, incertidumbre y percepción que constituyen una generalización de los problemas de búsqueda y planificación

PROBLEMAS DE DECISION SECUENCIAL

Se empleará el término modelos de transición, si no existe posibilidad de confusión, para referirse al conjunto de probabilidades relacionadas con las posibles transiciones entre estados después de producirse una determinada acción.

En el caso Determinista, con conocimiento del estado inicial y de los efectos a de las acciones, el problema puede ser resuelto directamente mediante los algoritmos de búsquedas . Esto funciona independientemente de si el ambiente es accesible o no. El agente sabe perfectamente en qué estado se encontrará luego de una determinada acción, por lo que no necesita recurrir a la percepción.

El agente debe comprometerse con toda una secuencia de acciones antes de ejecutarlas. Tiene la oportunidad de escoger una nueva acción, en cuanto concluye un paso, con base en la información adicional que le proporcionan sus sensores.

En los ambientes inaccesibles. la percepción del agente en cada paso le permitirá identificar cual es el estado en que se encuentra. La capacidad para calcular la acción optima para cada uno de los estados definirá totalmente su conducta. El total de correlaciones entre estados y acciones se conoce como POLITICA. El problema, no reside en calcular la secuencia de acciones optima, sino en calcular la politica optima, es decir aquella que produce la mayor utilidad esperada.

Una vez calculada la politica con base en el modelo de transición y en la función de utilidad de cuestión trivial el decidir que hacer., El problema de calculo de politica optima, en un ambiente accesible, estocástico, con base en un modelo de transición como ni como se le llama PROBLEMA DE DECISION DE MARKOV PDM, la propiedad de Markov se cumple si las probabilidades de transición de un determinado estado dependen sólo del estado y no de la historia previa.

En el caso de ambientes INACCESIBLES, la percepción no aporta suficiente información para determinar el estado o las probabilidades de la transición correspondiente. se conoce como PROBELMAS DE DECISION DE MARKOV PARCIALMETNE OBSERVABLES PDMPO, el cual calcula una distribución de probabilidad que abarca todos los estados posibles, tomando en cuenta todas las percepciones anteriores y se basan las decisiones en esta distribución.

El agente debe tomar en cuenta la ifnormación que pueda obtener, así como el estado al que llegará. La manera comun de resolver PDMPO consiste en costruir un nuevo PDM en el que esa distribución de probabilidad desempeñe el papel de variable de estado. En vez de efrozarse por hallar soluciones exactas, se puede lograrr una buena aproximación mediante una previsión limidada.

ITERACION DE VALORES

La idea fundamental consiste en calcular la utilidad de cada uno de los estados y con base es éstas, seleccionar una acción óptima para cada uno de ellos.

El contar con una función de utilidad sobre los estado sólo es útil en la medida en que pueda utilizársele para tomar decisiones racionales, aplicando el principio de máxima utilidad esperada. Para que la función de utilidad sobre los estados tenga sentido, es necesario que las funciones de utilidad sobre las historias tengan las propiedad de separabilidad.

El más simple de los contextos de programación dinámica implica un problema de decisión de n pasos, en donde los estados alcanzados despues de n pasos pueden considerarse como estado terminales y son conocidas sus utilidades. El método de programación dinámica empieza por calcular las utilidades de todos los estados correspondientes al paso n-1 en función de las utilidades de los estados terminales.

ITERACION DE POLITICA

Vimos que la politica óptima generalmente no es muy sensible a los valores exactos de la utilidad. El algoritmo de iteración política funciona escogiendo una política y luego calculando la utilidad de cada estado con base en dicha política. Luego actualiza la política correspondiente a cada estado usando las utilidades de los estados sucesores. El paso en el cual los valores de la utilidad son definidos a partir de una determinda política es conocida como DETERMINACION DE VALOR.

DISEÑO DE UN AGENTE POR DECISIÓN TEORICO

Une las redes de creencia y de decisión con las técnicas empleadas en los problemas de decisión secuenciales. Enfrenta el problema de espacios de estado extensos al descomponer la descripción de un estado en un conjunto de variables aleatorias, de manera muy similar a los algoritmos de planificación.

En conjunto de las distintas ecuaciones probabilisticas se pueden simplificar. El calculo se realiza en 2 fases:

  1. Fase de Predicción; se predice la distribución de probabilidad en aquellos estados que habríamos esperado, con base en el conocimiento que disponemos acerca del estado a anterior y de que forma las acciones afectan a los estados.
  2. Fase de Estimación; se extiende a traves de las variables de estado actuales, basada en todo menos en la observación más reciente.

"Lo importante que aquí hay que observar es el hecho de que los valores del sensor son condicionalmente independientes entre sí, dado el valor real"

Cuando son varios los sensores para las mismas variables de estado, al procedimiento de inferencia respectivo se le llama fusión de sensor o datos

"Para que el sistema pueda manejar la falla del sensor, el modelo del sensor deberá incluirse la posibilidad de una falla"

REDES DE CREENCIA DINAMICA

Se considera ahora la evolución del estado del ambiente a traves del tiempo, y cómo representar esto mediante una rede de creencia dinámica. se modela mediante la distribución de probabilidad condicional.

Existe la secuencia de MODELO DE EVOLUCION DE ESTADO o CADENA DE MARKOV cuando el agente se ocupa de una secuencia de valores X y cada uno de los cuales está definido exclusivamente por el anterior.

La red debe contar con un nodo por cada estado y variable de sensor durante cada etapa temporal.

La tarea consiste en calcular la distribución de probabilidad del estado para el momento T. Las fases de predicción y estimación se implantan como operaciones de la red de creencia. El ciclo de proceso funciona así:

(falla producida por un sensor)

REDES DE DECISION DINAMICA

RDD, basta con añadir nodos de utilidad y nodos de decisión correspondientes a las acciones. El algoritmo de evaluación, básicamente, es el mismo que el de las redes de decisiión comunes. Para el peor de los casos, éste calculo la utilidad esperada de las secuencias de decisión finando los nodos de decisión y aplicando inferencia probabilista para calcular el estado final. Anteriormente se manejó el cálculo iterativo de una politica mediante la que se establece una relación con cada estado, En este caso con RDD, no existe esta posibilidad, puesto que los estados son representados implicitamente mediante el conjunto de variables de estado. >Por otra parte, en los ambientes INACCESIBLES, el agente de todas maneras ignora en que estado se encuentra. RDD ofrece soluciones aproximadas a problemas de decisión de Markov parcialmente observables, en los grados de aproximación dependerá el grado de anticipación.

 

1