CvdB, sobre la base de experiencias hechas por Philip Agre y Ian Horswill y glosadas a partir del informe de Agre.

interacción agente - ambiente con el robot "Tostada"

Ubicación del problema

Lev Vygotsky, el famoso psicólogo ruso, pone énfasis en que una herramienta inventada por el hombre significa un avance cognitivo a disposición de sucesivas generaciones, que no necesitan del tedio de "reinventar la rueda". Philip Agre y Ian Horswill han experimentado esto mismo con artefactos culturales que simplifican el estudio de las interacciones entre el robot y el ambiente provisto de dichos artefactos. Virtualmente, al usar utensilios, el robot extiende su cuerpo y con ello simplifica el ambiente en que está operando. (El artefacto que se está usando se puede argumentar que es validamente parte del cuerpo del robot). Por supuesto, no es necesario saberlo todo del artefacto usado ni de los razonamientos que permitieron su creación. Los diseños subóptimos ya se han descartado y no vuelven a incidir en el estado del arte. La vida diaria incluye en buena medida el uso de esos artefactos sobre los cuales Vygotsky ha argumentado con perspicacia.

La experiencia sobre la cual se informa aquí pone de manifiesto la prudencia de todos estos argumentos. Se parte de un así llamado programa de agente "Toast" (esto es, tostada) para un robot del mismo nombre, preparador de desayunos en un restorán de procesamiento rápido. Le toca preparar no solamente tostadas sino un menú diversificado de ingredientes para el desayuno, en forma continua, manipulando diversas acciones con la ayuda de utensilios de cocina, en suficiente disponibilidad. No apela a ningun plan simbólico de la realidad, no realiza búsqueda alguna, ni razona sobre el futuro. Esto lo logra dado que los utensilios tienden a reducir la complejidad de las decisiones que de otra manera afectarían al programa de agente. La principal estrategia del robot pareciera ser la de obedecer la regla (truquesa) de

"encontrar algo que sea necesario hacer y decidirse a hacerlo".

Esto se puede probar que converge a satisfacer metas muy características y aptas. La estructura del ambiente en una cocina y en otros lados tiene patrones que simplifican mucho las cosas a considerar en el acto de diseñar un "programa de agente".
Modelo de acciones a encarar
La bibliografía previa ya ha adoptado un cierto punto de vista sobre planificar tareas y entonces actuar. A veces se introducen probabilidades o trabajos multirrobot, pero lo habitual es esgrimir un conjunto, genérico y por defecto, de reglas aptas para cualquier nuevo proyecto. Ese modelo parte de la idea de "acciones" y "situaciones" como entidades discretas a la manera de una película de celuloide, donde un marquito rectangular es una situación y el marquito siguiente, discreto, difiere con motivo de una acción que permitió la transición entre un marco y el consecutivo, entre una situación (o estado) y otra. Los efectos de una acción indican la transición de un marco muy claro a otro también muy claro y bien definido.
Nuevo punto de vista
Esto conduce a la posibilidad de imaginar un espacio de problema que se puede representar como rutas a recorrer. Los vértices son los marquitos (situaciones) y los arcos son el espacio entre marco y marco (acciones). La investigación clásica de la planificación es sobre todo el estudio de la estructura de este espacio. Los temas de estudio de dicha estructura son el repertorio de las posibles acciones del agente, el esquema que se emplea para "representar" las diversas acciones y para imaginar las posibles situaciones del ambiente y tambien la estructura del mundo. Si el agente obedece a un plan, habrá en el espacio un punto de partida y una meta, unidas por etapas de vértices y arcos. El punto de partida tendrá que estar de acuerdo con el conocimiento que tenga el agente sobre dicho punto de partida. El plan será más o menos fácil de armar segun como resulte ser la estructura del espacio de problema, que deberá ser investigado por búsquedas.
La investigación del espacio es - sin embargo - conceptualmente independiente de la ideas ya sea de planificar, ya sea de considerar las acciones como la forma de ejecutar el plan.
El nuevo punto de vista de Agre y Horswill es el de la escuela dinámica de la cognición (Ashby, van Gelder, Beer, Giunti). Intentan mostrar que los ambientes en que se maneja un robot permiten que éste improvise a través de decisiones simples obviando la necesidad de una planificación formal. Hayes - Roth ha encontrado que existen ambientes más o menos complejos donde la improvisación momento a momento ofrece ventajas desde el punto de vista de su adaptación a las circunstancias que evolucionan. Esas decisiones son "on-line" entre las percepciones y las acciones. Hay tambien circunstancias carentes de prisa y urgencia, en que no es despreciable sino conveniente decidir "off-line", dandole tiempo al proceso que puede ocurrir entre la percepción sensorial y la acción motriz. Entre ambas aparece la gestión de símbolos y el razonamiento simbólico sobre el futuro, así como las representaciones de la acción para memorizar y guiar acciones futuras (experiencia, que no está negada al operar "on-line"). Pero Agre prefiere sugerir que estas formas más complejas de razonamiento con respecto a decisiones para actuar, pueden ser delimitadas y controladas de manera sustancial por estructuras del ambiente que ayudan a la selección momento a momento de cuál decisión "truquesa" tomar.

Análisis del dominio culinario
Volvamos a nuestro muy interesante dominio culinario del robot Tostada. Si bien es una rutina, es bastante complicada, no carece de sorpresas ni de incertidumbre y se presta para ensayar los métodos formales de la planificación clásica. La intención de usar esos métodos formales no es el de convalidar sus suposiciones implícitas sino de mostrar que se puede superarlas más allá de lo que afirman. Agre lo logra descubriendo que las estructuras del espacio de este dominio revela que es innecesaria la invención de formalidades.
A este respecto hay dos niveles, la visión de planta baja donde opera "Tostada" y la visión "aérea" donde opera el diseñador. En la planta baja la tarea es rutinaria, en la planta aérea el trabajo es fuerte. Allí hay que descubrir aquellas regularidades del ambiente por las cuales la tarea de "Tostada" en planta baja sea el resultado de políticas relativamente simples. En general la tarea de descubrimiento de regularidades en la planta aérea facilita la operación en la planta baja. En la planta baja se descubren las restricciones adecuadas para un diseño más simple de un agente, así como mejores pistas visuales y una suficiente independencia entre las variables que resultan pautas útiles para el diseño en la planta aérea. Si esas regularidades luego resultan ser falsas o inestables, la tarea en planta baja se complica. Horswill pretende armar una forma de diseño a encarar mediante deliberación y atención. Para ello hay que enfatizar el estudio que se aplica a los ambientes y al sitio que ocupa el agente en el ambiente, esto es, en las interacciones y no en la arquitectura
Hagamos una representación orientada a objetos de la acción en el ambiente culinario. Los objetos en cuestión son objetos de uso (ollas y sartenes, herramientas y utensilios) y objetos de ingesta (alimentos y bebidas) y de limpieza. "Tostada" los moverá, los mezclará, los transformará, los limpiará y así siguiendo. El estado del mundo se puede descomponer en el estado de los objetos mencionados y un bajo número de relaciones entre objetos. Los estados de un huevo pueden ser que venga "cascado de antemano" (a descartar), que esté "intacto", que esté "cascado", que esté "batido" y que esté "cocido". Una olla puede estar "ocupada", "vacía y sucia" y "vacía y limpia".
Hay propiedades adicionales de estos objetos que aquí se ignoran. Se sabe que en la planificiación clásica una acción debe tener un conjunto de precondiciones y un conjunto de efectos. Ahora, en este nuevo punto de vista, hay que ingeniarse en volcar las precondiciones y los efectos en términos de propiedades y de relaciones de los objetos. Por ejemplo, la acción de limpiar una cuchara no tiene ahora precondición alguna, porque no es un sinsentido limpiar una cuchara cualquiera sea su estado. El resultado de la acción es llevar la cuchara a la meta de estar limpia. La acción de batir un huevo en un bol usando un tenedor tiene como precondiciones las siguientes:

El tenedor debe estar limpio - esto conduce a que "Tostada" quizás lo limpie en el primer episodio de batido al estar sucio con huevo batido, en lugar de hacerlo al terminar los diversos episodios. Con un plan esto se corregiría.
El huevo debe estar en el estado "cascado y ubicado en el bol". Al terminar, el efecto es seguir en el bol en el estado "batido" y el tenedor en el estado "sucio".
Con esto se ve que el formalismo se preocupa del estado de los objetos. El estado del mundo, momento a momento, coincide en buena proporción con el estado de los objetos. No es imposible armar clasicamente una estructura gráfica que contenga todos los posibles estados del mundo, incluyendo todas las acciones posibles entre estado del mundo y estado del mundo. Si el ambiente culinario tiene muchos objetos, el gráfico resultaría enorme.
A pesar de ser enorme, en ese gráfico hay oculta mucha estructura. Esto se demuestra con otro gráfico orientado a objetos. Olvidemos por ahora las relaciones entre objetos. Miremos cada objeto como teniendo su gráfico de estados propio. Los huevos tienen un gráfico que incluye "cascado de antemano", "intacto", "cascado", "batido" y "cocido". Los tenedores tienen otro gráfico con estructura que incluye "sucio" y "limpio" como estados posibles. Se puede imaginar ahora el producto cruzado de los estados de cada objeto en particular. De este supramundo, el mundo adopta momento a momento el aspecto de un subconjunto del mismo, denominado cartas de estado de Harel. Incluye solamente acciones que se pueden realizar. Si no hay tenedores, no habrá huevos batidos. Con este formalismo las cosas no son de por sí menos complicadas. Si un tipo de gráfico no sirve para encontrar soluciones óptimas, tampoco el otro. Pero proporciona un lenguaje para cualquier nueva estructura que se descubra al analizar los hechos. Con nuevas estructuras descubiertas, la modelización del dominio culinario de "Tostada" hace que el cómputo pase de difícil a más simple.
Intentemos descubrir nuevas estructuras. Una puede ser para "objetos de manipulación culinaria" (espátulas, tenedores) con su estado normal "limpio, seco, listo para el uso" y otra para "objetos edibles y bebibles" (huevos, jarras de agua, cuadrados de manteca) con su estado normal "no ingerible, crudo".
Formalismo
Intentemos un formalismo simple para objetos y acciones. Objeto será ahora la voz abreviada para señalar "tipos de objetos". Cada tipo de objeto tendrá un gráfico de estado asociado con vértices que son "estados" y arcos que son "operaciones". Las operaciones no son etiquetas del arco, son el arco mismo. Cada operación es única y no está compartida con otros tipos de objetos. El dominio tiene diferentes "tipos de acciones" con un conjunto de acciones cada uno de esos tipos. Una operación será la transición de huevo "cascado" a huevo "batido" y otra operación la transición de tenedor "limpio" a "sucio".
En esta tarea simplificatoria hay casos límites que reciben nomenclaturas distintivas. Así, una acción será "enfocada" si se trata de una única operación o sea que involucra a un único objeto. El caso recién mencionado no es enfocado.
Igualmente, un estado será "libre" si se puede acceder a dicho estado desde cualquier otro estado mediante operaciones enfocadas.
Un "objeto para manipulación culinaria" es un objeto con no menos de un estado libre en su carta de estado de Harel. Cada "objeto de manipulación culinaria", como ya se ha explicado, tendrá un estado libre "normal", esto es, "limpio".
Un "objeto edible o bebible" obedece a este concepto básico: el cocinero usa "objetos para manipulación culinaria" para manipular "objetos edibles y bebibles". Una acción con uno o más objetos para manipulación culinaria, puede ser una acción normal ssi se ha empleado uno o más utensilios inicialmente limpios.
Un objeto edible o bebible es un objeto que tiene un gráfico de estado acíclico que incluye un estado "normal" que es su estado crudo y sin procesar. A partir de ese estado normal se puede llegar a cualquier otro estado del gráfico solamente por acciones normales con objetos para manipulación culinaria limpios. Un objeto edible o bebible puede estar manipulado con otras operaciones adicionales a las acciones normales explicadas.
Una tarea culinaria tiene estas cuatro propiedades:

todos los objetos son objetos para manipulación culinaria u objetos edibles y bebibles,
hay una cantidad suficiente de objetos para manipular para realizar las acciones requeridas por cada tipo de objeto edible o bebible,
empieza siendo un material en el estado crudo y
la meta es la de mover algunos de los objetos edibles o bebibles, que son ejemplos de diferentes tipos de objetos edibles o bebibles, hacia estados particulares diferentes.
Usaremos algunas de estas definiciones en el siguiente parágrafo.

Política decisional aplicada
Expresado verbalmente, la solución al problema de "Tostada" aplica una política simple en forma iterativa.

Elegir un objeto edible o bebible que tenga un estado meta pero que aún no haya llegado a él.
Determinar su estado en ese momento. Recurrir a una tabla para reconocer a qué estado debe pasar en la dirección hacia el estado meta. Recurrir a una segunda tabla para encontrar qué acción "normal" con utensilios es capaz de lograr ese cambio de estado.
Inspeccionar la lista de tipos de utensilios requeridos para dicha acción. El ambiente culinario tendría que tener un item de cada tipo de los utensilios tabulados en estado normal. Si fuese así, la tarea es la de emplearlos para cambiar el estado del objeto edible o bebible y tambien el estado de los utensilios (que quedan sucios).
En el caso contrario (no existe en el ambiente el utensilio normal tabulado), elegir un utensilio de dicho tipo fuera del estado normal (esto es, sucio).
Determinar su estado en ese momento. Reconocer en una tabla hacia qué estado debe pasar en la dirección al estado meta. Reconocer en una segunda tabla cuál "acción enfocada" es capaz de conseguir el cambio necesario. Decidirse por esa acción.
Es fácil reconocer por qué esta lista es una política simple y operativa. Cada acción ayuda ya sea a mover el objeto edible o bebible hacia su estado meta o ya sea a mover el objeto para manipular hacia su estado normal. Cuando todos los utensilios están en su estado normal (o algo antes), es posible mover el objeto edible o bebible hacia su estado meta. Dado que los gráficos para los estados de los objetos edibles o bebibles son finitos, es posible hacer el cálculo de las transiciones de estado faltantes para llegar a la meta. Por analogía, tambien es finito para los utensilios el número de etapas para llegar a su estado normal y también se puede calcular un valor dintel de las etapas precisas para retomar y hacer posible el proceso hacia la meta. Dado que cualquier acción arbitraria reduce uno de esos dos valores dintel, o sea que dado que la distancia total de los objetos edibles o bebibles en dirección a su meta siempre se acorta cuando todos los utensilios están en su estado normal, se deduce que eventualmente los objetos edibles o bebibles han de llegar a su estado meta.
Desventajas y objeciones
Es obvio que el argumento anterior descansa sobre una serie de suposiciones simplificatorias. Por ejemplo,

se han ignorado las relaciones entre los objetos,
los objetos ni se pueden mezclar ni se les puede reducir su tamaño cortandolos en fracciones,
es admisible que un objeto para manipular (una olla, una sartén, un bol, una hornalla, una agarradera, una pinza) siga ocupado durante períodos largos con un cierto propósito, sin terminar la tarea porque no hay turnos en esta política decisional "improvisada"; en ese caso, se presenta un déficit y el inventario de estos utensilios debe crecer para evitar el riesgo de no haber ya más disponibilidades e interrumpir así el flujo. Si el inventario no crece en la realidad, habrá que reconocer que la simplificación no es viable y habrá que transigir en que se debe programar el uso de los utensilios en déficit, con un calendario de empleo no incluído en la postura original. Ese calendario se puede considerar como un parche marginal con respecto a la totalidad de la tarea, parche que conceptualmente tiene analogía con el algoritmo de Dechter y Pearl (1985) para el logro eficiente de satisfacción de restricciones.

Otras simplificaciones similares darán origen a parches similares, combinando juiciosamente limitadas apelaciones a la estructura del ambiente y limitadas extensiones a la arquitectura. Agre propone estas limitaciones como un ejemplo tipico de ideas simplificatorias que surgen en ambientes no tan simples.
Discusión final

Planta baja y planta aérea. El formalismo presentado referente a estados, acciones, objetos, etc., es aplicable al diseñador con su punto de vista aéreo y no al agente robot con su punto de vista de planta baja. El agente se dedica a una política simplificada que se basa en utilizar tablas y el diseñador se preocupa de arreglar las cosas para que esa política logre en forma implícita llegar correctamente (quizás suboptimamente) a una meta final sin necesidad de planificación especial alguna, o en todo caso que dicha planificación sea muy marginal.
Estructura en el ambiente. Agre y Horswill descubrieron que el dominio culinario de preparar desayunos tiene ciertos tipos de estructura que invitan a que el agente pueda elegir sus acciones casi "improvisando" en forma simple. La estructura descubierta puede ser considerada como una jerarquía de abstracciones, con acciones sobre utensilios formando una capa de abstracción y con acciones sobre alimentos y bebidas formando otra diferente. Este modelo puede extenderse a varias capas adicionales de abstracción. Descubrir la estructura de un dominio puede tener un resultado notable para un diseñador de robots autónomos. Si hay estructura, el diseñador puede hacer cosas.
Localización de la "estructura del ambiente culinario". La "estructura del mundo" no fue ubicada exclusivamente en los objetos de ese mundo, esto es, en los utensilios y los alimentos. Porque la estructura fue, además, ubicada tambien en el conjunto de técnicas acostumbradas en la cultura alimentaria occidental. En otras culturas los desayunos occidentales preparados con utensilios limpios no siempre son imitados tal cual y no siempre convalidan los análisis ya explicados.
Observación de estructuras. La búsqueda de estas estructuras surgió con motivo de la fuerte complejidad computacional en problemas irrestrictos de construcción de planes para estos ambientes. En especial por los desmesurados espacios de búsqueda que se deben enfrentar en la mayoría de los ambientes de importancia práctica. La estructura hallada permite asegurar que los espacios de búsqueda (las cartas de estado de Harel) son comparativamente pequeños. Y sobre todo que las interacciones entre submetas son tan restringidas que la necesidad de búsqueda se vuelve inútil.
Convergencia. En el ámbito de la ciencia de la computación, la prueba de que la técnica usada resulta ser correcta pasa a ser tambien una prueba de convergencia. La prueba de que es correcta procede por la vía de una función de progreso que converge en forma continua a cero en el estado meta (caso habitual en las heurísticas de búsqueda).
Soporte cultural. Esta estructura encontrada no es un caso más de validez de las leyes físicas. Reside más bien en la tecnología bioalimentaria con artefactos como son los utensilios limpios de uso alimentario. Retomando las ideas de Vygotsky del primer párrafo, los inventores de cada uno de los utensilios culinarios volvieron concreto y efectivo el tipo de conocimiento que en su momento tuvieron de cómo se simplificaban, con su empleo, tareas más inadecuadas anteriormente en vigencia. Y en momentos posteriores a su invento ya no hace falta, para nada, comprender la razón de ser del conocimiento que originó la nueva herramienta.

Conclusion
Se augura aquí una tendencia de estudio meticuloso de los ambientes (en este caso el ambiente culinario) donde está gestionando un agente (en este caso "Tostada") con el objetivo de entender mejor, con dicho estudio, la interrelación agente-ambiente. Ese estudio actuará como un factor más por el cual la Inteligencia artificial deje de ser una disciplina auto-contenida y pase a ser una llave de contactos múltiples, en este caso interdisciplinarios. Con esa llave se podrán construir caracterizaciones que dejarán de ser tan formales y planificadas como se piensa ahora. En cambio, resultarán más bien producto de la "improvisación" por parte del agente en su interacción con el ambiente.
"Tostada" en un ambiente culinario es un interesante ejemplo de considerar agentes y ambientes como subsistemas participantes de lo que propone la concepción dinámica de la cognición, un sistema cognitivo dinámico integrado donde entre la percepción del agente y su acción no hay demasiados aportes inútiles de la zona intermedia entre percepción y acción. Este bajo aporte del razonamiento, de la "representación del ambiente", de la memoria o de la "experiencia" ha de tener, seguramente, una contrapartida. La adquisición de "experiencia", resultante de la autorreflexión sobre lo que está haciendo el robot en su actividad diaria con sus percepciones de ella y acciones consiguientes, no ha de ofrecer mayores problemas en el futuro de la Inteligencia artifical, con memorias artificiales de precio casi nulo. De todos modos mucho se puede conseguir por la técnica del estudio dinámico de la interacción agente-ambiente.

Significado de "truqués"

Escuela dinámica de Ashby, van Gelder, Beer y Giunti

Analogías en el acople agente-ambiente

Concepción dinámica de la cognición
.

5.may.2001
Vuelta a Portada principal

Publicación original de Agre Prólogo del libro "Computational Research on Interaction and Agency"
Glosario de Carlos von der Becke.