Percepción

PERCEPCION

"En donde la computadora se conecta al mundo rea, tal y como éste es"

Por medio de la percepción los agentes obtienen la información relacionada con el mundo en donde se encuentran, esta se origina por medio de los sensores.

El sensor es aquello capza de modificar el estado de cómputo de un agente como respuesta a un cambio en el estado del mundo. Puede ser algo tan simple como un sensor de 1 bit o tan complejo como la retina del ojo humano.

"¿Si los estímulos sensoriales se crean de tal o cual manera en el mundo, cúal es el estado del mundo que dió lugar a este estímulo en particular?"

FORMACION DE IMÁGENES

La percepción visual funciona congregando en una escena la luza dispersada por objetos, creando una imagen 2-D.

Cámara de orificio; Da una formación de imágenes conocida como Proyección de perspectiva.
Sistema de lentes; Son más grandes que el anterior, por lo que admiten mayor cantidad de luz, lo que impide enfocar con precisión toda la escena.
Fotometría de la formación de imágenes; en la vida real, las superficies se comportan combinando características de reflexión difusa y especular, la obtención de imágenes realistas es lograda generalmente mediante un rastreo de rayos, en el que se trata de simular el procedimiento físico de la luz originada por funtes luminosas.

OPERACIONES DEL PROCESAMIENTO DE IMAGENES EN LA VISION PRIMERA

Los bordes son las curvas del plano de imágenes en los que se presenta un cambio "importante" en la brillantez de la imágen. El objetivo final de la detección de bordes es logran la construcción del dibujo de línea idealizado.

Detección de bodes; para detectarlos con cualquier orientación es necesario convolucionar la imágen utilizando para ello 2 filtros. Una vez mardados los prixels del borde, el siguiente paso consiste en unir todos los pixeles vencinos que también son pixeles de bordes con la misma orientación

OBTENCION DE INFORMACION TRIDIMENSIONAL POR PERCEPCION VISUAL

Para llevar a cabo ciertas acciones como la manipulación, el desplazamiento e identificación; es necesario obtener información tridimensinal. Aspectos que intervienen:

Segmentación de la escena en objetos independientes; conduce a la organización del grupo de pixeles de imagen por regiones que correpondan a entidades de la escena con significado semántico. La detección de bordes es un primer paso para esto, aunque puede pasar que una parte de las curvas del borde correspondiente a los limites de la superficie no estén contrastadas o que las que se detecten sean ruido, marcas de superficie o sombras.
Definición de la posición y orientación de cauno de los objetos relativos al observador; la postura definidas por las coordenadas (X,Y,Z).
Definición de la forma de cada objeto; La forma de un objeto también es muy importante, especialmente para actividades de manipulación

Algunos de los elementos que intervienen en la estimulación visual son:

Movimiento; el cambio aparente producido en la imagen se conoce como FLUJO OPTICO(dirección y velocidad del movimiento)
Visión estereoscópica binocular; se usan 2 o más imagenes separadas entre sí por un espacio (como en el ojo humano) En una visión normal humana se efectúa una fijación, es decir; en la escena hay un punto en que el eje optico de los 2 ojos se cruzan.
Gradientes de textura; patrón repetido en un espacio sobre una superficie que puede percibirse visualmente.
Sombreado; variación en la intensidad de luz que se recibe en distintas partes de la superficie de la escena. En las gráficas de la computadora. La idea es determinar la brillantez de una imágen con base en la geometría de la escena y las características de reflectancia. lo cual se ejecuta de manera inversa en la computadora.
Contorno; a la determinación del significado real de cada una de las líneas de una imagen se le conoce como etiquetado de línea, uno de los primeros temas estudiados en la percepción visual por computadora. Las líneas pueden ser clasificadas como la proyección de una extremidad, y cada uno se clasifica como cóncavo, convexo o de oclusión.

EMPLEO DE LA VISION PARA LA MANIPULACION Y NAVEGACIÓN

Por ejemplo, para conducir un vehículo se debe:

Mantener una velocidad razonable
Control lateral (que esté dentro de su carril)
Control longitudinal (distancia prudente entre los vehiculos)
Monitoreo de vehículos en carriles vecinos.

"Para realizar una acción determinada, no es necesario recuperar toda la información que, en principio, es posible obtener a partir de una imágen"

REPRESENTACION Y RECONOCIMIENTO DE OBJETOS

La identificación se puede definir teniendo en cuenta:

Una escena formada por uno o varios obejtos conocidos A PRIORI
Una imagen de la escena tomada desde posición y orientación desconocidas.

Los cilindros generalizados representan descripciones compactas de una gran diversidad de objetos y han sido empleados en diversos sistemas de identificación de objetos.

El método de la alineación;
Empleo de invariantes proyectivas;

COMPRENSION DE SONIDOS VOCALES

La identificación de señales verbales consiste en establecer una correspondencia entre una señal acústica codificada digitalmente y una cadena de palabras. Esta deberá responder a las siguientes preguntas:

¿Cuáles son los sonidos que articuló el hablante? -----> fonema
¿qué palabras trata de expresar el hablante por medio de tales sonidos verbales? ----> homófonos/ segmentación
¿Qué es lo que el hablante desea expresar con tales palabras? ----> alg. de análisis cap. 22

Procesamiento de señales; el sonido es una fuente de energía analógica. Velocidad de muestreo, factor de cuantización, cuadros, cuantización vectorial son cosas a tener en cuenta en este procesamiento.
Definición de un modelo general para el reconocimiento de sonidos vocales; usamos Regla de Bayes, donde dada una determinada señal, el objetivo es encontrar la secuencia de palabras que maximiza PALABRAS/SEÑAL.
El modelo del lenguaje: P (palabras); se utiliza el método de BIGRAMA, en donde se afrma que la probabilidad de una determinada palabra está dada exclusivamente por la palabra anterior de la cadena, esto facilita el entrenamiento del modelo al contar las veces que cada par de palabras se presenta en un cuerpo representativo de cadenas, utilizando el número para evaluar las probabilidades respectivas. También existe el modelo de TRIGRAMA que tiene mayor capacidad, pero al ser más los parámetros que aparecen dificulta obtener una suficiente cantidad de datos de entrenamiento.
El modelo Acustico: P (señal/palabras); informa que sónidos se producirán cuando se articule una determinada cadena de palabras. Se divide en 2 partes:
1. Como se describe cada una de las palabras en función de una secuencia de fonos
2. De qué manera se relacionan cada uno de estos fonos con los valores del vector de cuantización obtenidos por la señal acustica.
Integración de los modelos;
El algoritmo de búsqueda; Algoritmo de Viterbi
Como entrenar el modelo; los mejores sistemas de reconocimiento actuales son capaces de indentificar entre 80 y 98% de las palabras.