PERCEPCION
"En
donde la computadora se conecta al mundo rea, tal y como éste es"
Por
medio de la percepción los agentes obtienen la información relacionada
con el mundo en donde se encuentran, esta se origina por medio de los sensores.
El
sensor es aquello capza de modificar el estado de cómputo de un agente
como respuesta a un cambio en el estado del mundo. Puede ser algo tan simple
como un sensor de 1 bit o tan complejo como la retina del ojo humano.
"¿Si los estímulos
sensoriales se crean de tal o cual manera en el mundo, cúal es el estado
del mundo que dió lugar a este estímulo en particular?"
FORMACION
DE IMÁGENES
La
percepción visual funciona congregando en una escena la luza dispersada
por objetos, creando una imagen 2-D.
OPERACIONES
DEL PROCESAMIENTO DE IMAGENES EN LA VISION PRIMERA
Los
bordes son las curvas del plano de imágenes en los que se presenta
un cambio "importante" en la brillantez de la imágen. El
objetivo final de la detección de bordes es logran la construcción
del dibujo de línea idealizado.
OBTENCION
DE INFORMACION TRIDIMENSIONAL POR PERCEPCION VISUAL
Para
llevar a cabo ciertas acciones como la manipulación, el desplazamiento
e identificación; es necesario obtener información tridimensinal.
Aspectos que intervienen:
-
Segmentación
de la escena en objetos independientes; conduce a la organización
del grupo de pixeles de imagen por regiones que correpondan a entidades
de la escena con significado semántico. La detección de bordes
es un primer paso para esto, aunque puede pasar que una parte de las curvas
del borde correspondiente a los limites de la superficie no estén
contrastadas o que las que se detecten sean ruido, marcas de superficie
o sombras.
- Definición
de la posición y orientación de cauno de los objetos relativos
al observador; la postura definidas por las coordenadas (X,Y,Z).
- Definición
de la forma de cada objeto; La forma de un objeto también es muy importante,
especialmente para actividades de manipulación
Algunos
de los elementos que intervienen en la estimulación visual son:
EMPLEO
DE LA VISION PARA LA MANIPULACION Y NAVEGACIÓN
Por
ejemplo, para conducir un vehículo se debe:
-
Mantener
una velocidad razonable
- Control lateral
(que esté dentro de su carril)
- Control longitudinal
(distancia prudente entre los vehiculos)
- Monitoreo de
vehículos en carriles vecinos.
"Para realizar una acción
determinada, no es necesario recuperar toda la información que, en
principio, es posible obtener a partir de una imágen"
REPRESENTACION
Y RECONOCIMIENTO DE OBJETOS
La
identificación se puede definir teniendo en cuenta:
-
Una
escena formada por uno o varios obejtos conocidos A PRIORI
- Una imagen de
la escena tomada desde posición y orientación desconocidas.
Los cilindros generalizados
representan descripciones compactas de una gran diversidad de objetos y han
sido empleados en diversos sistemas de identificación de objetos.
COMPRENSION
DE SONIDOS VOCALES
La
identificación de señales verbales consiste en establecer una
correspondencia entre una señal acústica codificada digitalmente
y una cadena de palabras. Esta deberá responder a las siguientes preguntas:
-
¿Cuáles
son los sonidos que articuló el hablante? -----> fonema
- ¿qué
palabras trata de expresar el hablante por medio de tales sonidos verbales?
----> homófonos/ segmentación
- ¿Qué
es lo que el hablante desea expresar con tales palabras? ----> alg. de
análisis cap. 22
-
Procesamiento
de señales; el sonido es una fuente de energía analógica.
Velocidad de muestreo, factor de cuantización, cuadros, cuantización
vectorial son cosas a tener en cuenta en este procesamiento.
- Definición
de un modelo general para el reconocimiento de sonidos vocales; usamos
Regla de Bayes, donde dada una determinada señal, el objetivo es encontrar
la secuencia de palabras que maximiza PALABRAS/SEÑAL.
- El modelo
del lenguaje: P (palabras); se
utiliza el método de BIGRAMA, en donde se afrma que
la probabilidad de una determinada palabra está dada exclusivamente
por la palabra anterior de la cadena, esto facilita el entrenamiento del modelo
al contar las veces que cada par de palabras se presenta en un cuerpo representativo
de cadenas, utilizando el número para evaluar las probabilidades respectivas.
También existe el modelo de TRIGRAMA que tiene mayor
capacidad, pero al ser más los parámetros que aparecen dificulta
obtener una suficiente cantidad de datos de entrenamiento.
- El modelo
Acustico: P (señal/palabras); informa
que sónidos se producirán cuando se articule una determinada
cadena de palabras. Se divide en 2 partes:
- Como se
describe cada una de las palabras en función de una secuencia de
fonos
- De qué
manera se relacionan cada uno de estos fonos con los valores del vector
de cuantización obtenidos por la señal acustica.
- Integración
de los modelos;
- El algoritmo
de búsqueda; Algoritmo
de Viterbi
- Como
entrenar el modelo; los
mejores sistemas de reconocimiento actuales son capaces de indentificar entre
80 y 98% de las palabras.