Sistemas de Question-Answering

Introducción

Un sistema de question-answering es uno de los sistemas más complejos para la recuperación de información. Debemos de tener en cuenta que un sistema basado en el question-answering es mucho más difícil que un sistema normal que se encarga de buscar una información en una cantidad más o menos grande de documentos, ya que estos debe extraer de dichos documentos un fragmento de texto (mínimo) que responda a una pregunta dada en lenguaje natural. Estos sistemas están muy ligados a los buscadores web. Un sistema de question-answering intenta reconocer un amplio rango de tipos de cuestiones, incluyendo hechos, listas, definiciones, Como, Cuando, Dónde, Por qué, etc. Dichas búsquedas pueden variar desde pequeñas colecciones de documentos locales, organizaciones internas de documentos, hasta la web entera (o una parte de ella)..

Arquitectura

Los primeros sistemas de question-answering se desarrollaron en torno a 1960 y básicamente eran interfaces de lenguaje natural para sistemas expertos centradas en dominios específicos. En contraste, los sistemas de question-answering actuales utilizan documentos de texto como base de conocimiento y combinan diversas técnicas de procesamiento del lenguaje natural. Los sistemas actuales suelen incluir un módulo de clasificación de cuestiones (question classifier module) que se encarga de determinar el tipo de cuestión y respuesta. Tras analizar la cuestión, el sistema utiliza diversos módulos que aplican complejas técnicas de procesamiento de lenguaje natural aumentando la complejidad entre cada módulo. Tras ello, se aplica un nódulo de recuperación de documentos que utiliza motores de búsqueda para identificar documentos y párrafo en el documento que puedan contener la respuesta a la pregunta. Posteriormente, se aplica un filtro que se encarga de seleccionar pequeños trozos de texto que contengan cadenas del mismo tipo al esperado. Por ejemplo, si la pregunta es ¿Quien es el rey de España?, este filtro buscara textos que contengan nombres. Para finalizar, el módulo de extracción de respuestas es el encargado de buscar pistas en el texto que determinen si una respuesta candidata es correcta.

 

Métodos QA

Un sistema de question-answering es muy dependiente de un buen motor de búsqueda que se encargue de seleccionar documentos que contengan la respuesta. Parece lógico que grandes colecciones de documentos tiende a producir mejor rendimiento, a menos que el dominio de la cuestión sea ortogonal al de la colección. La noción de redundancia de datos en colecciones masivas, como la web, significa que es probable que parte de la información este en varios sitios, contextos y documentos distintos. Esto tiene dos beneficios, se reduce la carga de los sistemas de procesamiento de lenguaje natural, y que podemos considerar las respuestas correctas como aquellas que aparecen más veces.Podemos hacer una diferenciación entre dos métodos distintos profundidad o anchura: En profundidad se utilizan varios métodos para localizar fragmentos de texto de documentos para después filtrarlos basándose en la presencia de la respuesta deseada. Finalmente, esas respuestas se ordenan basándose en diferentes criterios. Sin embargo, en los casos en los que la reformulación de la pregunta no es suficiente, se debe realizar un análisis semántico y contextual. Estos sistemas suelen incluir sistema de gestión del conocimiento representados en ontologías, como WordNet o SUMO.

Enlaces Externos

 

Recuperación Organización Información Tutorial TOLOG Recuperación Organización Información Tutorial TOLOG [Valid RSS]

Recuperación y organización de la información - Sistemas de Question-Answering