EXTRACCIÓN DE INFORMACIÓN (EI)

SISTEMAS DE EXTRACCIÓN DE INFORMACIÓN (SEI):

OBJETIVOS Y PROBLEMAS

Los Sistemas de Extracción de Información (SEI) tienen como objetivo obtener información relevante e ignorar la irrelevante. Obtienen información acerca de hechos muy específicos a partir de un texto en lenguaje natural acerca de un dominio específico.

Para alcanzar dicho objetivo, se deben dar 2 pasos fundamentales: en primer lugar, un Sistema de Recuperación de Información (SRI) debe obtener información significativa respecto a la solicitud de búsqueda que ha lanzado el usuario. Y en segundo lugar, el Sistema de Extracción de Información (SEI) se encarga de extraer y organizar la información que sea de interés.

La información obtenida a través de los Sistemas de Extracción de Información (SEI) output son los registros que sirven para diseñar las plantillas de extracción. Estas plantillas contienen una serie de categorías que son las siguientes:

  • Entidades (personas, organizaciones, etc.)
  • Atributos de las entidades (título de una persona, tipo de organización, etc.)
  • Relaciones que existen entre entidades (la organización X se encuentra en el país Y)
  • Eventos en los que las entidades participan (la empresa X firmó un acuerdo con la empresa Y)

No obstante, los Sistemas de Extracción de Información (SEI) presentan dos grandes problemas:

  • Escasa portabilidad de los sistemas existentes a nuevos dominios e idiomas: con el fin de solucionar dicho problema, se están desarrollando métodos de aprendizaje automático para adquirir de forma automática los patrones de extracción útiles.
    Por ejemplo, el proyecto CLIR (Cross-ligual Information Retrieval, "Recuperación Translingüe de Información") tiene como objetivo desarrollar sistemas que extraigan la información solicitada a partir de una única consulta en una sola lengua.
  • Los Sistemas de Extracción de Información (SEI) sólo trabajan con algunos tipos de textos y además, no son muy precisos.
    Conseguir Sistemas de Extracción de Información (SEI) precisos es un objetivo básico que se pretende alcanzar a largo plazo.
    Algunas investigaciones dirigen sus esfuerzos hacia un objetivo mucho más ambicioso que la Extracción de Información, que es la Extracción del Conocimiento

Anterior: Introducción (EI)

Siguiente: Funciones del SEI

SECCIONES

Creado por: Iratxe Urien Larrabide

Sistemas Avanzados de Recuperación de Información (SARI) 2009, Universidad Carlos III de Madrid

Última actualización: 18/05/2009

RDF Resource Description Framework Test de accesibilidad web versión 3 Valid HTML 4.01 Transitional ¡CSS Válido! FOAF RSS¡Suscribete a RSS EI!