EXTRACCIÓN DE INFORMACIÓN (EI)

TIPOS DE DOCUMENTOS

Los Sistemas de Extracción de Información (SEI) se pueden aplicar a todos los tipos de documentos, tanto a los documentos estructurados como a los documentos no estructurados. Aún así, es preciso señalar las diferencias que existen dependiendo del documento objeto de análisis.


  1. Documentos no estructurados: se trata de los documentos escritos en lenguaje natural y que son el objetivo principal de los Sistemas de Extracción de Información (SEI). Para extraer la información de estos documentos es necesario realizar las funciones descritas en la página anterior. El tipo de información que los Sistemas de Extracción de Información (SEI) son capaces de extraer varía en función del documento.
    Las entidades con nombre propio, como por ejemplo, el de personas, organizaciones o lugares se pueden recuperar con una fiabilidad del 90% mientras que los atributos de dichas entidades, hechos o eventos relacionados se recuperan con una fiablidad mucho más reducida.


  2. Documentos estructurados: cuando el documento de origen es un documento estructurado, resulta mucho más sencillo analizarlo para obtener las entidades y sus relaciones, siempre y cuando esté debidamente etiquetado. Normalmente, como resultado de aplicar un Sistema de Extracción de Información (SEI) a cualquier texto se obtiene un documento estructurado del tipo XML.

Anterior: Componentes del SEI

Siguiente: Herramientas de EI

SECCIONES

Creado por: Iratxe Urien Larrabide

Sistemas Avanzados de Recuperación de Información (SARI) 2009, Universidad Carlos III de Madrid

Última actualización: 18/05/2009

RDF Resource Description Framework Test de accesibilidad web versión 3 Valid HTML 4.01 Transitional ¡CSS Válido! FOAF RSS¡Suscribete a RSS EI!