TIPOS DE DOCUMENTOS
Los Sistemas de Extracción de Información (SEI) se pueden aplicar a todos los tipos de documentos, tanto a los documentos estructurados como a los documentos no estructurados. Aún así, es preciso señalar las diferencias que existen dependiendo del documento objeto de análisis.
-
Documentos no estructurados: se trata de los documentos escritos en lenguaje natural y que son el objetivo principal de los Sistemas de Extracción de Información (SEI). Para extraer la información de estos documentos es necesario realizar las funciones descritas en la página anterior. El tipo de información que los Sistemas de Extracción de Información (SEI) son capaces de extraer varía en función del documento.
Las entidades con nombre propio, como por ejemplo, el de personas, organizaciones o lugares se pueden recuperar con una fiabilidad del 90% mientras que los atributos de dichas entidades, hechos o eventos relacionados se recuperan con una fiablidad mucho más reducida.
-
Documentos estructurados: cuando el documento de origen es un documento estructurado, resulta mucho más sencillo analizarlo para obtener las entidades y sus relaciones, siempre y cuando esté debidamente etiquetado. Normalmente, como resultado de aplicar un Sistema de Extracción de Información (SEI) a cualquier texto se obtiene un documento estructurado del tipo XML.
Anterior: Componentes del SEI
Siguiente: Herramientas de EI
|
SECCIONES
|