EXTRACCIÓN DE INFORMACIÓN (EI)

PATRONES DE EXTRACCIÓN DE LA INFORMACIÓN (EI)

Para que los buscadores sean capaces de recuperar páginas con información relevante deben extraer la información clave. Esto demuestra cómo la Recuperación y la Extracción de la Información, (RI y EI) se encuentran estrechamente relacionadas. Como consecuencia de ello, resulta imposible recuperar páginas relevantes de las que no se haya extraido previamente los datos clave.

Los criterios de Extracción de Información (EI) de los datos son los siguientes:


  • Patrones léxicos: son las palabras que se utilizan para la búsqueda de información. Estas palabras se analizan por si solas y de forma independiente al contexto.


  • Patrones sintácticos: el patrón sintáctico más usado en la Recuperación de Información (RI) es el POS (part-of-speech) de una palabra, es decir, las partes del habla (sustantivo, verbo, artículo, adjetivo, etc.). En la Recuperación de Información (RI), se realiza un marcaje POS cuando se indica la función de cada palabra en el contexto específico de la oración. Este marcaje se hace considerando características morfológicas y sintácticas del lenguaje.


  • Patrones semánticos: estos patrones se basan en los metadatos semánticos que se añaden a la Web para describir el contenido, el significado y la relación de los datos. En la actualidad, la World Wide Web se basa pricipalmente en documentos escritos en HTML. Sin embargo, presenta ciertas deficiencias que la web semántica se está ocupando de resolverlas. Para superar dichas limitaciones, se dispone de tecnologías de descripción de los contenidos, como RDF, OWL y XML. Estas tecnologías se combinan para aportar descripciones explícitas de los recursos de la Web utilizando etiquetas que posibilitan interpretar los documentos y realizar procesos inteligentes de captura y tratamiento de información.


  • Patrones de discurso: el uso de estas palabras hace referencia a las características de las unidades de información dentro de un marco de discurso o marco de escritura o de estilo. Los esquemas de usos de estos patrones utilizados más recientemente se centran en describir el contenido temporal de las páginas Web para poder realizar inferencias sobre las mismas. Los patrones de discurso están relacionados con los patrones semánticos y los más importantes son los atributos retóricos, temporales y de relaciones temporales.

Anterior: Aplicaciones de RI

Siguiente: Bibliografía

SECCIONES

Creado por: Iratxe Urien Larrabide

Sistemas Avanzados de Recuperación de Información (SARI) 2009, Universidad Carlos III de Madrid

Última actualización: 18/05/2009

RDF Resource Description Framework Test de accesibilidad web versión 3 Valid HTML 4.01 Transitional ¡CSS Válido! FOAF RSS¡Suscribete a RSS EI!