Universidad Carlos III de Madrid

Modelos de recuperación

Sistemas Avanzados de Recuperación de la Información

Esta página cumple los requisitos de validación del consorcio W3C. Valida tu CSS


Test de Accesibilidad web- Nivel A


Test de Accesibilidad web- Nivel AAA


[Valid RSS]

El modelo vectorial

El modelo vectorial definido por Salton (Salton, 1968) es ampliamente usado en operaciones de RI, así como en operaciones de categorización automática, filtrado de información, etc. El modelo vectorial trata de recoger la relación de cada documento Di, de una colección de N documentos, con el conjunto de las m características de la colección. Formalmente un documento puede considerarse como un vector que expresa la relación del documento con cada una de esas características. Di --> di = (ci1, ci2,...,cim)

El vector identifica en qué grado el documento Di satisface cada una de las m características. En el vector, cik es un valor numérico que expresa en qué grado el documento Di posee la característica k. El concepto característica se concreta en la ocurrencia de determinadas palabras o términos en el documento. Si se consideran los términos como características definitorias del documento, el proceso que debe seguir el sistema pasa primero por seleccionar aquellos términos útiles que permitan discriminar unos documentos de otros.

Ordenando los documentos recuperados en orden decreciente, el modelo de recuperación vectorial toma en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de la respuesta con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos. El alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenados.