Conceptos generales de los S.R.I.
Clasificación de los sistemas
de recuperación de información.
Modelos conceptuales de recuperación
de información.
Operaciones de consulta, operaciones
sobre términos y operaciones con documentos.
Vista funcional del paradigma de un
SRI
S.R.I. y otras modalidades de sistemas
de información.
Evaluación de sistemas de recuperación
de información.
Conceptos generales de los Sistemas de Recuperación de Información (SRI).
Los sistemas automatizados para la recuperación de la información fueron originalmente desarrollados en la década de los años 40 con la idea de auxiliar a los gestores de la documentación científica. Nadie discute en la actualidad la necesidad de utilizarlos dentro de los procesos normales de operatoria en cualquier centro o institución documental (sería como volver a la Edad de Piedra), mas si cabe cuando la oferta comercial es amplia y diversa, y sus precios resultan asequibles en la mayoría de los casos.
Un SRI permite la recuperación de la información, previamente almacenada (claro está), por medio de la realización de una serie de consultas (queries) a los documentos contenidos en la base de datos. Esta serie de preguntas o interrogaciones (queries) se conceptúan como sentencias formales de expresión de necesidades de información, y suelen venir expresadas por medio de un lenguaje de interrogación.
Un documento es un objeto de datos, de naturaleza textual tradicionalmente, aunque la evolución tecnológica ha propiciado la profusión de documentos multimedia, incorporándose al texto fotografías, ilustraciones gráficas, vídeo animado, audio, etc.,
Un SRI debe soportar una serie de operaciones básicas sobre los documentos almacenados en el mismo, como son: introducción de nuevos documentos, modificación de los documentos almacenados y eliminación de los mismos. Debemos también contar con algún método de localización de los documentos (o con varios generalmente), para presentárselos posteriormente al usuario.
Los SRI implementan estas operaciones en formatos muy diversos, lo que provoca una amplia diversidad en lo relacionado con la naturaleza de los mismos, por lo que precisamos llegar a establecer una clasificación de los mismos.
Clasificación de los sistemas de recuperación de información.
Como los SRI implementan una gama diversa de estructuras de datos, algoritmos y técnicas de recuperación de información, para facilitar su comprensión precisamos disponer de un marco conceptual para los mismos. Existe un método, denominado Domain Analysis (Análisis de Dominio), presentado por Prieto-Diaz y Arango , para desarrollar este marco. Por medio de este método, podemos diferenciar y recordar fehacientemente las similitudes y las diferencias entre estos sistemas relacionados. Inicialmente debemos identificar los conceptos importantes y el vocabulario en el Dominio, definiéndolos y organizándolos con base a una clasificación facetada, que presentamos en la siguiente relación:
Modelo Conceptual | Estructura de Ficheros | Operaciones de consulta | Operaciones sobre términos | Operaciones sobre documentos |
Booleano | Fichero Plano | Reutilización | Stemming | Parsing |
Booleano extendido | Fichero Inverso | Parsing | Ponderación por pesos | Visualización documentos |
Probabilístico | Patrones de bits | Booleanas | Tesauros | Rango |
Búsqueda por cadenas | Árbol PAT | Clustering | Lista de palabras vacías | Ordenación |
Espacio Vectorial | Grafos | Truncamiento | Enmascaramiento | |
Hashing | Asignación Ids |
La primera fila de la tabla recoge las facetas o atributos constantes en todos los sistemas. Las facetas representan las partes de los SRI que tienden a aparecer en todos los que se desarrollan, como es el caso de la estructura de la base de datos, que poseen todos los SRI aunque cada uno la defina de forma diferente. Con base a los distintos valores de las facetas podemos llegar a clasificar sencillamente a los SRI, así un sistema de recuperación de información que denomináramos genéricamente ALFA podría clasificarse de la siguiente manera:
Conceptual Model | File Structure | Query Operations | Term Operations | Document Operations |
Booleano | Fichero Inverso | Parsing, booleanas | Stemming,
Palabras vacías, Truncamiento |
Parsing, Visualización docs, Ordenación. Enmascaramiento, Asignación Ids |
Cada faceta refleja un momento determinado en la toma de decisiones efectuada para llevar a cabo el desarrollo de la arquitectura de un SRI. El diseñador del sistema debe elegir, para cada faceta, un valor determinado de entre las alternativas dispuestas.
Modelos Conceptuales de Recuperación de Información.
Entendemos que un Modelo Conceptual de Recuperación de Información es una aproximación general a los SRI. Diversas taxonomías de modelos han sido propuestas, desde la clasificación de Faloutsos: búsqueda en patrones de texto, ficheros inversos y búsqueda en patrones de bits, hasta la clasificación de Belkin & Croft que los dividen en exactos e inexactos. Los modelos exactos constituirían una categoría que incluiría a los modelos de búsqueda con base a patrones y a las técnicas booleanas; los modelos inexactos contendrían las técnicas probabilísticas, los espacios vectoriales y las técnicas de clustering, entre otros. Estas divisiones taxonómicas no resultan mútuamente excluyentes, y un SRI cualquiera puede llegar a presentar aspectos correspondientes a varias de ellas.
La mayoría de los sistemas de información son de dos tipos, booleanos y de búsqueda de información por patrones de texto. Las interrogaciones a los sistemas de búsquedas por patrones de texto se llevan a cabo por medio de cadenas de caracteres o por expresiones regulares. Los sistemas de patrones de textos son más utilizados comúnmente en pequeñas colecciones de datos y cuando hay que gestionar grandes volúmenes de documentos destacan mayoritariamente los sistemas booleanos. Dentro de un sistema booleano, los documentos se encuentran representados por conjuntos de palabras clave, generalmente almacenadas en un fichero inverso. Un fichero inverso es una lista de palabras clave y de identificadores de los documentos en lo que éstas aparecen. Las búsquedas booleanas consisten en expresiones de palabras claves conectadas con algún/nos operador/es lógico/os (AND, OR y NOT). Al mismo tiempo que se han criticado estos sistemas (Belkin & Croft recogen un sumario de estas críticas), ha resultado complicado aumentar su efectividad en la recuperación de información. Sobre este modelo conceptual se han desarrollado algunas extensiones que se recogen bajo la denominación de modelo Booleano extendido.
Se ha tratado también de mejorar el rendimiento de los SRI por medio del uso de la información procedente de la distribución estadística de los términos, en tanto que la frecuencia de aparición de un término en un documento o conjunto de documentos podría considerarse un dato relevante a la hora de establecer una interrogación a la base de datos. La distribución de frecuencias de un término se implementa dentro del contexto de algunos modelos estadísticos, como es el caso del modelo de Espacio Vectorial, el modelo Probabilístico o el modelo conceptual Clustering. Por medio del uso de modelos probabilísticos y de las distribuciones de frecuencia de los términos de la base de datos, es posible asignar una probabilidad de importancia (un peso) a cada documento dentro de un conjunto de documentos recuperados para ser ordenados posteriormente según un cierto orden de importancia (pertinencia). También resulta posible efectuar agrupaciones (clusters) de los documentos de la base de datos basándonos en los términos que contienen y recuperar información desde estos grupos de documentos por medio de algoritmos de ranking.
Una decisión fundamental a tomar durante el diseño de los SRI es qué tipo de estructura de ficheros se va a usar para la base de datos subyacente. En la tabla anterior hemos visto que el conjunto de estructuras de ficheros es diverso: ficheros planos, ficheros inversos, ficheros de patrones de bits, Árboles PAT y grafos.
Con el uso de ficheros planos, uno o más documentos son almacenados en un fichero (generalmente en formato de texto ASCII), las búsquedas sobre estos ficheros planos se llevan a cabo generalmente por medio de la localización de patrones de texto.
Un fichero inverso es un tipo de fichero índice donde la estructura de cada ítem (o entrada) del fichero es, generalmente: palabra clave, identificador de documento, identificador de campo. Una palabra clave es un término índice que describe al documento, el identificador de documento es único para cada documento y un identificador de campo es un término que nos indica dentro de qué campo del documento aparece la palabra clave. Algunos sistemas incluyen también información acerca de la localización en el documento del párrafo y frase de los términos utilizados para proceder a interrogar la base de datos. La búsqueda se realiza, corrientemente, por medio de la localización de los términos solicitados en el fichero inverso.
Los ficheros de patrones de bits contienen hileras de dígitos binarios, patrones de bits que representan a los documentos. Existen varias formas de construir estos patrones de bits, un método común consiste en la división de los documentos en bloques lógicos, conteniendo cada uno de ellos un número fijo de distinto significante (una palabra de una lista de términos no vacíos). Cada palabra del bloque es desglosada para ofrecer una hilera de bits (patrón de bits con algunos de los bits "puesto a 1"). Los patrones de bits de cada palabra en un bloque son agrupados para crear un bloque de patrones. Los bloques de signaturas se concatenan posteriormente para producir el patrón de bits del documento. La búsqueda se lleva a cabo por medio de la comparación que se establecerían entre los patrones de bits de las interrogaciones con los patrones de bits de los documentos de la base de datos.
Los árboles PAT (de "PATricia trees"), están construidos sobre todas las sistrings de un texto. Si una colección de documentos es concebida como una secuencia numerada de arrays o cadenas de caracteres, una sistring se entiende como una subcadena de caracteres que se define desde un punto determinado del array y se extiende hasta una distancia arbitraria hacia la derecha. Un árbol PAT es un, por tanto, un árbol digital donde los bits individuales de las claves son usados para decidir derivaciones.
Los grafos (o "redes"), son colecciones ordenadas de nodos conectados por arcos; se usan para representar documentos de diversas formas y maneras. Un ejemplo es el grafo denominado red semántica, que representa las relaciones semánticas que se establecen en el texto, y que se pierden (a menudo), en otros sistemas de indización. Aunque constituyen un campo interesante para el estudio, resultan bastante difíciles de llevar a la práctica y requieren excesivo esfuerzo manual para el proceso de la representación de las colecciones de documentos.
Operaciones de consulta, operaciones sobre términos y operaciones con documentos.
Operaciones de consulta: Las consultas a
los SRI se expresan por medio de sentencias formales de las necesidades
de información de los usuarios del sistema. Las operaciones de consulta
son unas funciones del SRI que lo determinan de forma clara y permiten
diferenciar a unos de otros. Por ejemplo, una de las operaciones de consulta
más común es la operación denominada parsing,
que consiste en la división de la interrogación (consulta)
en sus elementos constituyentes. Las búsquedas booleanas deben ser
divididas en sus correspondientes términos de indización
o palabras clave y los operadores asociados a ellas para formular la expresión
formal de la consulta. El conjunto de los identificadores de los documentos
asociados con cada término de consulta es recuperado, y estos conjuntos
son, entonces, combinados de acuerdo a los operadores booleanos.
La operación denominada reutilización
(en inglés feedback), consiste en la reutilización de una
búsqueda anteriormente efectuada. La información sobre el
resultado de estas búsquedas es usada para formar parte de las consultas
actuales; así, los términos de documentos relevantes encontrados
en una consulta previa pueden añadirse a la consulta actual, y los
términos correspondientes a documentos no relevantes pueden ser
obviados. Hay creencia de que la reutilización de las búsquedas
anteriores puede mejorar y potenciar las prestaciones de los SRI.
Operaciones sobre los términos.Las
operaciones que se pueden llevar a cabo sobre los términos en un
SRI conforman el conjunto: {stemming, truncamiento, ponderación
por pesos, palabras vacías y tesauros}. Con el concepto de stemming
nos referimos a un proceso de "mezcla"(fusionando o combinando) de palabras
relacionadas, reduciendo normalmente las palabras a su forma de raíz
más común.
El truncamiento es una "mezcla" manual de términos usando caracteres especiales en la palabra, así que el término truncado formará múltiples palabras; en este caso nos referimos a las operaciones de localización de términos con una raíz común, por ejemplo: "localización de todos aquellos documentos que comiencen por 'informa'", sería una búsqueda por truncamiento que nos ofrecería como resultado términos tales como: información, informaciones, informativo, informacional, informador, informadores.
Otra forma de asociación de términos relacionados
es por medio de la utilización de un tesauro, el cual, nos
va a ofrecer una lista de términos, sus términos sinónimos
y las relaciones semánticas mantenidas entre los términos
del mismo. La lista de palabras vacías es una relación
de términos considerados como valores no indizables, usados para
eliminar potenciales términos de indización. Los términos
de una lista vacía están carentes de todo significado a la
hora de recuperar información, como ejemplo podemos tomar el determinante
"la", que no posee ninguna funcionalidad a la hora de recuperar documentos,
ya que en todos los documentos de la base de datos aparecerá este
término de forma casi segura y no nos resalta nada del contenido
del documento almacenado. Así, cada término potencial de
indización es comprobado previamente, verificándose su presencia
en la lista de palabras vacías y es descartado si se encuentra en
ella. En cuanto a la ponderación de términos, a éstos
se les puede asignar un valor numérico basado en su distribución
estadística, o sea, la frecuencia con la que los términos
aparecen en documentos, colecciones de documentos, o en subconjuntos de
colecciones de documentos, tales como documentos considerados relevantes
en una búsqueda (pregunta).
Operaciones sobre los documentos: Los documentos
son los objetos primarios en un SRI y hay muchas operaciones para ellos.
En algunos SRI, a los documentos añadidos a una base de datos se
les debe asignar un identificador único, deben dividirse (en partes
gramaticales) en sus campos constituyentes, y estos campos deben ser introducidos
dentro de identificadores de campos y conjuntos de términos. Una
vez en la base de datos, uno a veces quiere desenmascarar ciertos
campos para buscarlos y mostrarlos, por ejemplo, un investigador puede
desear buscar sólo los campos de título y resumen de un documento
para una búsqueda dada, o puede desear consultar sólo el
título y el autor de los documentos recuperados.
Otra operación común es la de ordenar los documentos recuperados por algún campo determinado; por ejemplo el campo autor. La operación de mostrar incluye tanto a la salida impresa de los documentos como a su visualización en la pantalla del ordenador. A partir de la información procedente de la distribución de frecuencias de los términos, es posible asignar una probabilidad de relevancia a cada documento dentro de un conjunto recuperado, permitiendo que los documentos recuperados sean organizados en orden a esta probable relevancia.
La información de la distribución de frecuencias de los términos puede ser usada para agrupar documentos similares en un espacio documental, por medio de las técnicas de clustering. Otra operación importante a realizar con los documentos es proceder a su visualización. El diseño del interfaz de usuario de un SRI resulta de carácter vital, como en otro tipo de sistemas de información, para conseguir un uso efectivo del mismo.
Vista funcional del paradigma de un SRI.
En la siguiente figura se ilustra la actividad asociada con un tipo común de SRI basado en el modelo Booleano. Esta elección se justifica porque la simplicidad de este modelo escogido representa el estándar operativo de un SRI.
Cuando se construye una base de datos, los documentos se recogen uno a uno y su texto se divide en palabras. A su vez, las palabras de los documentos se comparan con la relación de las palabras vacías y las palabras de un documento no encontradas en las palabras vacías podrán ser ramas.
A partir de ahí, las palabras podrán ser contadas por su frecuencia de aparición en documentos, y en la base de datos, usadas para medir los documentos que se recuperan. Finalmente, las palabras y la información asociada, los documentos, los campos dentro del documento y las cuentas de aparición son puestas en la base de datos. La base de datos, entonces, podrá consistir en pares de identificadores de documentos y palabras clave como los siguientes:
Palabra Clave 1 - Documento 1-Campo_2
Palabra Clave 2 - Documento 1-Campo_2.5 Palabra Clave 2 - Documento 3-Campo_1.2 Palabra Clave 3 - Documento 3-Campo_3.4 ....... ........ ......... ........... ........... ....... ........ ......... ........... ........... Palabra Clave n -Documento-n-Campo_i,j |
Esta estructura se denomina fichero inverso. En un SRI cada documento debe tener un único identificador y sus campos. Si las operaciones sobre los campos son soportadas en el SRI, éstos deberán tener nombres de campos únicos para evitar problemas.
A la hora de buscar en la base de datos, un usuario introduce una pregunta expresada en la forma de un conjunto de palabras claves conectadas por operadores booleanos (AND, OR, NOT). La pregunta es pasada a sus temas y operadores booleanos. Estos términos, a continuación, son buscados en el archivo inverso y listados de identificadores correspondientes a ellos son combinados de acuerdo con los operadores booleanos específicos. Si se ha almacenado la información de la distribución de frecuencias, el conjunto retenido puede ser clasificado en orden de relevancia y entonces, el resultado de la búsqueda se presenta al usuario. En algunos sistemas, el usuario determina la relevancia de los documentos que han recuperado, y esta información es usada para modificar la pregunta automáticamente, añadiendo temas de documentos relevantes y quitando temas de documentos no relevantes. Sistemas como éste ofrecen un buen rendimiento en las operaciones de búsqueda, dada su simplicidad, pero su funcionamiento está lejos de ser perfecto, de hecho, ya hemos indicado que se han propuesto muchas técnicas para mejorarlo.
Una de ellas ha sido establecer una conexión entre términos morfológicamente relacionados o stemming, consiste en una técnica adecuada para "mezclar" términos variantes, para que la similitud de palabras como "engineer", "engineered" y "engineeering" sean reconocidas en la búsqueda. Otra manera para relacionar temas es por medio del uso de tesauros o de listas de sinónimos.
SRI y otras modalidades de sistemas de información.
¿Cómo se relacionan los SRIs con otros
tipos de información tales como sistemas gestores de bases de datos
relacionales (SGBDR) o sistemas de inteligencia artificial (IA)? En la
siguiente tabla recogemos algunas de las similitudes y algunas de las diferencias:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Otra característica distinta de un SRI es que la recuperación es probabilística. Esto es, uno no puede estar seguro de que en un documento extraído se recoge la información exacta que necesita el usuario. En una búsqueda típica en SRI, algunos documentos relevantes se pierden y otros no relevantes son recuperados. Esto puede ser contrastado con resultados de búsqueda de un SGBDR, donde la recuperación es determinística. En este caso, la pregunta consiste en un par de atributo-valor que coinciden o no con los registros en una base de datos.
Un rasgo distintivo de los SRI, en comparación con muchos SGBDR, es que sus bases de datos son muy grandes (algunas veces en el rango de gigabyte). Las bases de datos de catálogos de bibliotecas, por ejemplo, pueden contener millones de registros. Los servicios comerciales de recuperación online (como Dialog o BRS) proporcionan a sus usuarios acceso en tiempo real a bases de datos de muchos gigabytes. La necesidad de buscar en colecciones tan grandes en tiempo real, genera múltiples demandas en el sistema usado para buscar en ellas. La selección de la mejor estructura de datos y de los algoritmos para construir tales sistemas es a menudo crucial.
Otra característica de un SRI, que comparte con los SGBDR, es la volatilidad de los datos. Una colección de documentos gestionada por una típica aplicación SRI (como puede ser un sistema para bibliotecas o de consulta a servicios comerciales de recuperación de documentos), cambia constantemente mientras se vayan añadiendo, cambiando o borrando documentos. En resumen, un SRI representativo debe tener los siguientes requerimientos funcionales y no funcionales:
![]() |
Debe permitir a los usuarios añadir, borrar y cambiar documentos en la base de datos. |
![]() |
Debe proporcionar a los usuarios la manera de buscar documentos tecleando preguntas, y examinando los documentos recuperados. |
![]() |
Debe acomodar bases de datos en el rango de MB a GB |
![]() |
Debe permitir recuperar documentos relevantes en respuesta a preguntas interactivamente, en un tiempo de 1 a 10 segundos. |
Evaluación de SRI.
Un SRI puede ser evaluado por diversos criterios, incluyendo entre los mismos a: eficaz ejecución, efectivo almacenamiento, efectividad en la recuperación y la serie de características que ofrece al usuario. La relativa importancia de estos factores debe ser decidida por el diseñador del sistema, y la selección de la apropiada estructura de datos y algoritmos para su implementación dependerá de esa decisión.
La eficacia en la ejecución es medida por el tiempo que se toma un sistema o una parte de un sistema para realizar una operación. Esto puede ser medido en sistemas basados en C, usando herramientas de perfil como prof en UNIX. Este parámetro ha sido siempre la preocupación principal en un SRI, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema, llegando a alejar a los usuarios del mismo. Los requerimientos no funcionales de un SRI normalmente especifican el máximo tiempo aceptable para una búsqueda, y las operaciones de mantenimiento de una base de datos tales como añadir y borrar documentos.
La eficiencia del almacenamiento es medida por el número de bytes que se precisan para almacenar los datos. El espacio general, una medida común de medir la eficacia del almacenamiento, es la razón del tamaño del índice de los ficheros además del tamaño de los archivos del documento sobre el tamaño de los archivos del documento. Las ratios del espacio general que oscilan entre los valores 1,5 y 3 son típicas de los SRI basados en los ficheros inversos.
De forma tradicional se ha conferido mucha importancia a la efectividad de la recuperación, normalmente basada en la relevancia de los documentos, lo cual ha representado un problema ya que medir la relevancia es un proceso subjetivo y sin confianza. Esto es, diferentes juicios personales asignarían diferentes valores de relevancia a un documento recuperado en respuesta a la búsqueda hecha. La seriedad del problema es la materia de debate, bastantes investigadores señalan que la subjetividad del juicio sobre la relevancia no es suficiente para invalidar el sistema. Muchas medidas de la efectividad de la recuperación han sido propuestas. Las más empleadas, de forma general, son las conocidas como rellamada y precisión.
Rellamada es la ratio de documentos relevantes recuperados en una búsqueda
dada, sobre el número de documentos relevantes para esa búsqueda
en la base de datos. Excepto para tests realizados sobre pequeñas
colecciones, este denominador es generalmente desconocido y debe ser estimado
por muestreo o por otros métodos. Precisión es la
ratio del número de documentos relevantes recuperados, sobre el
número total de documentos recuperados. El rango de valores de ambas
ratios, está comprendido entre 0 y 1.
En tanto que, generalmente, se quiere comparar la realización
del SRI en los términos de rellamada y precisión, se han
desarrollado métodos para evaluarlos de forma simultánea.
Un método comprende el uso de grafos de rellamada-precisión
-puntos bivariados, donde un eje es para rellamada y otro para
precisión. La figura anterior muestra un ejemplo de tales puntos.
Los puntos de rellamada-precisión están inversamente relacionados.
Esto es, cuando la precisión sube, la rellamada normalmente baja
y viceversa. Una medida de evaluación combinada de rellamada y precisión,
E, ha sido desarrollada por Van Rijsbergen y definida como:
Donde {P = precisión, R = rellamada}, y b es una medida de la importancia relativa, para un usuario, de rellamada y precisión. Los investigadores eligen valores de E que ellos esperan que reflejarán la rellamada y precisión que interese al usuario típico. Por ejemplo, si los valores de b se encuentran en niveles de 0.50, nos indica que un usuario estuvo dos veces tan interesado en la precisión como en la rellamada, y si el valor de b fuera 2, nos indica que un usuario estuvo tan interesado en la rellamada como en la precisión.
Los experimentos sobre SRI a menudo utilizan tests de colecciones que consisten en bases de datos de documentos y un conjunto de búsquedas para esas base de datos, para la cual el juicio de relevancia está disponible. El número de documentos en estas colecciones tiende a ser pequeño, normalmente de unos pocos cientos a unos pocos miles de documentos. La tabla siguiente resume los tests aplicados a diversas colecciones de documentos distribuidas en soporte de CD-ROM.
Colección | Materia |
Documentos
|
Preguntas
|
ADI | Ciencia de la Información |
82
|
35
|
CACM | Informática |
3200
|
64
|
CISI | Biblioteconomía |
1460
|
76
|
CRAN | Aeronáutica |
1400
|
225
|
LISA | Biblioteconomía |
6004
|
35
|
MED | Medicina |
1033
|
30
|
NLM | Medicina |
3078
|
155
|
NPL | Ingeniería eléctrica |
11429
|
100
|
TIME | Artículos generales |
423
|
83
|