La Recuperación de Información (IR), puede definirse como la almacenamiento, organización y el acceso a elementos de información. En esta definición pueden tener cabida también los sistemas de Bases de Datos. La diferencia entre ambos radica en que los sistemas IR tratan los items de información tal y como son, una manera de demostrar esto es mediante las bases de datos no estructuradas como los repositorios de información, mientras que los SGBD (Sistemas de Gestión de Bases de Datos) gestionan información organizada expresamente para ser recuperada. Por ejemplo, de un artículo de una revista un sistema BD (Base de Datos) extrae el título, el autor, la editorial y organiza esta información en forma tabular, mientras que en un sistema IR toma el artículo como tal y lo trata como un todo.
El campo (IR) envuelve a un conjunto bastante grande de conceptos, estructuras y métodos cuyo entendimiento se dificulta si no se establece un marco conceptual en torno al cual se organicen todos esos elementos. Así, y a modo de hilo conductor, podemos dividirlos en los siguientes temas: el modelo conceptual, la indexación, la transformación de consultas, las operaciones sobre los términos y la gestión de documentos.
Una de las taxonomías más utilizadas desde el origen de IR, los divide en sistemas de búsqueda exacta y de búsqueda aproximada.
En los sistemas basados en búsqueda de patrones las consultas son cadenas de caracteres o expresiones regulares cuyas apariciones en los documentos se quieren encontrar. El campo de aplicación de estos sistemas son colecciones pequeñas de documentos o colecciones con una tasa de actualización muy alta puesto que trabajan sin índice.
En colecciones grandes se suelen utilizar sistemas booleanos, en los que los documentos se representan por un conjunto de palabras clave, organizadas en algún tipo de índice, usualmente archivos invertidos. Las consultas booleanas son expresiones con operadores AND, OR y NOT que conectan las palabras claves que se quieren encontrar en los documentos.