Software de gestión documental.
Técnicas y aplicaciones.Índice
Sistemas de gestión de bases de datos
Sistemas de gestión documental
Análisis comparativo entre los SGBD y los SGD
Los sistemas de gestión documental y la automatización de servicios de documentación
Evolución y tipología de los sistemas de gestión documental
Los SGD por palabras-clave y los SDG en lenguaje natural
Análisis de algunos paquetes de software de gestión documental.
Paquetes de software para grandes sistemas y miniordenadores
Paquetes de software para microordenadores
Software de gestión documental para bibliotecas
Los paquetes de software de gestión documental (SGD) son programas que ofrecen un amplio repertorio de funciones y posibilidades de procesamiento única y específicamente concebidas para hacer posible el tratamiento de la información documental. No deben confundirse con los programas de gestión de base de datos (SGBD), con frecuencia ofrecidos en el mercado para tratamiento y técnica de la información y que suelen ser inadecuados para satisfacer los requerimientos específicos de las bases de datos documentales.
Sistemas de gestión de bases de datos.
Un SGBD es un paquete de software que permite construir y utilizar una base de datos, es decir, una colección de datos interrelacionados. Son programas especializados en la manipulación de grandes volúmenes de información y son especialmente eficaces para el desarrollo, implantación y mantenimiento de sistemas de información que mantienen entre sí relaciones estables. Las operaciones se realizan por una serie de módulos, comunes a casi todos los SGBD:
lenguaje para la descripción de datos:organizan y estructuran la B.D.;
lenguaje para la manipulación de datos: asociado a un lenguaje de alto nivel;
lenguaje de interrogación: permite obtener respuestas a cuestiones dadas;
generador de informes: produce listados impresos;
subsistema para la entrada de datos;
subsistema de comunicaciones para el acceso en línea.
Los SGBD permiten organizar los datos en estructuras sencillas, ofrecen de respuesta aceptable, economizan recursos, protegen la integridad de los datos advirtiendo sobre posibles errores, disponen de lenguajes de consulta fáciles de usar por los usuarios, admiten procedimientos de seguridad para garantizar la confidencialidad, disponen de procedimientos de recuperación de los datos en caso de averías, tienen un alto grado de integración en el entorno, hacen posible la utilización compartida de datos y proporcionan una gran flexibilidad en el diseño y reestructuración de la base de datos.
Sin embargo, los SGBD sólo recuperan información con rapidez si los usuarios plantean cuestiones precisas dentro de un repertorio limitado de posibilidades de interrogación, lo cual, unido a las peculiaridades de su diseño, limita considerablemente su aplicación en los centros de documentación automatizados. Algunos de los más conocidos son ADABAS, FOCUS, ISMS y TOTAL para grandes ordenadores y dBase II, dBase III, dBase IV, DMS, Informix y otros para microordenadores.
Sistemas de gestión documental.
Son paquetes de software diseñados específicamente para automatizar las funciones propias de los centros de documentación y de las bases de datos con información textual. Están basados en sistemas de archivos o ficheros inversos y las respuestas son prácticamente instantáneas, incluso sobre ficheros con un gran número de registros. Sus rasgos más característicos son:
Almacenan información textual de una forma estructurada.
Manejan cómodamente informaciones textuales de gran longitud
Recupera con gran rapidez el conjunto de registros que responden a una cuestión específica.
Realizan búsquedas multicriterio sobre ficheros inversos utilizando la lógica booleana
Administran tesauros o diccionarios terminológicos (índices inversos)
Las tareas fundamentales que puede ejecutar un SGD son:
Creación y gestión de bases de datos: entrada, corrección y eliminación de registros y creación de ficheros inversos.
Búsquedas de información en línea con tiempos de respuesta cortos utilizando lógica booleana para combinar criterios múltiples de acceso.
Edición en pantalla o en impresora de los resultados de las búsquedas y producción de catálogos e índices impresos.
Otras funciones y capacidades características de los SGD son: procedimiento de mantenimiento -recuerdan al usuario que debe crear copias de seguridad-, protección del contenido mediante el establecimiento de niveles de acceso, facilidades de interrogación asistida, operación multiuso, almacenamiento de las estrategias de búsqueda, posibilidad de formatear las salidas impresas, recuperación automática del sistema, posibilidad de desarrollar aplicaciones cuantificables adaptadas a las necesidades de información específica, etc.
Análisis comparativo entre los SGBD y los SGD.
Las características comparadas de ambos sistemas, según Faure, son las siguientes:
Los SGD son programas concebidos para almacenar y recuperar información de tipo textual, mientras que los SGBD se orientan al procesamiento convencional -aplicaciones en las que hay que acceder simultáneamente a grupos predefinidos de datos.
Los SGD almacenan documentos cuyo contenido está estructurado en varias zonas, mientras que un SGBD almacena entidades que poseen varias características, cada una de las cuales contiene una cierta información.
Un SGD es capaz de manejar cómodamente informaciones textuales, mientras que un SGBD está pensado para el tratamiento de valores numéricos o identificadores alfabéticos. Los SGD son capaces de manejar informaciones textuales de gran longitud.
Los SDG son capaces de recuperar con rapidez todos los registros que satisfacen las condiciones de búsqueda definidas, mientras que un SGBD sólo responde con rapidez cuando un solo objeto responde a la pregunta planteada.
La estructuración en campos susceptibles de ser interrogados en los SGD, permite que las preguntas puedan ser combinaciones booleanas de cualquiera de los criterios de acceso. Por el contrario, la interrogación de un SGBD implica el conocimiento de todos los tipos posibles de informaciones obtenibles a partir de preguntas cuya estructura ha sido ya predefinida.
Los SGBD disponen sus datos de forma que las repeticiones queden reducidas al mínimo, lo que no ocurre con los SGD. Sin embargo, esta búsqueda de la optimización hace a los SGBD muy costosos.
Muchos SGD pueden administrar y utilizar un tesauro, mientras que los SGBD sólo pueden manejar diccionarios.
Los sistemas de gestión documental y la automatización de servicios de documentación.
A la hora de automatizar un servicio de documentación se plantean cuatro alternativas:
Utilizar un paquete de software de gestión documental completándolo, si es necesario, con software adicional.
Utilizar un sistema de gestión de bases de datos estándar.
Desarrollar un software específico utilizando un sistema de gestión de ficheros.
Desarrollar una aplicación específica a partir de un SGBD.
Todas las posibles alternativas han sido llevadas a la práctica en mayor o menor grado, ya que no existe un sistema ideal que permita asegurar la automatización en todas las funciones precisas para el almacenamiento y la recuperación de la información en todos los servicios. Sin embargo, la alternativa más adecuada y la más utilizada actualmente es, sin duda, la primera. La rapidez en la implantación, la flexibilidad, interactividad, potencia de interrogación, rapidez de búsqueda y carácter textual de la información, hacen aconsejable recurrir a este tipo de software.
Evolución y tipología de los sistemas de gestión documental.
Los primeros paquetes de software de gestión documental comenzaron a ser comercializados a principios de los años sesenta para proporcionar a muchos usuarios de grandes sistemas y miniordenadores las mismas capacidades y potencia que hasta ese momento sólo podían encontrarse en los programas de recuperación de información de los grandes distribuidores de bases de datos comerciales. Hasta 1975 tan sólo era posible encontrar sistemas de gestión documental desarrollados por los grandes fabricantes de hardware (IBM, BULL, UNIVAC, etc.), única y exclusivamente para sus grandes ordenadores. A partir de esa fecha, algunos fabricantes de software comienzan a diseñar y comercializar SGD más flexibles, interactivos y transportables -con posibilidad de funcionar en diferentes máquinas. La extensión y diversificación de la demanda ha contribuido, durante estos últimos diez años, a que los fabricantes desarrollen sistemas de gestión documental para satisfacer necesidades de almacenamiento y de recuperación muy variadas y a diversificar la oferta de sus productos hasta hacer ya necesario el establecimiento de una tipología, aunque sea sumaria.
El objeto de un SGD es seleccionar un conjunto de documentos cuyo contenido satisfaga una serie de condiciones establecidas en una ecuación de búsqueda, que puede formularse de dos modos básicos:
a) búsqueda por palabras-clave relacionadas por los operadores booleanos Y, O, NO;
b) interrogación en lenguaje natural utilizado sin ninguna restricción aunque, en la práctica, los sistemas existentes utilizan lenguaje natural restringido, es decir, sólo autorizan el empleo de ciertos términos, de formas gramaticales específicas y de construcciones de frases concretas
Para representar el contenido de los documentos suelen utilizarse dos técnicas:
Palabras-clave o descriptores, ocasionalmente completados por una ponderación (palabras-clave principales o secundarias), por indicador de función o de relaciones. Estas palabras-clave pueden ser seleccionadas manualmente a partir de una lista normalizada, o a partir de los términos significativos que contiene el texto; y automáticamente mediante un proceso de indización automática de complejidad variable que genera una zona de palabras-clave en el documento antes de que éste sea introducido en la base de datos.
Descripción en lenguaje natural: texto del documento, resumen documental o, en ciertos casos, tan sólo el título del documento. En todo caso, este lenguaje natural será tratado por el ordenador con la técnica de las palabras-clave.
Combinando las diferentes posibilidades de formulación de una pregunta y de representación del contenido de los documentos, es posible obtener los tipos de SGD fundamentales:
Interrogación por palabras-clave/documentos descritos por palabras-clave o descriptores. Es el más utilizado (MISTRAL, ORBIT, ESA-QUEST, CAIRS, STATUS, etc.)
Interrogación en lenguaje natural/documentos descritos mediante palabras-clave.
Interrogación en lenguaje natural/documentos descritos por palabras-clave. Los únicos desarrollados corresponden a sistemas experimentales que intentan verificar algoritmos de comprensión del lenguaje natural. El propósito de estos sistemas es facilitar al máximo la interrogación de las bases de datos.
Interrogación por palabras-clave/documentos en lenguaje natural. Este tipo de software se encuentra actualmente en una etapa experimental, debido a los serios problemas lingüísticos encontrados y a las dificultades que plantea un tratamiento informático verdaderamente completo del lenguaje natural.
Los SGD por palabras-clave y los SDG en lenguaje natural.
De acuerdo con las modalidades de recuperación de información es posible establecer dos grandes categorías de SGD: los que efectúan búsquedas en lenguaje natural (free-text) y los que efectúan búsquedas en lenguaje controlado.
Los SGD del primer tipo extraen todas las palabras significativas de los registros introducidos en la base de datos (eliminan las palabras vacías comparándolas con una lista preestablecida de stop-words), para construir ficheros inversos sobre los que se establecerá la búsqueda. Este tipo de SGD no obliga al usuario a la tarea de describir los documentos mediante un conjunto predefinido de palabras-clave, pero disminuye la precisión de las búsquedas: términos de interrogación ausentes en algunos registros, empleo de sinónimos que no son recordados en el momento de la búsqueda, etc. Algunos de estos inconvenientes son paliados mediante el truncado de los términos de búsqueda cuando se interroga la base de datos, o consultando en línea los índices inversos en el momento de proceder a la indización de los documentos. Esta modalidad de recuperación es propia sobre todo de los SGD fulltext, que almacenan el texto íntegro de los documentos.
Los SGD que utilizan lenguaje controlado o tesauro hacen posible una mayor precisión en las búsquedas, estableciendo los términos que deben utilizarse para describir los documentos e interrogar la base de datos, y facilitando información sobre las relaciones semánticas entre términos genéricos, específicos y relacionados. Obligan, sin embargo, a un análisis detenido de los documentos cuya referencia se va a introducir en la base de datos y a un trabajo regular de mantenimiento y depuración del vocabulario.
Comparando los dos tipos de SGD se puede establecer que:
Un sistema de palabras-clave organiza las distintas relaciones entre los términos contenidos en el diccionario de la base de datos mediante el empleo de un lenguaje controlado de tipo tesauro; un sistema de lenguaje natural no dispone de tesauro, ya que las relaciones son establecidas manualmente, y la mayor parte de las veces son inutizables dada la dificultad de formalizar estas relaciones en el vocabulario propio del lenguaje natural.
Ambos tipos de software emplean ficheros inversos; en el caso de los paquetes de lenguaje natural, las palabras-clave son todos los términos contenidos en los documentos y no definidos como stopwords. La estructura de los ficheros inversos también es diferente: aunque en los dos casos incluyen las palabras-clave con la referencias de los documentos que las contienen, en un sistema de lenguaje natural registran además el número de orden del párrafo, de la frase y del lugar que ocupa la palabra-clave en la frase cada vez que aparece en el texto de un documento.
Los dos tipos de software ofrecen posibilidades de interrogación diferentes, aunque en los dos casos sean planteadas mediante palabras-clave relacionadas por operadores booleanos.
Si se establece una distinción entre las preguntas de acceso directo (primarias), que hacen referencia a las informaciones contenidas en el diccionario de la base de datos y las que sirven para seleccionar secuencialmente un subconjunto de documentos entre los que se han obtenido a partir de una pregunta primaria, los dos tipos de sistema permiten:
Plantear una pregunta primaria combinando criterios de búsqueda, cada uno de ellos compuesto del nombre de la zona donde se deba recuperar la información y de un término de búsqueda, que puede ir seguido de un signo de truncado a la derecha.
Plantear una pregunta secundaria con una combinación de varios criterios, en la que cada uno de éstos puede ser análogo a un criterio primario, o haciendo intervenir relaciones jerárquicas o recurriendo al truncado a la izquierda.
Las diferencias entre ambos estriban en las posibilidades de selección de documentos a partir de los términos de un texto: en el caso de los sistemas en lenguaje natural es posible plantear una pregunta primaria para buscar términos en zonas del texto teniendo en cuenta su disposición y localización; en los sistemas de palabras-clave, cuando existen estas posibilidades sólo pueden utilizarse para plantear preguntas de tipo secundario.
Análisis de algunos paquetes de software de gestión documental.
Cuando se trata de elegir un paquete de software de gestión documental es preciso tener en cuenta su configuración y prestaciones al lado de otras características importantes. Los criterios a tener en cuenta son:
1) Disponibilidad en el mercado español.
2) Transportabilidad.
3) Métodos de actualización en batch, en línea y dinámica (en tiempo real).
4) Métodos de indización.
5) Elaboración de informes en batch e interactivos.
6) Búsqueda mediante lógica booleana.
7) Modificaciones globales o parciales.
8) Longitud máxima de los registros.
9) Número máximo de campos por registro.
10) Capacidades aritméticas.
11) Seguridad para impedir el acceso no autorizado.
12) Difusión selectiva de la información.
13) Documentación adjunta.
14) Formación que se facilita al usuario.
15) Mantenimiento y actualizaciones.
16) Asesoría.
17) Número de instalaciones.
Paquetes de software para grandes sistemas y miniordenadores.
BASIS. Permite definir una base de datos como un conjunto de campos, cada uno de los cuales puede contener texto libre, valores numéricos o cadenas de caracteres. Es posible realizar búsquedas sobre los campos de tipo numérico, así como operaciones aritméticas. En los campos de texto libre ofrece todas las funciones clásicas de los sistemas de control documental: control de vocabulario, truncados, proximidad, etc. y la estructura de los datos puede modificarse. Tiene forma modular, con un núcleo denominado CENTRAL SYSTEM que asegura la gestión de la base de datos y la interacción con los usuarios, y nueve módulos que ejecutan funciones diferentes y específicas: FORMS, para la entrada de datos en diferido, REPORT, para la creación y gestión de procedimientos de edición, MONITOR, para confeccionar estadísticas, OLIVE para la entrada de datos en línea, SORT, para clasificación, THESAURUS, para el control de vocabulario, PROFILE para la creación y gestión de ecuaciones de búsqueda, COMPUTACION para efectuar cálculos estadísticos.
CAIRS (Computer Assisted Information Retrieval System). Es un paquete de software específicamente concebido para la gestión, el almacenamiento y la recuperación de información textual. Utiliza un método multinivel para la estructuración de la información: nivel de sistema, de la base de datos, de fichero, de registro, de campo y de subcampo. Dispone de una gran variedad de técnicas de indización, que pueden utilizarse de forma combinada o simultánea, control del vocabulario, entrada de datos en batch o en línea, búsquedas secuenciales, mediante ficheros inversos o combinando ambos métodos, y recuperación por pantalla o impresora.
MINISIS. Desarrollado por la IDRC (International Development Reseach Centre) de Canadá, realiza, sobre miniordenadores, las mismas funciones que el paquete ISIS (Integrated Set of Information System), desarrollado por la OIT. Originariamente diseñado para el entorno bibliotecario, su flexibilidad lo hace adaptable a muchos tipos de aplicaciones, y puede utilizarse en más de un idioma simultáneamente en el mismo ordenador. Incluye varias bases de datos formadas por registros estructurados en campos y subcampos y los procesadores que operan sobre los datos. MINISIS está diseñado sobre el concepto de bases de datos integrada, con la información almacenada de forma consistente y compartida por varios usuarios. Permite el acceso a la información contenida en la base de datos, su verificación, edición y administración y control de los ficheros.
MISTRAL. Sistema de gestión documental desarrollado por la empresa francesa Groupe Bull, capaz de almacenar y gestionar documentos de texto completo o información estructurada de tipo referencial que permite localizar los documentos primarios originales. Genera y mantiene ficheros bibliográficos, tesaurus, inverso, de parámetros y de perfiles. La entrada de datos se realiza en batch y el usuario puede recurrir a la indización manual o automática.
STATUS. Sistema de recuperación de información en texto libre que permite la creación, modificación y búsqueda de una base de datos. La base de datos creada por este sistema está formada por un fichero de texto -contiene los textos introducidos por el usuario- y un fichero de concordancia -con punteros de todas las frecuencias de los términos dentro del fichero de texto. Permite definir formatos muy estructurados que satisfagan las normas internacionales.
TEXTO. Ofrece las funciones estándar de los sistemas de gestión documental que hacen posibles la creación, gestión e interrogación de ficheros documentales en forma conversacional. Permite la creación de ficheros, adición y corrección de documentos, recuperación de la información por clave o por pregunta y edición, y los índices se crean de forma interactiva.
Paquetes de software para microordenadores.
AQUILA. Permite la creación de bases de datos y su interrogación. Específicamente concebido para microordenadores. está dirigido por menús que hacen posible la creación de ficheros, la entrada y corrección de datos, la creación de ficheros inversos y la interrogación de la base de datos.
DOCUTEX. Primer programa de recuperación de información para microordenadores concebido y desarrollado en nuestro país. Lanzado al mercado en 1984, ha sido actualizado en múltiples ocasiones y aunque no satisface todas las especificaciones propias de un programa de gestión documental, puede ser incluido en esa categoría. Almacena la información en forma de fichas de 512 caracteres de longitud en formato libre, almacena y numera automáticamente las fichas a medida que las va creando, y permite asignar a cada ficha referencias que servirán para su recuperación mediante operadores lógicos booleanos. Las referencias pasan a formar parte de un diccionario que se mantiene ordenado alfabéticamente y que puede consultarse en línea. Permite imprimir las fichas recuperadas.
KNOSYS (Micronet). Realizado íntegramente en España, compagina una gran cantidad de funciones de alto nivel con flexibilidad y facilidad de uso. Puede decirse que es una combinación de tratamiento de textos y base de datos textual, ya que integra un potente editor, registros y campos de longitud variable y funciones de recuperación muy potentes. Se encuentra para IBM PC y compatibles.
MICRO-CAIRS, STATUS-M y TEXTO.- La introducción de microordenadores en el mercado a partir de 1983 decidió a los más importantes fabricantes de software de recuperación de la información y gestión documental a desarrollar versiones de sus programas para MS-DOS (el sistema operativo de IBM PC). Las versiones de estos programas son funcionalmente idénticas a las utilizadas en los grandes sistemas y sólo se hallan limitadas por las capacidades de almacenamiento y velocidad de proceso del microordenador utilizado.
Software de gestión documental para bibliotecas.
Los sistemas de software de gestión documental utilizados en las bibliotecas se ocupan exclusivamente de bases de datos bibliográficos y prestan, además, otros servicios más amplios. Entre los más importantes están SABINI, PALS/IME (Unisys), DOBIS/LIBIS (IBM), DATATREK, BRS, TINLIB (IME-DOC-6), BASIS-CATDOC (Centrisa) para grandes ordenadores y miniordenadores; BIBLIO 3000 (3000 Informática), INMAGIC (Inmagic-Doc-6), LIBER-MARC (Cospa), TEXTO-NABIL (Chemdata).
Volver a:
Libros, bibliotecas, bibliotecarios
Rosario López de Prado
Museo Arqueológico Nacional (BIBLIOTECA)
Última revisión: 6 de mayo de 2000