Bases y bancos de datos.
El mercado de los servicios documentales informatizados.
Índice
Distribuidores de bases de datos
Redes de transporte y de telecomunicaciones
Referencias bibliográficas y formatos
Creación y organización de las bases de datos
Se puede asegurar que hoy día, la información científica publicada de forma convencional e impresa es prácticamente accesible on line en los países tecnológicamente avanzados. Hasta tal punto es cierto, que el progreso del conocimiento parece depender cada día más de la industria de los sistemas documentales automatizados.
Las bases y bancos de datos son el resultado de la aplicación de las nuevas tecnologías de la microelectrónica, la informática y la telecomunicación al campo de la información y nacieron como respuesta a las crecientes demandas informativas de una sociedad cada vez más compleja, enfrentada a una producción documental cada vez más amplia.
No existe uniformidad a la hora de definir y tipificar las diferentes bases y bancos de datos. En la Guía de bases de datos de EUSIDIC se distingue entre ficheros bibliográfico y bancos de datos, asignando este último nombre a los factuales y denominando a todos bases de datos. Para el Comité de Terminología de la FID, base de datos es un conjunto de datos homogéneos, ordenados de una forma determinada, que se presenta de forma legible por ordenador y se refieren a una organización, materia o problema determinado. Y banco de datos es un sistema de información automatizada que consta de una o más bases de datos, un sistema de gestión de las mismas, programas de aplicación adecuados y el soporte físico del sistema. Siguiendo este esquema podemos dividir las bases de datos de la siguiente forma, atendiendo a su contenido:
Bases de datos bibliográficos: proporcionan referencias bibliográficas de los documentos y a veces también la localización y acceso al documento primario. Las bases de datos bibliográficos venden su información por cintas magnéticas -a los distribuidores-, en versión impresa, por vía telemática -on line- y en soportes ópticos -disco óptico y CD-ROM.
Bases de datos referenciales: proporcionan listas de centros o fuentes que poseen una información -catálogos colectivos, directorios, etc.
Bases de datos no bibliográficas: son un caso particular de las bases de datos de referencias documentales en las cuales los documentos están constituidos por imágenes, mapas, gráficos, etc.
Bases de datos textuales o de texto completo: contienen textos completos de los documentos o de partes de los documentos -sentencias de tribunales, noticias de prensa, etc. También pueden acompañar a las bases de datos de referencias bibliográficas de tipo convencional. Los soportes de estas bases de datos suelen ser los discos ópticos que permiten el almacenamiento de gran cantidad de datos en un volumen pequeño de memoria periférica.
Bases de datos factuales: contienen series cronológicas, entradas de directorios, información estadística, propiedades físicas o cualquier otro tipo de información numérica o alfanumérica. Facilitan el dato concreto haciendo referencia a la fuente documental de donde se recopiló.
Según su soporte las bases de datos obedecen a otra tipología, ya que, dada la evolución de las nuevas tecnologías, ha ido variando ligeramente la antigua definición de bases de datos. Actualmente se puede decir que base de datos es un conjunto de textos, cifras, imágenes o combinación de ellos, registrados de tal forma que sea legible por una máquina, un ordenador, un lector de videodisco o CD-ROM y organizados en una estructura lógica que permita su búsqueda automática. De forma generalizada pueden dividirse en cuatro grupos:
bases de datos on line o de recuperación en línea;
bases de datos privadas y/o ubicadas en un ordenador;
bases de datos en videotext
bases de datos en videodisco y CD-ROM.
En las bases de datos on line, más especializadas y dirigidas a expertos, la información es científica, estadística, económica, multidisciplinaria, legislativa, técnica etc. Las bases de datos de videotext están dirigidas al gran público y se dedican a cuestiones relacionadas con la vida cotidiana -juegos, restaurantes, cotizaciones en bolsa, educación, correo electrónico, etc. En los vídeodiscos y CD-ROM se han ido almacenando y programando enciclopedias, diccionarios, catálogos colectivos, documentos de texto íntegro, etc.
Productores de bases de datos.
Los productores de bases de datos se ocupan de recoger, tratar y organizar la información. Pertenezcan al sector público o privado, los productores realizan una importante inversión inicial de almacenamiento, análisis de documentos primarios, construcción de lenguajes de indización (thesaurus), procesamiento informativo de datos y a veces reproducción microfilmada de los documentos, operaciones que requieren personal cualificado e instrumentos tecnológicos. Ello tiene como consecuencia que pocas bases de datos sean rentables, excepto las tecnológicas y económicas.
En un principio, las bases de datos bibliográficos se dedicaron principalmente a materias científicas y tecnológicas, puesto que sus mismos productores fueron los primeros en utilizar el ordenador para llevar a cabo la publicación impresa de sus productos. En la actualidad, el contenido de las bases de datos on line cubren la gama de todo el saber y el conocimiento: filosofía, psicología, música, lingüística, agricultura, medicina., etc. Existe una intensa actividad en la producción de las bases de datos de diferentes áreas temáticas y constantemente aparecen y desaparecen bases de datos en el mercado. Con todo, el máximo esfuerzo se realiza en la confección de bases de datos comerciales, económicas y de negocios; por el contrario, existen relativamente pocas bases de datos en humanidades, educación, artes, sociología, etc. Algunas bases de datos son multidisciplinares y cubren conjuntamente diversas especialidades -PASCAL y CDSH del CNRS en Francia, Scisearch en ciencia y tecnología y Social Scisearch en Ciencias sociales del ISI, en USA, etc.
También hay bases de datos especializadas en un tipo de documento: Comprehensive Dissertation Index (tesis), World Patent Index (patentes), Marc (libros), Avline (materiales audiovisuales), Noriane (normas), Conference Paper Index (conferencias), SIGLE (literatura gris), etc.
Es de destacar el aumento del número de bases de datos que no ofrecen versión impresa de sus ficheros, sólo accesibles on line. La mayoría de las bases de datos accesibles comercialmente están en lengua inglesa, aunque incluyan documentos escritos en otros idiomas. Otra particularidad a añadir es el periodo de tiempo cubierto por estas bases de datos: la mayoría de ellas cubren los últimos años, y la mitad, apenas la década 1970-80. Sólo algunas cubren más de quince años de literatura científica. la base de datos más retrospectiva es Comprehensive Dissertation Abstracts, que incluye referencias de tesis doctorales norteamericanas desde 1861. NASA es accesible desde 1964, Medline y Eric desde 1966.
A finales de 1981, podía accederse on line en sistemas comerciales a un total de 70 millones de referencias y se estima un volumen de crecimiento de aproximadamente 10 millones de referencias por año.
Distribuidores de bases de datos.
Un host o centro distribuidor de bases de datos es un sistema de tratamiento y de difusión, contrariamente al productor, cuyo objetivo es la creación de información. Proporciona al público en general el acceso a un variado número de bases de datos a través de las redes de transmisión de datos y gracias a la utilización de un programa de interrogación o búsqueda documental.
Disponen de un centro de cálculo -ordenador muy potente- conectado con las redes de transmisión de datos tipo EURONET, TRANSPAC, TYMNET, etc. Uno de los objetivos de estos distribuidores es la investigación y mejora de programas de interrogación, con el fin de facilitar al usuario el acceso a sus fondos.
Sin embargo, el objetivo final de estos centros distribuidores es la comercialización y venta de la información producida. Por regla general, compran la información -referencias bibliográficas o no- a los centros productores de bases de datos que se la venden en cintas magnéticas. Información científica que los hosts procesan con sus propios programas de interrogación. Los hosts tienen tendencia a especializarse por sectores de actividad. Los de información científica y técnica tienden al enciclopedismo o pluralismo, como DIALOG y QUESTEL. Los distribuidores más utilizados son DIALOG (USA), ESA-IRIS (Italia), BLAISE (U.K.) y SDC.
Para utilizar un host es necesaria la aplicación de un programa o lenguaje de interrogación que permita al usuario el diálogo interactivo con la base de datos. Estos programas de interrogación consisten en una serie de instrucciones que permiten la entrada de la información bibliográfica y no bibliográfica, su procesamiento y recuperación. El usuario, al firmar un contrato con el host recibe un manual impreso con la explicación de cómo aplicar las instrucciones. Desgraciadamente, cada host dispone de un único programa exclusivo, lo cual obliga al usuario a conocer la utilización de diversos lenguajes en el caso de querer hacer consultas en distintos hosts. En ciertos casos, un mismo programa puede aplicarse a distintos hosts, por ejemplo, SDC y BLAISE, que tienen el lenguaje común ORBIT. La tendencia de los hosts es perfeccionar cada vez más sus programas con vistas a facilitar al usuario su consulta, aproximando al máximo el diálogo hombre-máquina al lenguaje natural. Pese a que los distribuidores son organismos independientes, públicos o privados, la Comisión de las Comunidades Europeas favorece la armonización de proyectos para la ayuda al usuario en la búsqueda on line. En el marco EURONET/DIANE de la C.E.E. se ha realizado el proyecto de un lenguaje común de recuperación (Common Command Language) a través del cual el usuario puede realizar su búsqueda en diferentes hosts utilizando las mismas instrucciones (ESA-IRS, DIMDI, GID, INKA, ECHO, lo tienen integrado). Con todo, ese lenguaje común no ha tenido el éxito esperado.
Mayor interés ha tenido el ofrecido por los sistemas gateway (puerta de acceso) construidos con la misma finalidad.
Los sistemas on line o de recuperación en línea son o han estado dirigidos esencialmente a usuarios expertos en teledocumentación, es decir, a usuarios que previamente conocían el sistema de estrategia on line. Ello significa que sólo un tanto por ciento muy reducido de individuos puede acceder a las bases de datos científicas, hecho que no ocurre con el videotext -información de menor calidad científica-, destinado a un público más amplio.
Vista esta discriminación de información científica se han creado servicios destinados a popularizar el uso de la teledocumentación entre el público en general, eliminando al intermediario humano e intentando que la calidad de la búsqueda sea aceptable.
Un sistema gateway dirige al usuario a uno o más distribuidores on line y a una o más bases de datos del sistema. Además de facilitar la comunicación con el host -una simple tarjeta de crédito es suficiente para entrar en comunicación-, el lenguaje de recuperación de un gateway es de los denominados user friendly, a modo de menús con diferentes opciones, de acuerdo con la temática de la búsqueda.
Uno de los sistemas gateway más conocidos es el Easy-net. Easy-net es un servicio norteamericano de acceso a bases de datos que permite a usuarios inexpertos consultar diferentes hosts sin firmar ningún contrato ni tener un password (número de identificación del terminal). El usuario con terminal marca un número telefónico y después de ser saludado por Easy-net debe introducir su número de tarjeta de crédito; el sistema verifica la tarjeta y si ésta es válida le permite continuar, presentando al usuario un menú de opciones sobre la temática de la búsqueda. Una vez concretado el tema, Easy-net realiza automáticamente una conexión al host y a la base de datos más adecuada. Una vez finalizada la búsqueda se comunica al usuario cuántos artículos se han encontrado y se pregunta si los quiere ver on line. Se ofrece también la posibilidad de pedir fotocopia de los originales. Los sistemas gateway contienen un programa de aplicación que permite dirigir automáticamente una pregunta al sistema apropiado sin que el usuario necesite más conocimientos sobre el mismo: los procedimientos son parecidos a las búsquedas asistidas por ordenador (CAI).
Redes de transporte y de telecomunicaciones.
Las redes de transporte y telecomunicaciones son los soportes que permiten el funcionamiento de los sistemas de recuperación en línea y su comunicación con el público. Se ocupan de transportar la información a un coste compatible con el mercado. Su existencia es determinante para la relación entre el productor de bases de datos y el usuario.
Todos los países industrializados han constituido redes adaptadas a sus necesidades: DATAPAC (Canadá), TYMNET y TELENET (USA), DDX (Japón), EURONET (Europa), IBERPAC (España). El origen de estas redes se remonta a principios de los años sesenta, cuando los norteamericanos desarrollaron técnicas para que los ordenadores pudieran hablar entre sí sin límites de distancia entre ellos. La red de transporte o de transmisión de datos es un conjunto de medios dedicados al establecimiento y mantenimiento de la comunicación entre ordenadores. Se trata de empresas públicas (caso frecuente en Europa) o privadas (caso de USA), que ofrecen a los usuarios las posibilidades de acceso a los productores y distribuidores de bases de datos mediante el soporte de una red de telecomunicaciones y un número de puntos de entrada a la red.
Las compañías telefónicas han instalado estas redes de telecomunicaciones internacionales que permiten conectar con los hosts desde terminales de teleproceso situados en cualquier lugar donde exista corriente eléctrica y línea telefónica. Es, por tanto, el teléfono el instrumento técnico que permite llegar a una red de transporte.
Las compañías telefónicas tienen un papel fundamental en la transmisión de datos; normalmente se lleva a cabo por la red, pero también por satélite o fibras ópticas. En un futuro cercano, estas redes de transmisión digital permitirán integrar voz, texto y reproducción facsímil de forma total o generalizada.
Los usuarios conforman el cuarto grupo de los protagonistas del ciclo informativo. Entre ellos podemos distinguir a los usuarios finales y los intermediarios, aunque la tendencia que se observa es que los usuarios finales accedan cada vez más de forma directa a las bases de datos. Para facilitar esta tarea, los programas de interrogación integran, o intentan integrar las técnicas de búsqueda que normalmente desarrollan los documentalistas.
Referencias bibliográficas y formatos.
La documentación científica se ocupa principalmente de la selección, tratamiento y recuperación de documentos primarios. Las bases de datos bibliográficos se ocupan de estas tareas, ofreciendo como resultado o producto la referencia bibliográfica. La referencia bibliográfica es un conjunto de informaciones referidas a un solo documento, almacenado de forma legible por máquina y considerado como una entidad lógica, única, completa e independiente. Contiene una descripción bibliográfica del documento que permite identificarlo y localizarlo de forma precisa y no ambigua, así como otra información que constituye la parte temática o analítica del documento (resumen, descriptores, clasificación, etc.). La descripción bibliográfica puede variar ligeramente según el tipo de documento, pero no el análisis.
En Teledocumentación es posible acceder a todos los elementos significativos de las referencias; es decir, a todo el texto excepto a las palabras vacías o stop words (conjunciones, artículos, preposiciones, etc.). Con el fin de poder realizar este acceso, las referencias bibliográficas se dividen en zonas o campos. Para distinguir unas zonas de otras, cada host utiliza unos códigos específicos, casi normalizados. Estos códigos constituirán los prefijos y sufijos necesarios para ayudar a la búsqueda por zonas determinadas de la referencia.
El formato se refiere a las distintas maneras, con mayor o menor número de zonas, en que se puede visualizar por pantallas de terminal o imprimir a través de la impresora las referencias bibliográficas. Cada host tiene su formato diferente.
Creación y organización de las bases de datos.
Las bases de datos tienen organizada la información en ficheros. Existen dos clases de ficheros: lineal e inverso.
El fichero lineal o directo es la disposición secuencial de los registros o referencias de una base de datos. Es la forma en que el productor de la base de datos entrega la cinta magnética al host y consta de todas las referencias completas con sus campos o zonas debidamente señaladas una a continuación de otra. En el host, este mismo fichero se carga en discos magnéticos, que permiten un acceso mucho más rápido a cada referencia. Además se realizan dos operaciones muy importantes:
Asignación de un número de acceso correlativo a cada referencia, independiente del que puedan llevar previamente asignado por el productor de la base de datos. Es el número de identificación de la referencia en el ordenador y se puede utilizar para llamar y visualizar una referencia conocida de antemano.
La inversión del fichero, de tal manera que las referencias puedan recuperarse por determinadas palabras o códigos de las mismas, creando así el fichero inverso, es la segunda operación que se realiza.
El fichero inverso se forma a partir de las zonas o campos que el host decide hacer recuperables. El fichero inverso está compuesto, pues, por todas las posibles entradas por las que se pueden recuperar las diferentes referencias de las bases de datos, ordenadas alfabéticamente -índices KWIC y KWOC-. Cada término del fichero inverso va seguido de los números de código de las referencias que contienen dicho término, en orden decreciente. Así, cuando se pregunta por un término que figura en el fichero inverso, el ordenador selecciona todos los números de acceso que figuran a continuación de dicho término. Dado que en este fichero inverso la información se busca directamente, debe grabarse en disco magnético y no en cinta, como puede ser el caso del fichero lineal. De esta forma se llega a la información deseada sin realizar una lectura completa del fichero.
El fichero índice presenta las diferentes referencias organizadas o agrupadas de la forma que el host crea conveniente. Hay diferentes tipos de índices (básicos y adicionales), tantos como zonas o campos son recuperables. Cada base de datos, dentro de su correspondiente host, especifica en su hoja de características o blue sheets los índices de que consta, o lo que es lo mismo, que zonas son recuperables.
El índice básico es el más importante y está compuesto por las palabras del título, descriptores, identificadores y, si se encuentran repetidos, resúmenes. Es, pues, el índice temático, y a veces incorpora el nombre de la institución productora del documento.
El código de sufijos es la lista formada por los sufijos que indican los diferentes campos que integran el índice básico.
Los índices adicionales y códigos de prefijos constan de códigos que no forman parte del índice básico, y por tanto no son directamente recuperables. Los índices adicionales difieren según la base de datos y normalmente requieren el uso de prefijos para ser operativos.
Las hojas de características o blue sheets son los manuales de utilización del sistema que cada host distribuye para la utilización de sus bases de datos. Se encuentran referencias tomadas como ejemplos, las distintas opciones de búsqueda, es decir, la forma de acceso al índice básico y a los índices adicionales. Añaden también los distintos formatos de visualización de referencias y otras características típicas. Estas hojas van encabezadas por el nombre de la base de datos y un número que corresponde a la distinción de cada una dentro del host respectivo. Les sigue una descripción del contenido de la base de datos, su temática, las fuentes documentales, su periodicidad y la dirección postal.
Volver a:
Libros, bibliotecas, bibliotecarios
Rosario López de Prado
Museo Arqueológico Nacional (BIBLIOTECA)
Última revisión: 6 de mayo de 2000