El vídeo digital aplicado a la enseñanza

Antoni Bibiloni

Depart. Matemàtiques i Informàtica

Universitat de les Illes Balears

Ctra. de Valldemossa Km 7,5

E-07071 Palma (Baleares)

Tel: 971 173204

Fax: 971 173003

e-mail: dmiabc0@ps.uib.es

Resumen

El media vídeo ha ido incrementando su importancia dentro de los sistemas de información multimedia y concretamente dentro de los entornos de la educación; posiblemente, gracias al formato digital, el cual ofrece nuevas posibilidades de búsqueda, navegación y visualización.

Este artículo, describe los requerimientos y la implementación de un sistema de vídeo digital dedicado al entorno educativo, enfocado principalmente a ofrecer métodos de navegación y recuperación de las secuencias vídeo según el contenido de ellas. El prototipo de la base de datos audio-visual (Vídeo Educativo On Line), está siendo desarrollado sobre sobre un entorno distribuido y multiplataforma, enfocado en la utilización de las autopistas de la información.

Introducción

Podemos definir el vídeo digital como un conjunto de imágenes y sonidos organizados a lo largo de un tiempo concreto, donde la coordenada tiempo es la base de su representación en momentos discretos. Ésta definición conlleva una serie de características propias, diferenciándolo radicalmente de la información estática ( texto, gráficos e imágenes). La correlación con el audio, su necesidad de sincronización, ser un media dependiente del tiempo, su componente espacial aplicable a nivel contenido de la imagen y su compleja semántica, son factores clave para determinar su estructura interna, su organización dentro de las bases de datos y su gestión específica de manejo dentro de los sistemas multimedia interactivos. Este nuevo formato ofrece la posibilidad de ordenar, indexar y etiquetar las secuencias vídeo por sus características y contenido de sus imágenes, generando una base de datos audio-visual indexada [Desai95] .

A pesar de los grandes avances en tecnología digital, el uso del vídeo digital todavía está seriamente limitado por dos razones principales: 1) el gran tamaño de información digital que supone el almacenamiento de imagen en movimiento de alta calidad ( aunque recientemente esta limitación disminuye gracias a la aparición de nuevas técnicas y estándards de compresión/decompresión, como MPEG-1,MPEG-2, proximamente MPEG-4 y H.261) y 2) la falta de sistemas viables para gestionar dicha información, ofreciendo una organización efectiva y una recuperación selectiva de la información. A partir de los años 90, se han empezado a desarrollar tecnologías y sistemas muy innovadores, con grandes perspectivas de éxito y aceptación, que plantean de un modo realista la utilización del vídeo digital. Como prototipos en funcionamiento el SGI/Time-Warner experiment en Orlando, que en 1995 ya proporcionaba en 4.000 hogares acceso a más de 250 películas digitales, bajo la técnologia de Video On Demand.

Este artículo expone la estructura y creación de librerias de vídeo digital ofreciendo acceso y recuperación por contenido. Su posible extensión en entornos educativos a nivel tecnológico, pero quedando fuera de ámbito el estudio pedagógico de dicha propuesta.

Descripción del Sistema

Ofrecer recuperación por contenido del media vídeo significa realizar búsquedas de campos específicos dentro un conjunto de datos, inicialmente no estructurados, donde, primeramente necesitamos modelar su contenido. Este proceso de modelación requiere "codificar", "identificar", "representar" y "clasificar" la información original. En nuestro caso concreto, la información original son la filmación de las clases en cintas de vídeo VHS, Hi-8, etc, en formato analógico.

La arquitectura propuesta está basada en la suposición de que la información ha de ser gestionada dentro de una base de datos. El SGBD, motor gestor del sistema, es el encargado de manejar las direcciones físicas de la información audio-vídeo digital, los atributos asignados a cada secuencia, las relaciones generadas entre las distintas secuencias y el acceso por parte de las interficies de usuario (fig 1). Estas entidades de información, "objetos vídeo" [Little93], [Little94] , [Rowe92] junto con las anotaciones asociadas a cada secuencia o subsecuencia generan un grafo de relaciones ( estructura de árbol jerárquico) encargado de la representación del conotenido (fig 2).

Figura 1. Arquitectura del sistema

Fig 2. Estructura del contenido

Representación del contenido

Posiblemente, cientos de horas de vídeo analógico sean menos útiles que una hora, debido al acceso secuencial del medio; pero al ser digitalizado ofrece la posibilidad del acceso directo a tantas horas de vídeo como seamos capaces de almacenar, además de la posibilidad de definir enlaces a otros tipos de información multimedia ( bibliografia, ejercicios propuestos, etc). Para conseguir acceso directo por contenido será necesario encontrar la forma de representar su contenido en formato digital, de tal forma que dicha representación sea inteligible tanto por el sistema informático como por el usuario final. Como resultado de la representación se generará una estructura de datos rica en información ( inherente del vídeo) e indexada (pendiente del vídeo convencional).

Actualmente no existen máquinas que sean capaces de mirar y entender por nosotros, por ello, el único método de representación del contenido es el procedimiento manual o asistido por ordenador. Nuestra propuesta es representar el contenido de las imágenes, o mejor dicho, secuencias de imágenes, mediante "palabras clave". El método implementado es una interficie de usuario que nos permite de una forma simultanea visualizar las imágenes en una ventana y en otra realizar las anotaciones oportunas del contenido. Este proceso genera un fichero "metadata" [Davenport 91], con la siguiente información: fotograma inicio, fotograma final, lista de palabras clave.

Una vez ya se han generado todos los "metadata" correspondientes a cada vídeo introducido dentro del sistema informático, el SGBD es el encargado de indexar dicha información, con el objetivo de ofrecer al usuario un entorno globlal. Indexar los metadatas implica la generación de una red semántica a gran escala, impracticable sin ayuda de un sistema gestor de base de datos. La figura 3 muestra un pequeño ejemplo de red semántica.

Fig 3. Indexación del contenido - Red semántica

Interfaces de usuario

Una vez que tenemos la información almacenada e indexada, de la forma más convenientemente posible, queda pendiente desarrollar las técnicas de recuperación y las herramientas de visualización con el objetivo de ofrecer al usuario una interface fácil, amigable y con un amplio abanico de posibilidades. La interface debería de ofrecer: ejecutar uno o más vídeos seleccionados, incluir operadores relacionales (ex. seleccionar clips utilizando composición de condiciones), aplicar jerarquías temáticas ( restringuir la búsqueda de tópicos a sub-tópicos), y realizar búsquedas por palabras clave (selección de vídeos utilizando palabras simples o compuestas).

Nuestra propuesta es la implementación de una interficie de usuario donde el usuario puede generar sus propias consultas, pero siempre utilizando el conjunto de "palabras clave" ya introducidas dentro del sistema. Esta restricción tiene el objetivo de no permitir al usuario realizar consultas de respuesta vacía. Otra extensión es ofrecer al usuario navegar por el contenido del SGBD, ofreciéndole una visión intuitiva de como la información está organizada y como puede acceder a ella de la forma más conveniente según sus necesidades.

Aplicación: Vídeo Educativo on Line

El ámbito de este proyecto es la creación de una base de datos audio-visual, donde sus registros, nombrados "objetos vídeo", son indexados y organizados según su contenido, concretamente, la naturaleza de la información son: conferencias, seminarios y clases de enseñanza universitaria. El objetivo es el diseño e implementación de un sistema de educación a distancia sobre entornos distribuidos, siguiendo las directrices de la arquitectura presentada en la segunda sección del artículo

El SGBD, está siendo implementado sobre la base de datos relacional ORACLE, sobre la cual almacenamos y gestionamos los índices y el metadata relacionado con la información vídeo digitalizada, siendo la plataforma del servidor un Alpha DEC AXP 10620. Los índices contienen los atributos asignados a cada secuencia, además de apuntadores a la localización de los datos vídeo y audio comprimidos, actualmente en formato QuickTime de Apple Macintosh, debido a que la interface de usuario esta implementada sobre plataforma Macintosh, implementada en C++ y librerias de "Oracle for Macintosh", estando la implementación en un entorno distribuido y multiplataforma.

La implementación contiene aproximadamente una hora de vídeo digitalizado, segmentado en 30 clips. Actualmente el sistema sólo soporta consultas por palabras clave, ofrecidas por los índices de la base de datos, (figura 11), y la representación del contenido sigue un procedimiento asistido por ordenador, (figura 9), habiendo generado una interface "gestor-profesor" para la introducción de las anotaciones, también desarrollada sobre plataforma Macintosh. Luego el entorno de trabajo, tanto para el "usuario-gestor-profesor" como para el "usuario-cliente-alumno" es transparente al sistema de gestión de la base de datos. La captura, digitalización y almacenamiento de las clases ha seguido un proceso totalmente manual y externo a los dos entornos mencionados anteriormente, donde en un futuro también sería necesario definir su automatización.

La base de datos vídeo, presenta el problema del volumen de la información, una hora de vídeo, calidad VHS, comprimida consume 1 Gigabyte de almacenamiento. Luego, un archivo de clases y material relacionado puede requerir grandes capacidades de almacenamiento. Tomando como ejemplo, durante un curso de licenciatura, para almacenar cuatro asignaturas podríamos predecir:

3 horas/semana * 30 semanas/curso = 90 horas curso/asig -> 90 Gbytes

90 Gbytes* 4 asignaturas = 360 Gbytes

La librería requerirá terabytes de almacenamiento, las soluciones hardware a estas necesidades de almacenamiento son los Optical jukebox o los Tape jukebox., capaces de almacenar hasta 10 TB, pero en contra tienen un seek time muy elevado, entre 30sg y 1,5 minutos. En la actualidad estamos utilizando el HD del servidor, dejando pendiente la utilización de los soportes mencionados anteriormente, pero indistintamente del periférico utilizado o utilizados, nosotros hemos adoptado la solución de transmitir el fichero vídeo al cliente y la aplicación de interface usuario-alumno ejecutará la visualización del fichero cuando sea completamente transmitido al cliente, ofreciendo mayores posibilidades de interactividad y sin preocuparse, en principio, de la velocidad de transmisión.

El prototipo de la aplicación está desglosado en dos fases de implementación:.

•1 entorno-gestor-profesor, donde a partir del vídeo digitalizado y almacenado podrá modelarlo generando un material audio-visual estructurado e interactivo, pudiendo definir:

• segmentos, secuencias y shots

• enlaces entre distintas secuencias

• enlaces a otros documentos MM

• comentarios añadidos

• conjunto de palabras clave (figura 9)

• conjunto de atributos semánticos (figura 10)

Este nuevo material editado por el profesor es almacenado dentro de la BD audio-visual generando una reestructuración automática de los índices internos y del metadata asociado.

Figura 9. Palabras clave asociadas

Figura 10. Atributos de la secuencia

•2 entorno-usuario-alumno ofrece al usuario las siguientes posibilidades:

• Búsquedas por contenido, unitarias o múltiples (Figura 11)

• Navegación por contenido, (con cambios de nivel o constrastar distintas versiones)

• Búsqueda de conferencias o congresos relacionados con el tema

• Bibliografía utilizada por el profesor

• Puntos calientes dentro de las secuencias vídeo, a nivel objeto. Pendiente de implementación.

• Visualización de ejercicios propuestos

Figura 11. Vídeo-query

A partir de la interface de selección, el usuario va creando de forma amigable la consulta a realizar sobre la base de datos. Debido a que las palabras clave a utilizar vienen ofrecidas por la base de datos, es imposible crear consultas a la base de datos de respuesta vacía, gracias a que los valores disponibles para cada atributo están en función de los valores asignados a los atributos anteriores durante el proceso de actualización de la base de datos. Esta filosofía orienta al usuario a conocer que información existe dentro de la base de datos en el momento de acceder a ella. Cada vez que el usuario selecciona un atributo de la ventana "Video-query", aparece un menú pop-up con todas las palabras clave disponibles.

• Índices

El contenido de la información está organizado en una estructura jerárquica de clases y sub-clases. La clase central de la base de datos es la clase CARRERA, teniendo una entrada para cada documento. A partir de esta clase se generan otros tipos de índices con la finalidad de aumentar las facilidades de las consultas, en la tabla 2 podemos observar los índices generales de la base de datos. En este contexto aparece el concepto de registro semántico asignado a cada clip almacenado en el servidor, por ejemplo, la clase TEMA. Por registro semántico entendemos el conjunto de atributos comunes asignados, encargados de definir el contenido de la secuencia, las relaciones existentes, clases o sub-clases y enlaces a otros objetos de información.

CARRERA
Codigo	N	4
Nombre	C	20
Descripción	C	Memo

PROFESOR
Codigo_Prof	N	4
Nombre	C	40
......

ASIGNATURA
Codigo_A	N	4
Codigo_C	N	4
Nombre	C	20
Curso	C	5
......

CLASE
Codigo_CL	N	4
Codigo_A	N	4
Codigo_Prof	N	4
Apunt_Vídeo	C	30
Fecha_grab	D	8
......

TEMA
Codigo_T	N	4
Codigo_CL	N	4
Inicio	SMPTE	11
Fin	SMPTE	11
Descripción	C	20
Dependencia	N	4
......

Tabla 2. Índices de la base de datos

Si un tema no depende de ninguno, el atributo dependencia estará vacío. Estos índices generan una estructura jerárquica del contenido. Como ejemplo, veamos la tabla 3

CODIGO	DESCRIPCION	DEPENDENCIA
0001	Tema 1	----
0002	Subtema 1.1	0001
0003	Subtema 1.2	0001
0004	Subtema 1.1.1	0002
0005	Subtema 1.1.2	0002
0006	Tema 2	----
0007	Tema 3	----
0008	Subtema 3.1	0007
0009	Subtema 3.2	0007

Tabla 3. Estructura jerárquica del contenido

Conclusiones y trabajo futuro

Como observaciones puntuales adquiridas durante el proceso de implementación del prototipo, nos gustaría mencionar:

Es conveniente aproximar el problema de integración del media vídeo dentro entornos Hypermedia desde el punto de vista de definir una estructura de datos que sea adecuada para el media, y a la vez compatible con otros tipos de datos de estructuras muy distintas. El vídeo es una fuente de datos secuencialmente organizada en el tiempo, pero no organizada bajo ninguna información clave, común a todos los elementos, luego aparece la necesidad de encontrar atributos comunes a todos los elementos.

El proceso de segmentación es muy importante debido a que nos ofrece una primera aproximación de su contenido, proporcionando la estructura visual del vídeo. También es evidente la necesidad de ayuda adicional al proceso de detección, donde la aproximación por modelos de conocimiento parece la mejor forma de acotar el problema.

La utilización de base de datos relaciones para el almacenamiento y gestión de los índices vídeo es correcto, sin ser necesario definir nuevos entornos para el SGBD. El ejemplo de implementación sobre ORACLE, ofrece todas las operaciones del diseño funcional, donde también es posible definir campos tipo movie dentro la estructura de sus tablas. Otros factores importantes son la auto-gestión de la localización de los ficheros vídeo, su entorno multiusuario y distribuido.

Como líneas de trabajo futuras, nos gustaría anotar que el audio es una laguna practicamente no estudiada por nadie. Nuestra opinión, conjuntamente con otros investigadores es que podría ser de gran ayuda dentro los procesos de detección y recuperación del contenido. Es evidente que el audio proporciona una fuente muy rica de información y que puede ayudar a comprender la fuente vídeo.

Como amplicaciones futuras a la implementación expuesta, proponemos: a) aumentar los formatos de los ficheros vídeo con el proposito de soportar un amplio rango de configuraciones hardware (cliente), b) ampliar los sistemas de almacenamiento dentro el contexto de entorno distribuido, c) mejorar los procesos de recuperación y d) desarrollar una interface en entorno WWW.

Bibliografía

[Davenport91] G.Davenport, T.G.Aguierre.Smith, and N.Pincever, "Cinematic primitives for Multimedia", IEEE Computer Graphics & Applications, July 1991, pp 67-74.

[Desai95] A. Desai Narasimhalu, National University of Singapore, "Special section on content-based retrieval", Multimedia Systems, 1995.

[Little93] T.D. Little, et.al., "A Digital On-Demand Video Service Supporting Content-Based Queries", Proc. ACM Multimedia 93, Anaheim, CA Aug 1993, pp 427-436.

[Little94] T.D. Little,Dinesh Venkatesh." Prospects for Interactive Video-on-Demand" IEEE Multimedia.Fall 1994, pp 14-24.

[Rowe92] L.A. Rowe and B.C.Smith, "A Continuous Media Player", Proc. 3rd Int'l Workshop on Network and Operating System Support for Digital Audio and Video", San Diego, CA, Nov 1992.