Introducción
Hoy en dia la tecnologia permite que las personas se comuniquen eficientemente
aun cuando estas se encuentren a miles de kilómetros de distancia.
Omnisoft, tomando en cuenta la necesidad de comunicación que existe en el mundo,
ha desarrollado un sistema de video conferencia por internet.
Dada la sofisticación del sistema de la visión humana, la predilección del ser
humano por las imágenes es sorprendente, no sólo una gran parte del cerebro esta
dedicada a la visión y al análisis visual sino que también la capacidad de
transporte de información de nuestro sistema visual es mucho mayor que el de
cualquier otro de nuestros sentidos.
De todas las imágenes y pinturas conocidas, el rostro humano es la más
importante como fuente de información. Cuando hablamos cara a cara con otra
persona, obtenemos mayor información de las expresiones faciales, más que de sus
palabras o calidad de voz combinadas.
De hecho, los psicólogos han determinado que cuando hablamos cara a cara, sólo
el siete por ciento de lo que es comunicado es transferido por el significado de
las palabras. Otro treinta y ocho por ciento proviene de cómo las palabras son
dichas. Eso deja al cincuenta y cinco por ciento restantes de la comunicación,
tomar la forma de señales visuales.
El problema es que en el ambiente global de los negocios de ahora las
comunicaciones cara a cara han llegado a ser una práctica costosa, con un alto
consumo de tiempo por lo que es, frecuentemente omitida. Se hace uso entonces de
medios como el teléfono, el fax o el módem para satisfacer las necesidades de
comunicación corporativas. "La videoconferencia ofrece hoy en día una solución
accesible a esta necesidad de comunicación, con sistemas que permiten el
transmitir y recibir información visual y sonora entre puntos o zonas diferentes
evitando así los gastos y pérdida de tiempo que implican el traslado físico de
la persona, todo esto a costos cada vez más bajos y con señales de mejor
calidad". Estas ventajas hacen a la videoconferencia el segmento de mayor
crecimiento en el área de las telecomunicaciones.
Sistemas de videoconferencia
Definición.
Al sistema que nos permite llevar a cabo el encuentro de varias personas
ubicadas en sitios distantes, y establecer una conversación como lo harían si
todas se encontraran reunidas en una sala de juntas se le llama sistema de
"videoconferencia".
Como sucede con todas las tecnologías nuevas, los términos que se emplean no se
encuentran perfectamente definidos. La palabra "Teleconferencia" esta formada
por el prefijo "tele" que significa distancia, y la palabra "conferencia" que se
refiere a encuentro, de tal manera que combinadas establecen un encuentro a
distancia.
Según Roblyer, Edwards y Havriluk (1997) señalaron que la Teleconferencia
conocida también como video Teleconferencia utiliza un sistema de video de una
sola vía y sus participantes interactúan a través del teléfono.
Videoconferencia es un sistema de comunicación cerrada punto a punto. Cualquiera
que posea los medios necesarios (antena satelital) puede ver la señal y ver la
teleconferencia, pero nadie, excepto los participantes, puede ver las
transmisiones de videoconferencia.
La videoconferencia puede ser dividida en dos áreas:
Videoconferencia Grupal o Videoconferencia sala a sala con comunicación de video
comprimido a velocidades desde 64 Kbps (E0, un canal de voz) hasta 2.048 mbps
(E1, 30 canales de voz).
Videotelefonía, la cual está asociada con la Red Digital de Servicios Integrados
mejor conocida por las siglas "ISDN" operando a velocidades de 64 y 128 Kbps.
Esta forma de videoconferencia esta asociada a la comunicación personal o
videoconferencia escritorio a escritorio.
Historia de la Videoconferencia
El interés en la comunicación
utilizando video ha crecido con la disponibilidad de la televisión comercial
iniciada en 1.940. Los adultos de hoy han crecido utilizando al televisor como
un medio de información y de entretenimiento, se han acostumbrado a tener un
acceso visual a los eventos mundiales más relevantes en el momento en que estos
ocurren. Nos hemos convertido rápidamente en comunicadores visuales. Es así, que
desde la invención del teléfono, los usuarios han tenido la idea de que el video
podría eventualmente ser incorporado a éste.
AT&T presentó en 1.964 en la feria del comercio mundial de Nueva York un
prototipo de videoteléfono el cual requería de líneas de comunicación bastante
costosas para transmitir video en movimiento, con costos de cerca de mil dólares
por minuto. El dilema fue la cantidad y tipo de información requerida para
desplegar las imágenes de video.
Las señales de video incluyen frecuencias mucho más altas que las que la red
telefónica podía soportar (particularmente las de los años 60's). El único
método posible para transmitir la señal de video a través de largas distancias
fue a través de satélite. La industria del satélite estaba en su infancia
entonces, y el costo del equipo terrestre combinado con la renta de tiempo de
satélite excedía con mucho los beneficios que podrían obtenerse al tener
pequeños grupos de personas comunicados utilizando este medio.
A través de los años 70's se realizaron progresos substanciales en muchas áreas
claves, los diferentes proveedores de redes telefónicas empezaron una transición
hacia métodos de transmisión digitales. La industria de las computadoras también
avanzó enormemente en el poder y velocidad de procesamiento de datos y se
descubrieron y mejoraron significativamente los métodos de muestreo y conversión
de señales analógicas (como las de audio y video) en bits digitales.
El procesamiento de señales digitales también ofreció ciertas ventajas,
primeramente en las áreas de calidad y análisis de la señal; el almacenamiento y
transmisión todavía presenta obstáculos significativos. En efecto, una
representación digital de una señal analógica requiere de mayor capacidad de
almacenamiento y transmisión que la original. Por ejemplo, los métodos de video
digital comunes de fines de los años 70 y principios de los 80 requirieron de
relaciones de transferencia de 90 megabits por segundo. La señal estándar de
video era digitalizada empleando el método común PCM (Modulación por
codificación de pulsos) de 8 bits, con 780 pixeles por línea, 480 líneas activas
por cuadro de las 525 para NTSC (Netware Transmisión System Codification) y con
30 cuadros por segundo.
La necesidad de una compresión confiable de datos
digitales fue crítica. Los datos de video digital son un candidato natural para
comprimir, debido a que existen muchas redundancias inherentes en la señal
analógica original; redundancias que resultan de las especificaciones originales
para la transmisión de video y las cuales fueron requeridas para que los
primeros televisores pudieran recibir y desplegar apropiadamente la imagen.
Una buena porción de la señal de video analógica esta dedicada a la
sincronización y temporización del monitor de televisión. Ciertos métodos de
compresión de datos fueron descubiertos, los cuales eliminaron enteramente esta
porción redundante de información en la señal, con lo cual se obtuvo una
reducción de la cantidad de datos utilizados de un 50% aproximadamente, es
decir, 45 mbps, una razón de compresión de 2:1. Las redes telefónicas en su
transición a digitales, han utilizado diferentes relaciones de transferencia, la
primera fue 56 Kbps necesaria para una llamada telefónica (utilizando métodos de
muestreo actuales), enseguida grupos de canales de 56 Kbps fueron reunidos para
formar un canal de información más grande el cual corría a 1.5 mbps (comúnmente
llamado canal T1). Varios grupos de canales T1 fueron reunidos para conformar un
canal que corría a 45 mbps (ó un "T3"). Así usando video comprimido a 45 mbps
fue finalmente posible, pero todavía extremadamente caro, transmitir video en
movimiento a través de la red telefónica pública. Estaba claro que era necesario
el comprimir aún más el video digital para llegar a hacer uso de un canal T1
(con una razón de compresión de 60:1), el cual se requería para poder iniciar el
mercado. Entonces a principios de los 80's algunos métodos de compresión
hicieron su debut, estos métodos fueron más allá de la eliminación de la
temporización y sincronización de la señal, realizando un análisis del contenido
de la imagen para eliminar redundancias. Esta nueva generación de video codecs (COdificador/DECodificador
), no sólo tomó ventajas de la redundancias, si no también del sistema de la
visión humana. La razón de imágenes presentadas en el video en Norte América es
de 30 cuadros por segundo, sin embargo, esto excede los requerimientos del
sistema visual humano para percibir movimiento. La mayoría de las películas
cinematográficas muestran una secuencia de 24 cuadros por segundo. La percepción
del movimiento continuo puede ser obtenida entre 15 y 20 cuadros por segundo,
por tanto una reducción de 30 cuadros a 15 cuadros por segundo por sí misma
logra un porcentaje de compresión del 50 %. Una relación de 4:1 se logra obtener
de esta manera, pero todavía no se alcanza el objetivo de lograr una razón de
compresión de 60:1.
Los codecs de principios de los 80's utilizaron una tecnología conocida como
codificación de la Transformada Discreta del Coseno (abreviado DCT por su nombre
en inglés). Usando esta tecnología DCT las imágenes de video pueden ser
analizadas para encontrar redundancia espacial y temporal. La redundancia
espacial es aquella que puede ser encontrada dentro de un cuadro sencillo de
video, "áreas de la imagen que se parecen bastante que pueden ser representadas
con una misma secuencia". La redundancia temporal es aquella que puede ser
encontrada de un cuadro de la imagen a otro " áreas de la imagen que no cambian
en cuadros sucesivos". Combinando todos los métodos mencionados anteriormente,
se logró obtener una razón de compresión de 60:1.
El primer codec fue introducido al mercado por la compañía Compression Labs Inc.
(CLI) y fue conocido como el VTS 1.5, el VTS significaba Video Teleconference
System, y el 1.5 hacia referencia a 1.5 mbps ó T-1. En menos de un año CLI
mejoró el VTS 1.5 para obtener una razón de compresión de 117:1 (768 Kbps), y
renombró el producto a VTS 1.5E. La corporación británica GEC y la corporación
japonesa NEC entraron al mercado lanzando codecs que operaban con un T-1 (y
debajo de un T-1 si la imagen no tenia mucho movimiento). Ninguno de estos
codecs fueron baratos, el VTS 1.5E era vendido en un promedio de $180.000
dólares, sin incluir el equipo de video y audio necesarios para completar el
sistema de conferencia, el cual era adquirido por un costo aproximado de $70.000
dólares, tampoco incluía costos de acceso a redes de transmisión, el costo de
utilización de un T-1 era de aproximadamente $1.000 dólares la hora.
A mediados de los 80's se observó un mejoramiento dramático en la tecnología
empleada en los codecs de manera similar, se observó una baja substancial en los
costos de las medios de transmisión. CLI (Compression Labs Inc) introdujo el
sistema de video denominado Rembrandt los cuales utilizaron ya una razón de
compresión de 235:1 (384 Kbps). Entonces una nueva compañía, Picture Tel
(originalmente PicTel Communications), introdujo un nuevo codec que utilizaba
una relación de compresión de 1600:1 (56 Kbps). PictureTel fue el pionero en la
utilización de un nuevo método de codificación denominado Cuantificación
jerárquica de vectores (abreviado HVQ por su nombre en inglés). CLI lanzó poco
después el codec denominado Rembrandt 56 el cual también operó a 56 Kbps
utilizando una nueva técnica denominada compensación del movimiento. Al mismo
tiempo los proveedores de redes de comunicaciones empleaban nuevas tecnologías
que abarataban el costo del acceso a las redes de comunicaciones. El precio de
los codecs cayó casi tan rápido como aumentaron los porcentajes de compresión.
Codificación de audio y video
La Unión
Internacional de Telecomunicaciones (ITU) forma parte de la Organización de
Naciones Unidas, y se encarga de desarrollar "Recomendaciones" formales para
asegurar que las comunicaciones a nivel mundial se cumplan de manera efectiva y
eficiente. En 1984 se establecieron las primeras recomendaciones
1. Codificación de audio.
En primer lugar describiremos la digitalización del audio, que en principio es
analógico. Para esto se muestrea (se toman muestras de la señal) y después se
codifica (se asigna un valor binario a esa muestra). Se empezó con tomar la voz
como el ancho de banda de un Canal Vocal Telefónico, de 300 a 3100 Hz, aunque
hay bandas de separación, de manera que se ocupa de 0 a 4 Khz. Para recuperar la
información con la calidad original, hay un teorema que dice que hay que tomar
muestras de la señal al menos al doble de la frecuencia máxima, es decir, si la
frecuencia máxima es 4 Khz., debemos tomar el valor de la señal a 8 KHz, es
decir, 8000 veces por segundo.
Una vez obtenida la muestra de la señal, a ese valor de la muestra se le asigna
un código, es decir, se codifica. En este caso el código es de 8 bits, por lo
que existen 256 posibles valores de la muestra. También implica que 8000
muestras/segundo x 8 bits/muestra son 64 Kbps. Por tanto, la voz analógica, de 0
a 4 Khz., la hemos pasado a un conjunto de bits digital, de velocidad 64 Kbps.
Esto se conoce como modulación por impulsos codificados, MIC en español (Pulse
Code Manipulation o PCM en ingles). Está establecido en la norma G.711 de ITU.
Existe otra posibilidad que en lugar de codificar el valor de la muestra,
codifica la diferencia con el valor anterior de la muestra. Como la voz es una
señal analógica continua, entre un valor y el siguiente habrá muy poca
diferencia y podrá ser codificada con menos bits, consiguiendo una mejora. Si en
vez de muestrear a 8 KHz (en realidad 7.1 KHz, que es audio de alta calidad) se
muestrea a 16 KHz, y se codifica con 4 bits, se obtienen 16 niveles de
cuantificación (valores posibles de la muestra), manteniendo 64 Kbps, en este
caso con mayor calidad. Esto se llama codificación adaptativa, y es la norma ITU
G.722.
El último método de codificación se basa en el espectro de la voz, que es la
forma que tiene la señal entre esos límites de 0 a 4KHz. Ese espectro puede ser
modelado, aproximado, o reproducido, mediante fórmulas matemáticas conocidas,
sólo cambiando unos parámetros. Codificar estos parámetros es más sencillo que
en casos anteriores, por lo que hacen falta menos bits que antes. La frecuencia
de muestreo sigue siendo de 8 KHz, como en G.711, pero ahora los bits por
muestra son 2 (4 de niveles de cuantificación). Esto da un régimen binario de 16
Kbps, que ya es mejora sobre los anteriores. Esto es ITU G.728.
2. Codificación de vídeo.
El video también es una señal analógica que habrá que muestrear y codificar,
para pasarla a bits.
Existen básicamente dos formatos de video, PAL y NTSC. Fundamentalmente las
diferencias son que PAL son 25 cuadros (tramas o fotogramas) por segundo (fps) y
625 líneas, en NTSC son 30 fps y 525 líneas.
Para poder introducir las señales de video en un sistema de videoconferencia, se
normalizaron dos formatos intermedios: CIF y QCIF (Common Intermediate Format y
Quarter CIF). CIF posee una resolución de 352x288 y QCIF 176x144.
Pero la transmisión de imágenes planteaba el siguiente problema: si se pretende
realizar una videoconferencia a 15 fps, y codificación RGB, con 8 bits por color
utilizando el formato CIF, serán necesarios algo mas que 36 Mbps (352 x 288 x 15
x (8+8+8)= 36.495.360 bps.). Por lo que se debe reducir la cantidad de
información a transmitir, mediante compresiones y codificaciones
Se emplean técnicas de codificación estadística (de longitud variable) las
cuales ejemplificaremos de la siguiente manera: si tomamos un texto cualquiera
(por ejemplo este trabajo), encontraremos en él, letras (símbolos), de las
cuales algunas se repiten más que otras; seguramente las vocales, la 's', la
'n', el ' ', la 'c' etc., y otras que aparecen mucho menos, como la 'x', la 'ñ',
la 'w', etc. Si para transmitir este texto se asigna a cada letra la misma
codificación, se pierde eficiencia (así es como es el ASCII, 8 bits por
letra/símbolo). Sin embargo, si se codifican las letras más frecuentes con el
menor número de bits posibles, por ejemplo al ' ' se le asigna el código binario
'1', a la 'a' el código binario '011', a la 'e' el binario '010', a la 'r' el
'00010', y a la 'w' el '0000000111101', se ahorra espacio al transmitir.
Si de un fotograma estático, por ejemplo un paisaje de montaña, tomamos al azar
un punto del cielo, este será azul. Casi seguro al 100% que los puntos de
alrededor también son azules, lo que implica que si se transmite la información
del punto central, se puede ahorrar la de los puntos de alrededor. Esto es
redundancia espacial, y se hace tomando el fotograma, dividiéndolo en bloques de
8x8 puntos, hallando su transformada discreta del coseno (DCT en ingles) para
pasarlo a frecuencias, aprovechando que el ojo humano es más sensible a las
frecuencias bajas, estas se codifican con mayor precisión frente a las altas, y
después se codifican utilizando un código de longitud variable.
Si tomamos dos fotogramas seguidos de ese paisaje, seguramente los cambios entre
ellos sean mínimos, cuando no sean la misma imagen. Con lo cual, transmitiendo
la primera imagen y sólo las diferencias de la segunda con la primera,
nuevamente se reduce la cantidad de información a transmitir. Esto es
redundancia temporal y opera dividiendo la imagen en bloques de 8x8, generando "macrobloques"
de 4x4 bloques. En la imagen siguiente, se busca a dónde está situado el
macrobloque, en un área de 16 puntos alrededor de la situación original. Esa
diferencia se llama vector de movimiento y se vuelve a codificar en un código de
longitud variable.
Todas estas técnicas conforman la recomendación H.261, que es codificación de
video para velocidades entre 40 Kbps y 2 Mbps. Un equipo que cumpla H.261 ha de
soportar QCIF de forma obligada, CIF de forma opcional y la estimación de
movimiento también opcionalmente.