Introducción
Hoy en dia la tecnologia permite que las personas se comuniquen eficientemente aun cuando estas se encuentren a miles de kilómetros de distancia.
Omnisoft, tomando en cuenta la necesidad de comunicación que existe en el mundo, ha desarrollado un sistema de video conferencia por internet.

Dada la sofisticación del sistema de la visión humana, la predilección del ser humano por las imágenes es sorprendente, no sólo una gran parte del cerebro esta dedicada a la visión y al análisis visual sino que también la capacidad de transporte de información de nuestro sistema visual es mucho mayor que el de cualquier otro de nuestros sentidos.
De todas las imágenes y pinturas conocidas, el rostro humano es la más importante como fuente de información. Cuando hablamos cara a cara con otra persona, obtenemos mayor información de las expresiones faciales, más que de sus palabras o calidad de voz combinadas.
De hecho, los psicólogos han determinado que cuando hablamos cara a cara, sólo el siete por ciento de lo que es comunicado es transferido por el significado de las palabras. Otro treinta y ocho por ciento proviene de cómo las palabras son dichas. Eso deja al cincuenta y cinco por ciento restantes de la comunicación, tomar la forma de señales visuales.
El problema es que en el ambiente global de los negocios de ahora las comunicaciones cara a cara han llegado a ser una práctica costosa, con un alto consumo de tiempo por lo que es, frecuentemente omitida. Se hace uso entonces de medios como el teléfono, el fax o el módem para satisfacer las necesidades de comunicación corporativas. "La videoconferencia ofrece hoy en día una solución accesible a esta necesidad de comunicación, con sistemas que permiten el transmitir y recibir información visual y sonora entre puntos o zonas diferentes evitando así los gastos y pérdida de tiempo que implican el traslado físico de la persona, todo esto a costos cada vez más bajos y con señales de mejor calidad". Estas ventajas hacen a la videoconferencia el segmento de mayor crecimiento en el área de las telecomunicaciones.

Sistemas de videoconferencia
Definición.
Al sistema que nos permite llevar a cabo el encuentro de varias personas ubicadas en sitios distantes, y establecer una conversación como lo harían si todas se encontraran reunidas en una sala de juntas se le llama sistema de "videoconferencia".
Como sucede con todas las tecnologías nuevas, los términos que se emplean no se encuentran perfectamente definidos. La palabra "Teleconferencia" esta formada por el prefijo "tele" que significa distancia, y la palabra "conferencia" que se refiere a encuentro, de tal manera que combinadas establecen un encuentro a distancia.
Según Roblyer, Edwards y Havriluk (1997) señalaron que la Teleconferencia conocida también como video Teleconferencia utiliza un sistema de video de una sola vía y sus participantes interactúan a través del teléfono.
Videoconferencia es un sistema de comunicación cerrada punto a punto. Cualquiera que posea los medios necesarios (antena satelital) puede ver la señal y ver la teleconferencia, pero nadie, excepto los participantes, puede ver las transmisiones de videoconferencia.
La videoconferencia puede ser dividida en dos áreas:
Videoconferencia Grupal o Videoconferencia sala a sala con comunicación de video comprimido a velocidades desde 64 Kbps (E0, un canal de voz) hasta 2.048 mbps (E1, 30 canales de voz).
Videotelefonía, la cual está asociada con la Red Digital de Servicios Integrados mejor conocida por las siglas "ISDN" operando a velocidades de 64 y 128 Kbps. Esta forma de videoconferencia esta asociada a la comunicación personal o videoconferencia escritorio a escritorio.
 

Historia de la Videoconferencia
El interés en la comunicación utilizando video ha crecido con la disponibilidad de la televisión comercial iniciada en 1.940. Los adultos de hoy han crecido utilizando al televisor como un medio de información y de entretenimiento, se han acostumbrado a tener un acceso visual a los eventos mundiales más relevantes en el momento en que estos ocurren. Nos hemos convertido rápidamente en comunicadores visuales. Es así, que desde la invención del teléfono, los usuarios han tenido la idea de que el video podría eventualmente ser incorporado a éste.
AT&T presentó en 1.964 en la feria del comercio mundial de Nueva York un prototipo de videoteléfono el cual requería de líneas de comunicación bastante costosas para transmitir video en movimiento, con costos de cerca de mil dólares por minuto. El dilema fue la cantidad y tipo de información requerida para desplegar las imágenes de video.
Las señales de video incluyen frecuencias mucho más altas que las que la red telefónica podía soportar (particularmente las de los años 60's). El único método posible para transmitir la señal de video a través de largas distancias fue a través de satélite. La industria del satélite estaba en su infancia entonces, y el costo del equipo terrestre combinado con la renta de tiempo de satélite excedía con mucho los beneficios que podrían obtenerse al tener pequeños grupos de personas comunicados utilizando este medio.
A través de los años 70's se realizaron progresos substanciales en muchas áreas claves, los diferentes proveedores de redes telefónicas empezaron una transición hacia métodos de transmisión digitales. La industria de las computadoras también avanzó enormemente en el poder y velocidad de procesamiento de datos y se descubrieron y mejoraron significativamente los métodos de muestreo y conversión de señales analógicas (como las de audio y video) en bits digitales.
El procesamiento de señales digitales también ofreció ciertas ventajas, primeramente en las áreas de calidad y análisis de la señal; el almacenamiento y transmisión todavía presenta obstáculos significativos. En efecto, una representación digital de una señal analógica requiere de mayor capacidad de almacenamiento y transmisión que la original. Por ejemplo, los métodos de video digital comunes de fines de los años 70 y principios de los 80 requirieron de relaciones de transferencia de 90 megabits por segundo. La señal estándar de video era digitalizada empleando el método común PCM (Modulación por codificación de pulsos) de 8 bits, con 780 pixeles por línea, 480 líneas activas por cuadro de las 525 para NTSC (Netware Transmisión System Codification) y con 30 cuadros por segundo.
 La necesidad de una compresión confiable de datos digitales fue crítica. Los datos de video digital son un candidato natural para comprimir, debido a que existen muchas redundancias inherentes en la señal analógica original; redundancias que resultan de las especificaciones originales para la transmisión de video y las cuales fueron requeridas para que los primeros televisores pudieran recibir y desplegar apropiadamente la imagen.
Una buena porción de la señal de video analógica esta dedicada a la sincronización y temporización del monitor de televisión. Ciertos métodos de compresión de datos fueron descubiertos, los cuales eliminaron enteramente esta porción redundante de información en la señal, con lo cual se obtuvo una reducción de la cantidad de datos utilizados de un 50% aproximadamente, es decir, 45 mbps, una razón de compresión de 2:1. Las redes telefónicas en su transición a digitales, han utilizado diferentes relaciones de transferencia, la primera fue 56 Kbps necesaria para una llamada telefónica (utilizando métodos de muestreo actuales), enseguida grupos de canales de 56 Kbps fueron reunidos para formar un canal de información más grande el cual corría a 1.5 mbps (comúnmente llamado canal T1). Varios grupos de canales T1 fueron reunidos para conformar un canal que corría a 45 mbps (ó un "T3"). Así usando video comprimido a 45 mbps fue finalmente posible, pero todavía extremadamente caro, transmitir video en movimiento a través de la red telefónica pública. Estaba claro que era necesario el comprimir aún más el video digital para llegar a hacer uso de un canal T1 (con una razón de compresión de 60:1), el cual se requería para poder iniciar el mercado. Entonces a principios de los 80's algunos métodos de compresión hicieron su debut, estos métodos fueron más allá de la eliminación de la temporización y sincronización de la señal, realizando un análisis del contenido de la imagen para eliminar redundancias. Esta nueva generación de video codecs (COdificador/DECodificador ), no sólo tomó ventajas de la redundancias, si no también del sistema de la visión humana. La razón de imágenes presentadas en el video en Norte América es de 30 cuadros por segundo, sin embargo, esto excede los requerimientos del sistema visual humano para percibir movimiento. La mayoría de las películas cinematográficas muestran una secuencia de 24 cuadros por segundo. La percepción del movimiento continuo puede ser obtenida entre 15 y 20 cuadros por segundo, por tanto una reducción de 30 cuadros a 15 cuadros por segundo por sí misma logra un porcentaje de compresión del 50 %. Una relación de 4:1 se logra obtener de esta manera, pero todavía no se alcanza el objetivo de lograr una razón de compresión de 60:1.
Los codecs de principios de los 80's utilizaron una tecnología conocida como codificación de la Transformada Discreta del Coseno (abreviado DCT por su nombre en inglés). Usando esta tecnología DCT las imágenes de video pueden ser analizadas para encontrar redundancia espacial y temporal. La redundancia espacial es aquella que puede ser encontrada dentro de un cuadro sencillo de video, "áreas de la imagen que se parecen bastante que pueden ser representadas con una misma secuencia". La redundancia temporal es aquella que puede ser encontrada de un cuadro de la imagen a otro " áreas de la imagen que no cambian en cuadros sucesivos". Combinando todos los métodos mencionados anteriormente, se logró obtener una razón de compresión de 60:1.
El primer codec fue introducido al mercado por la compañía Compression Labs Inc. (CLI) y fue conocido como el VTS 1.5, el VTS significaba Video Teleconference System, y el 1.5 hacia referencia a 1.5 mbps ó T-1. En menos de un año CLI mejoró el VTS 1.5 para obtener una razón de compresión de 117:1 (768 Kbps), y renombró el producto a VTS 1.5E. La corporación británica GEC y la corporación japonesa NEC entraron al mercado lanzando codecs que operaban con un T-1 (y debajo de un T-1 si la imagen no tenia mucho movimiento). Ninguno de estos codecs fueron baratos, el VTS 1.5E era vendido en un promedio de $180.000 dólares, sin incluir el equipo de video y audio necesarios para completar el sistema de conferencia, el cual era adquirido por un costo aproximado de $70.000 dólares, tampoco incluía costos de acceso a redes de transmisión, el costo de utilización de un T-1 era de aproximadamente $1.000 dólares la hora.
A mediados de los 80's se observó un mejoramiento dramático en la tecnología empleada en los codecs de manera similar, se observó una baja substancial en los costos de las medios de transmisión. CLI (Compression Labs Inc) introdujo el sistema de video denominado Rembrandt los cuales utilizaron ya una razón de compresión de 235:1 (384 Kbps). Entonces una nueva compañía, Picture Tel (originalmente PicTel Communications), introdujo un nuevo codec que utilizaba una relación de compresión de 1600:1 (56 Kbps). PictureTel fue el pionero en la utilización de un nuevo método de codificación denominado Cuantificación jerárquica de vectores (abreviado HVQ por su nombre en inglés). CLI lanzó poco después el codec denominado Rembrandt 56 el cual también operó a 56 Kbps utilizando una nueva técnica denominada compensación del movimiento. Al mismo tiempo los proveedores de redes de comunicaciones empleaban nuevas tecnologías que abarataban el costo del acceso a las redes de comunicaciones. El precio de los codecs cayó casi tan rápido como aumentaron los porcentajes de compresión.

Codificación de audio y video

La Unión Internacional de Telecomunicaciones (ITU) forma parte de la Organización de Naciones Unidas, y se encarga de desarrollar "Recomendaciones" formales para asegurar que las comunicaciones a nivel mundial se cumplan de manera efectiva y eficiente. En 1984 se establecieron las primeras recomendaciones
1. Codificación de audio.
En primer lugar describiremos la digitalización del audio, que en principio es analógico. Para esto se muestrea (se toman muestras de la señal) y después se codifica (se asigna un valor binario a esa muestra). Se empezó con tomar la voz como el ancho de banda de un Canal Vocal Telefónico, de 300 a 3100 Hz, aunque hay bandas de separación, de manera que se ocupa de 0 a 4 Khz. Para recuperar la información con la calidad original, hay un teorema que dice que hay que tomar muestras de la señal al menos al doble de la frecuencia máxima, es decir, si la frecuencia máxima es 4 Khz., debemos tomar el valor de la señal a 8 KHz, es decir, 8000 veces por segundo.
Una vez obtenida la muestra de la señal, a ese valor de la muestra se le asigna un código, es decir, se codifica. En este caso el código es de 8 bits, por lo que existen 256 posibles valores de la muestra. También implica que 8000 muestras/segundo x 8 bits/muestra son 64 Kbps. Por tanto, la voz analógica, de 0 a 4 Khz., la hemos pasado a un conjunto de bits digital, de velocidad 64 Kbps.
Esto se conoce como modulación por impulsos codificados, MIC en español (Pulse Code Manipulation o PCM en ingles). Está establecido en la norma G.711 de ITU.
Existe otra posibilidad que en lugar de codificar el valor de la muestra, codifica la diferencia con el valor anterior de la muestra. Como la voz es una señal analógica continua, entre un valor y el siguiente habrá muy poca diferencia y podrá ser codificada con menos bits, consiguiendo una mejora. Si en vez de muestrear a 8 KHz (en realidad 7.1 KHz, que es audio de alta calidad) se muestrea a 16 KHz, y se codifica con 4 bits, se obtienen 16 niveles de cuantificación (valores posibles de la muestra), manteniendo 64 Kbps, en este caso con mayor calidad. Esto se llama codificación adaptativa, y es la norma ITU G.722.
El último método de codificación se basa en el espectro de la voz, que es la forma que tiene la señal entre esos límites de 0 a 4KHz. Ese espectro puede ser modelado, aproximado, o reproducido, mediante fórmulas matemáticas conocidas, sólo cambiando unos parámetros. Codificar estos parámetros es más sencillo que en casos anteriores, por lo que hacen falta menos bits que antes. La frecuencia de muestreo sigue siendo de 8 KHz, como en G.711, pero ahora los bits por muestra son 2 (4 de niveles de cuantificación). Esto da un régimen binario de 16 Kbps, que ya es mejora sobre los anteriores. Esto es ITU G.728.
2. Codificación de vídeo.
El video también es una señal analógica que habrá que muestrear y codificar, para pasarla a bits.
Existen básicamente dos formatos de video, PAL y NTSC. Fundamentalmente las diferencias son que PAL son 25 cuadros (tramas o fotogramas) por segundo (fps) y 625 líneas, en NTSC son 30 fps y 525 líneas.
Para poder introducir las señales de video en un sistema de videoconferencia, se normalizaron dos formatos intermedios: CIF y QCIF (Common Intermediate Format y Quarter CIF). CIF posee una resolución de 352x288 y QCIF 176x144.
Pero la transmisión de imágenes planteaba el siguiente problema: si se pretende realizar una videoconferencia a 15 fps, y codificación RGB, con 8 bits por color utilizando el formato CIF, serán necesarios algo mas que 36 Mbps (352 x 288 x 15 x (8+8+8)= 36.495.360 bps.). Por lo que se debe reducir la cantidad de información a transmitir, mediante compresiones y codificaciones
Se emplean técnicas de codificación estadística (de longitud variable) las cuales ejemplificaremos de la siguiente manera: si tomamos un texto cualquiera (por ejemplo este trabajo), encontraremos en él, letras (símbolos), de las cuales algunas se repiten más que otras; seguramente las vocales, la 's', la 'n', el ' ', la 'c' etc., y otras que aparecen mucho menos, como la 'x', la 'ñ', la 'w', etc. Si para transmitir este texto se asigna a cada letra la misma codificación, se pierde eficiencia (así es como es el ASCII, 8 bits por letra/símbolo). Sin embargo, si se codifican las letras más frecuentes con el menor número de bits posibles, por ejemplo al ' ' se le asigna el código binario '1', a la 'a' el código binario '011', a la 'e' el binario '010', a la 'r' el '00010', y a la 'w' el '0000000111101', se ahorra espacio al transmitir.
Si de un fotograma estático, por ejemplo un paisaje de montaña, tomamos al azar un punto del cielo, este será azul. Casi seguro al 100% que los puntos de alrededor también son azules, lo que implica que si se transmite la información del punto central, se puede ahorrar la de los puntos de alrededor. Esto es redundancia espacial, y se hace tomando el fotograma, dividiéndolo en bloques de 8x8 puntos, hallando su transformada discreta del coseno (DCT en ingles) para pasarlo a frecuencias, aprovechando que el ojo humano es más sensible a las frecuencias bajas, estas se codifican con mayor precisión frente a las altas, y después se codifican utilizando un código de longitud variable.
Si tomamos dos fotogramas seguidos de ese paisaje, seguramente los cambios entre ellos sean mínimos, cuando no sean la misma imagen. Con lo cual, transmitiendo la primera imagen y sólo las diferencias de la segunda con la primera, nuevamente se reduce la cantidad de información a transmitir. Esto es redundancia temporal y opera dividiendo la imagen en bloques de 8x8, generando "macrobloques" de 4x4 bloques. En la imagen siguiente, se busca a dónde está situado el macrobloque, en un área de 16 puntos alrededor de la situación original. Esa diferencia se llama vector de movimiento y se vuelve a codificar en un código de longitud variable.
Todas estas técnicas conforman la recomendación H.261, que es codificación de video para velocidades entre 40 Kbps y 2 Mbps. Un equipo que cumpla H.261 ha de soportar QCIF de forma obligada, CIF de forma opcional y la estimación de movimiento también opcionalmente.