ana sayfa : araştırma : mpeg görüntü : mpeg-4 standardı [ 6 / 9 ]

GERİ

BÖLÜM 6

MPEG-4 STANDARDI

MPEG-2 bitmeden önce yeni bir proje olan MPEG-4 başlatıldı[1]. MPEG-4 standardı ISO (International Standards Organisation- Uluslararası Standartlar Organizasyonu) tarafından, daha çok, düşük bit hızlarında görüntü iletimi için ön görülmüş yeni bir sıkıştırma standardıdır. 1993’de başlayan bu standart çalışması daha sonra değiştirilerek, “kolay erişilebilir, yüksek sıkıştırmalı ve uyarlanabilir, kullanıcı tarafından değiştirilebilen (interactive) ses/görüntü sıkıştırma standardı” haline getirilmiştir. MPEG-4 standardında diğerlerinde olmaya aşağıdaki özellikler eklenmiştir;

·         Veri bit-dizilerinin içindeki bilgiye (muhtevaya) bağlı olarak düzenlenebilmesi.

·         Multimedya sistemleri için çeşitli kullanım aletleri

·         Bilgiye bağlı ölçekleme

·         Aynı anda gönderilen çeşitli veriler için uygun kodlama

·         Tabii, yapay veya karışık veriler için uygun kodlama

·         Daha iyi kodlama verimi

·         Çok düşük veri hızlarında hareketlerin kodlanması

·         Gürültü ve hatalara karşı dayanıklılık

MPEG-4 standardı yapısal olarak 4 elemandan oluşur; “sintaks”, “aletler”, “algoritmalar” ve “profiller”. Burada “sintaks” (syntax), çeşitli aletler, algoritmalar ve profillerin tanımlanması, kullanılması ve yüklenmesini tanımlayan bir dildir. “Alet” (tool) özel bir kullanım metodudur. “Algoritma” birden fazla aletin ardarda kullanılmasıyla bir işlemin gerçekleştirilmesidir. “Profil” ise 1 veya 1’den fazla algoritmanın peşpeşe uygulanması ile belli bir uygulamanın gerçekleştirilmesidir.

MPEG-4 standardı daha çok telekonferans, multimedya, görüntü arşivleme, tele alışveriş ve uzaktan izleme gibi özel uygulamalar için düşünülmüştür.

6.1 MPEG-4'ün Kapsam ve Özellikleri

Daha yenice tamamlanmış (Ocak 1999) olan MPEG-4 standardı, yazarların, servis sağlayıcıların ve benzer şekilde son kullanıcıların ihtiyaçlarını karşılayacak olan bir teknoloji kümesine sahiptir.

·         Yazarlar için, günümüzde kullanılan kişisel teknolojilerden (sayısal TV gibi), animasyonlu grafiklerden, web (WWW - World Wide Web) sayfalarından ve ilavelerinden daha fazla esneklik sunmaktadır, ve daha fazla yeniden kullanılabilirlik sağlamak için içerik üretimine imkan tanımaktadır.

·         Ağ Servis Sağlayıcıları için, MPEG-4 her ağdaki ayrılmış yerel sinyal mesajlarına çevrilecek ve yorumlanacak saydam (açık) bilgiler sağlar. Ayrıca değişik MPEG-4 ortamları için genel bir Servis Kalitesi (Quality of Service - QoS) parametre kümeleri sağlar. Bu çevrimlerin tam tasarımları MPEG-4'ün kapsamının ötesinde kalmaktadır ve ağ sağlayıcılarının kendilerinin tanımlamaları için bırakılmıştır. QoS bilgisinin bir uçtan bir uca sinyallenmesi heterojen ağlarda taşıma optimizasyonunu sağlayacaktır.

·         Son Kullanıcılar İçin, MPEG-4 yazar tarafından belirlenen limitlerde, patentli formatların ve oynatıcıların (player) riskinden uzaklaşarak içerikle beraber yüksek seviyelerde etkileşim sağlamaktadır.

MPEG-4 amaçlarını gerçekleştirmek için standartlaşmayı aşağıdaki sebeplerden dolayı yapmaktadır;

1.       AVO (Audio Visual Object - Sesli Görsel Nesne) denen işitsel birimlerin , görsel veya sesli görsel içeriklerin temsilini sunmayı amaçlamaktadır. En basit birim, ilkel AVO olarak adlandırılmaktadır.

2.       Bu nesneleri beraberce birleştirerek, sesli görsel sahneleri (audiovisual scene) meydana getiren bileşik sesli görsel nesneleri oluşturabilmeyi hedeflemektedir.

3.       Sesli görsel nesnelerle birleştirilen verinin çoklanması (Multiplex) ve senkronizasyonunu sağlamayı hedefler. Böylece veriler, sesli görsel nesnelerin doğasındaki özel QoS (servis kalitesi)ni sağlayan ağ kanalları üzerinden de kolayca iletilebilirler.

4.       Alıcının sonunda oluşturulan sesli görsel sahne ile etkileşim sağlamak.

6.1.1 İlkel Sesli Görsel Nesnelerin (primitive AVO) Temsili

Sesli görsel nesneler hiyerarşik bir yapıda organize edilen birkaç sesli-görsel nesnenin bileşiminden oluşur. Hiyerarşinin yapraklarında ilkel sesli-görsel nesneler bulunmaktadır. Bunlara örnek olarak;

·         2 boyutlu sabit bir arkaplan

·         Konuşan bir kişinin resmi (arkaplan olmadan)

·         O kişi ile birleştirilmiş ses vb. verilebilir.

MPEG ilkel sesli-görsel nesneleri doğal ve yapay içerik tiplerini temsil edebilme yeteneklerine göre (2 veya 3 boyutlu olabilir) sınıflandırır. Yukarıda anlatıldığı ve şekil 6.1’de de görüldüğü gibi MPEG-4 nesnelerin kodlanmış sunumlarını şu şekillerde gerçekleştirir;

·  Metin ve grafik

·                          Konuşma ve kafa hareketlendirmelerini sentezleyerek alıcı sonunda kullanılmak üzere kullanılan konuşan kafalar ve birleştirilmiş metin

·  Animasyonlu insan bedenleri


Şekil 6.1 - MPEG-4 Sesli-Görsel Sahne Örneği (AV scene)

6.1.2 Sesli-görsel Nesnelerin Düzenlenmesi

Şekil 6.1’de, bir sesli görsel sahne içinde nasıl birden fazla özel nesnenin birleştirildiği görülmektedir. Şekilde bileşik sesli-görsel nesnelerin, basit sesli-görsel nesnelerden oluştuğu anlatılmaktadır. Örnek olarak; konuşan kişi ile ilgili olan görsel nesne ve ilgili ses yeni bir bileşik sesli-görsel nesne oluşturma için bağlanmıştır. Bu bağlantıda konuşan kişinin hem işitsel hem de görsel bileşenleri bulunmaktadır.

Bu şekilde guruplama yazarların karmaşık sahneler inşa etmesine ve tüketicilerin anlamlı nesne kümelerini beceri ile yönetmelerini sağlar.

Genel olarak MPEG-4, aşağıdaki özelliklere uyarak bazı yollarla sahneleri birleştirmeyi imkanlı kılmaktadır;

·  Verilen koordinat sistemi içersinde sesli-görsel nesneleri herhangi bir yere yerleştirme

·  İlkel sesli-görsel nesneleri bileşik sesli-görsel nesneleri biçimlendirmek için guruplama

·  Sesli-görsel nesnelerin doğal özelliklerinde değişiklik yapabilmek için Sesli-görsel nesnelere akışkan veri ekleme (mesela bir nesneye ait hareketli doku; bir kafayı hareket ettirmek için hareket parametrelerini gönderme)

·  Etkileşimli olarak, kullanıcının görme ve dinleme pozisyonlarını sahne içersinde herhangi bir noktaya değiştirebilme

Not: Sahne kompozisyonlama tekniği VRML (sanal gerçeklik modelleme dili)'den bazı kavramlar almaktadır.

6.1.3 Sesli-görsel Nesnelerle Etkileşim

Genel olarak kullanıcı bir sahneyi, hazırlayan yazarın tasarımı doğrultusunda inceleyebilir. Böylece yazarın izin verdiği derecedeki özgürlüğe sahiptir. Ancak MPEG-4'de kullanıcının sahne ile etkileşimini sağlayacak olasılıklar vardır. Kullanıcı tarafından kontrolüne izin verilebilecek işlem kategorileri şunlardır;

·  Sahneyi izleme/dinleme noktasını değiştirme (mesela, sahnenin her yanında dolanabilme)

·  Sahne içindeki nesneleri başka noktalar taşıyabilme

·  Özel bir nesne üzerine tıklayarak olayları yerleştirme (cascade) (görüntü akışının başlama ve bitme noktalarını içerir)

·  Arzulanan dili seçebilme (çoklu dil imkanlı olduğunda)

·  Bir çok çeşit kompleks davranışlar sağlanabilir; mesela sanal bir telefon çalar ve kullanıcı cevap verir, ardından da iletişim ağı kurulur.

6.2 MPEG-4'ün Teknik Detayları

Şekil 6.2 - DMIF Mimarisi


Şekil 6.2’de gösterildiği gibi, ağdan (veya bir depolama ortamından) gelen akışlar FlexMux sistemleri içine serileştirilir (Demultiplex) ve temel akışları yeniden oluşturmak için uygun FlexMux serileştiricisine (demultiplexer) iletilir. Temel akışlar incelenir ve uygun kod çözücülere yollanır. Kod çözme işlemi sesli-görsel nesneyi kodlanmadan önceki biçimine dönüştürür ve orijinal sesli-görsel durumunda yeniden inşa için sunuma hazır hale getirir.

6.2.1 DMIF

DMIF-Delivery Multimedia Integration Framework (Bütünleştirilmiş Çoklu Ortam İskeleti Sunma), MPEG-4 uygulamaları ile taşıma ağı arasına yerleştirilmiştir. Bu şekil 6.3’de görülmektedir;


Şekil 6.3 - MPEG-4 Terminalinin Önemli Bileşenleri (Alıcı Kısmı) DMIF arayüzündeki bir MPEG-4 uygulaması çok noktalı uygulama oturumu kurabilir. Her nokta eşsiz birer adresle tanımlanır. Bu noktalar ağ üzerindeki uzaktan etkileşimli bir nokta olabileceği gibi yayın üzerinde veya depolama ortamında olabilir.

6.2.2 Serileştirme, Tampon Yönetimi ve Zaman Tanıma

6.2.2.1 Serileştirme: Serileştirme (demultiplexing) aşaması bağlı bulunan ağ tabakası veya depolama ortamından gelmekte olan temel akışların (elementary stream) yeniden alınmasından oluşur. FlexMux tabakası temel akışlarının yeniden alınmasını belirler. Sesli-görsel nesnelere bağlı tüm veriler, sahne tanımları veya uygulama kontrolü temel akışlar olarak hesaba katılır.

Serileştirme aşaması ağdan veya depolama ortamından gelen verileri sıkıştırma tabakasına iletir.

6.2.2.2 Tampon Yönetimi: Kod çözücünün bir MPEG-4 oturumunu oluşturacak olan temel veri akışlarını çözdüğünde nasıl davranacağını belirlemek için Sistem Kod Çözücü Modeli kodlayıcıya oturumu çözebilmek için gerekli olan minimum tampon kaynaklarının ne kadar olacağını belirtmesini söyler. Gerekli olan tampon kaynakları, MPEG-4 oturumunu kurma aşamasında Nesne tanımlayıcılarla beraber kod çözücüye iletilir. Böylece kod çözücü bu oturumu gerçekleştirebilecek kapasitede olup olmadığını anlar.

6.2.2.3 Zaman Tanıma: gerçek zamanlı işlem için bir zamanlama modeli farz edilmiştir. Bu model bir kodlayıcıdan çıkan sinyalle kod çözücüye giren sinyal arasındaki bekleme süresine dayandırılmıştır.  İletilen veri akışları direk veya dolaylı zamanlama bilgisine sahip olmalılar. İki tip zamanlama bilgisi vardır. Birincisi kodlayıcı saatinin hızını veya zaman bazını kod çözücüye iletmek, ikincisi ise kodlanmış sesli-görsel verinin bölümlerine eklenmiş zamanlama damgalarına dayanarak erişim birimleri için arzu edilen kod çözme süresini içerir. Bununla beraber zamanlama bilgisi içermeyen sistem işlemlerine müsaade edilmiştir.

6.2.3 Sözdizim (Syntax) Tanımlamaları

MPEG-4 seli-görsel nesnelerin sahne tanımlama bilgisini anlatabilmek için sözdizimsel tanımlama dili (syntactic description language) kullanmaktadır. Bu kendisinin C dilin olan geleneksel yaklaşımından hareketle geliştirilmiştir. Bu dil C++' a ilavedir ve nesnelerin sözdizimsel tanımlamalarını belirtmek için kullanılır. Ayrıca tüm sesli-görsel sınıf tanımlamaları ve sahne tanımlama bilgileri bütünleştirilebilir.

6.2.4 Ses Nesnelerinin Kodlanması

MPEG-4 ses kodlaması, doğal ses ( konuşma ve müzik gibi) temsilleri ve yapısal tanımlamalara dayanan seslerin sentezlenmesini sağlar. Temsillemeler sıkıştırmanın yanında ölçülebilirlik ve değişik hızlarda geri sarım gibi diğer işlevleri mümkün kılar.


Şekil 6.4 - MPEG-4 Ses için Genel Blok Diyagram

6.2.4.1 Doğal Ses : MPEG-4 doğal ses kodlamasını 2 Kbit/s 'den 64 Kbit/s 'ye kadar olan bit oran aralıklarında standartlaştırmıştır. Zaten hazır olan MPEG-2 AAC (Advanced Audio Coding) standardı ve MPEG-4 alet seti seslerin genel sıkıştırmasını sağlayacaktır. Bit oranlarının tüm aralıklarında yüksek kalitede sese ulaşmak için ve aynı zamanda ekstra işlevsellikleri de yerine getirebilmek için 3 değişik tip kodlayıcı tanımlanmıştır. Birincisi, 2 Kbit/s ile 6 Kbit/s aralığındaki düşük bit oranı aralığıdır. Bu aralık genellikle 8 kHz frekansda konuşma kodlamak için kullanılır. İkincisi, 6 ve 24 Kbit/s aralığında bulunan orta dereceli bit oranı aralığıdır. Bu aralıkta kodlama yaparken CELP (Code Excited Linear Predictive) kodlama teknikleri kullanılır. Bu durumda birinciden farklı olarak daha geniş aralıktaki ses sinyallerini kapsaması için 8 ve 16 kHz frekansları kullanılır. Üçüncü olarak da yüksek bit oranları için tipik olarak 16 Kbit/s'den başlayan frekansa kodlamaya karşı zaman (T/F) teknikleri, diğer bir anlamda VQ ve AAC kodlamaları eklenmiştir. Bu bölgedeki ses sinyalleri tipik olarak 8 kHz'den başlayan bant genişliklerine sahiptirler.

Bit oranları arasında düzgün geçişlere ve bit oranı ve bant genşliği ölçülebilirliğine imkan tanımak için genel bir iskelet belirlenmiştir. Bu iskelet şekil 6.4’de görülebilir.

6.2.4.2 Sentezlenmiş Ses: kod çözücüler, yapılandırılmış girişlere dayanan sesler üretebilirler. Metin girişi TTS (Text to Speech- metinden konuşmaya) kod çözücüsünde konuşmaya dönüştürülürler. Eğer müzik içeren daha genel sesler varsa bunlar da uyum içinde sentezlenir.

6.2.4.3 Efektler: Yapılandırılmış ses efektleri kod çözücüsü (structured audio/effects decoder) kodu çözülmüş ses verisini becerikli bir şekilde özel efektlere dönüştürme işlemi yapar. Bunu yaparken efekt ile sesin örnekleme oranının zamansal olarak tutarlı olmasını sağlamaya çalışır. Aslında efektler, giriş akışları üzerinde efekt işlemcilerinin fonksiyonlarını sunan enstrüman tanımlamalarında uzmanlaşmışlardır. Efekt işlemleri yankılandırıcıları, uzaysallaştırıcı, karıştırıcı, limitleyici, dinamik aralık kontrolü, filtreler, uğultular veya bu efektlerin bazılarının melezlerini içerir.

6.2.5 Görsel Nesnelerin Kodlanması

Görsel nesneler doğal ve yapay kökenli olabilirler. İlk olarak doğal kökenlilerden bahsedelim;

6.2.5.1 Doğal Dokular ve Görüntüler

MPEG-4 görsel standardında  doğal görüntülerin temsil edilmesi, verimli depolama, dokuların dönüşümü, işlenmesi ve multimedya çevreleri için görüntü verisi oluşturmayı hedeflenmiştir. Bu aletler görüntü içeriğinin ve atomik birimlerinin kodlanmasını ve temsil edilmesini imkanlı kılar. Bu aletlere görüntü nesneleri (video objects)denir. Görüntü nesnesine bir örnek olarak konuşan bir kişi (arka plan olmadan) olabilir. Bu kişi bir sahne oluşturmak için diğer sesli-görsel nesnelerle birleştirilebilir. Dar uygulama kümelerine çözüm üretmek yerine bu geniş amacı başarma yolunda farklı uygulamalar için ortak olan fonksiyonlar guruplanmıştır. Bu nedenle MPEG-4'ün görsel kısmı aşağıda belirtilen şekillerde çözümler sunar;

·       Resim ve görüntüde verimli sıkıştırma

·       2D ve 3D ağlar (mesh) üzerindeki doku kaplamalarının sıkıştırılması

·       Kapalı 2D ağların verimli sıkıştırılması

·       Tüm görsel tipteki nesnelere verimli erişim

·       Resim ve görüntüler için gelişmiş işletme  fonksiyonu

·       Resim ve görüntülerin içerik bazlı kodlanması

·       Resim, görüntü ve dokuların içerik bazlı ölçeklenebilirliği

·       Uzaysal, zamansal ve kalite ölçeklenebilirlik

·       Hata eğilimli çevrelerde  hata sağlamlığı ve esnekliği

Şekil 6.5 - MPEG-4 Görüntü Kodlama Algoritmaları ve Aletleri Sınıflandırılması


6.2.5.2 Doğal Görüntü Temsilinde Kullanılan Aletlerin Yapısı

MPEG-4 görsel standardı tarafından doğal görüntüler için sağlanan bit oranları ve işlevler şekil 6.5’de basitçe sınıflandırılmıştır. En altta bulunan VLBV çekirdeği (VLBV: very low bit rate video) tipik olarak 5..64 Kbit/s bit oranları arasında işlem gören uygulamalar için algoritma ve aletler sağlar, bunu sağlarken düşük uzaysal çözünürlükteki (CIF Çözünürlüğüne kadar) görüntü dizilerini ve düşük çerçeve oranlarını (15 Hz'e kadar) destekler.

6.2.5.3 Geleneksel ve İçerik Bazlı İşlevsellik Desteği

Şekil 6.6 - VLBV Çekirdeği ve Genel MPEG-4 Kodlayıcısı


MPEG-4 görüntü standardı geleneksel dikdörtgen resim ve görüntülerin kodunu çözmenin yanısıra isteğe göre seçilen kalıptaki görüntü ve resimlerin kodunu çözmeyi de  destekler. Bu kavram şekil 6.6’da gösterilmiştir.

Resim ve görüntülerin geleneksel olarak kodlanması MPEG-1/2'dekine benzer şekilde yapılır ve doku kaplamasıyla birlikte hareket kompanzasyonu ve hareket kestirimini kapsar(daha önce anlatılmıştı). İçerik bazlı işlevlerde görüntü dizisi yeri ve kalıbı isteğe bağlı olduğundan dolayı, bu yaklaşım, kalıp ve saydamlık bilgilerinin kodlanmasıyla genişletilmiştir. Kalıp bilgileri belki de 8 bitlik saydamlık bileşeni gibi temsil edilebilir.

6.2.5.4 MPEG-4 Görüntü Kodlama Planı

Şekil 6.7,  MPEG-4’ün dikdörtgen veya başka kalıplarda kodlanmış giriş resimlerinin kodunu çözmede kullandığı basit görüntü algoritmalarınına yaklaşımını incelemektedir.


Şekil 6.7 - MPEG-4 Görüntü Kodlayıcısı Basit Blok Diyagramı

Basit kodlama yapısı; kalıp kodlamasını ve DCT tabanlı doku kodlamada olduğu gibi hareket kompanzasyonunu kapsar. MPEG-4'ün kullandığı yaklaşımlardan biri olan içerik bazlı kodlamanın önemli avantajlarından birisi de, bir sahne içindeki her nesne için ayrılmış (adanmış) nesne tabanlı hareket kestirimi kullanarak bazı görüntü dizeleri için sıkıştırma verimini dikkate değer biçimde arttırmasıdır. Nesnelerin verimli kodlanması ve esneklikle sunulabilmesi için bazı teknikler kullanılır;

·         Standart 8x8 veya 16x16 piksel blok tabanlı hareket yargısı ve kompanzasyonu

·         Akrabalık dönüşümünü anlatan 8 hareket parametresi kullanarak global hareket kompanzasyonu

·         Statik "sprite"'ların iletimine dayanan global hareket kompanzasyonu. Statik "Sprite" tüm arkaplanı anlatan genişçe sabit resmi ifade eder.

6.2.6 Sahne Tanımlama


Şekil 6.8 - Bir Sahnenin Mantıksal Yapısı

Aşağıda belirtilen liste sahne tanımlamadan kastedilenler hakkında bilgiler vermektedir;

Nesnelerin beraberce guruplanması; Bir MPEG-4 sahnesi hiyerarşik bir yapı içinde temsil edilebilir. Grafiğin her düğümü bir sesli-görsel nesneyi temsil eder(Şekil 6.8). Ağaç yapısının statik olmasına gerek yoktur. Düğüm özellikleri değişebildiği (örnek olarak; pozisyon parametreleri) gibi yeni düğümler eklenebilir, çıkarılabilir veya yer değiştirilebilir.

Nesnelerin Alanda ve Zamanda Dağılımı; MEG-4 modelinde sesli-görsel nesneler uzaysal ve zamansal büyüklüklere sahiptir. Her sesli-görsel nesnenin bir yerel koordinat sistemi vardır. Bu nesneler sahne içindeki kendilerinden önce gelen (ata) nesnelere bağlı olarak global koordinat sistemi içersinde yerel koordinat sistemleri üzerinde bulunurlar.

6.2.7 Kullanıcı Etkileşimi

MPEG-4 sunulan içerikle kullanıcının etkileşim içinde bulunmasına izin verir. Bu etkileşim 2 önemli bölüme ayrılabilir. Birisi istemci-tarafı etkileşim, ikincisi sunucu-tarafı etkileşimdir. İstemci-tarafı etkileşim lokal olarak kullanıcı kısmında ele alınan içerik idaresini kapsar. Ve farklı biçimlerde olabilir; bir nesnenin pozisyonunu değiştirmek, nesneyi görünür ve görünmez yapmak, metin düğümünü font büyüklüğünü değiştirmek vb. gibi olaylar kullanıcı olaylarının (mesela, fare tıklaması veya klavye komutları) sahne tanımlamasına dönüştürülmesi ile gerçekleştirilir. Komutlar MPEG-4 terminali tarafından işletilir. Sonuç olarak bu tip etkileşimde standarda gerek yoktur. Sunucu-tarafı etkileşim ise kullanıcı etkisiyle başlatılan ve iletim sonunda oluşan içerik idaresini kapsar.

6.3 MPEG-4 Tarafından Sağlanan Önemli İşlevsellikler

6.3.1 DMIF

DMIF (Delivery Multimedia Integration Framework - Bütünleştirilmiş Çoklu Ortam İskeleti Sunma) aşağıdaki işlevleri desteklemektedir;

-          Bağlı bulunulan noktanın uzaktan etkileşimli noktamı, yayın vey depolama ortamı mı olduğuna aldırmadan saydam DMIF uygulama arayüzü

-          FlexMux kanallarının kurulumunun kontrolü

-          Etkileşimli noktalar arasında homojen ağlar kullanır; IP, ATM, mobil, PSTN, dar bant ISDN

6.3.2 Sistemler

Bu kısım aşağıdaki bileşenlerden oluşmaktadır;

·       Çoklu sesli-görsel nesnelerin (AVO) düzenlemesi için sahne tanımlaması vardır. Sahne tanımlaması 2 boyutlu ve 3 boyutlu kompozisyon operatörleri için zengin bir düğüm kümesi sunar.

·       Uluslarası dilleri destekleyen metin, font ve font sitili seçimi, zamanlama ve senkronizasyon

·       Etkileşim. İçerdikleri: istemci-sunucu tabanlı etkileşim, kullanıcı etkilerini yönlendirmek veya olayları yönlendirmek için genel bir olay modeli

·       Zamanlama bilgisiyle beraber çoklu akışların tek bir akışa birleştirilmesi (multiplexing)

·       Taşıma katmanı bağımsızlığı. Çoklama işleminin FlexMux ve TransMux olarak ayrılması nedeniyle geniş değişikliklerle taşıma avantajları sağlanmıştır.

·       Alıcı terminal tamponlarının başlatılması (initialization) ve sürekli yönetimi

·       Zamanlama tanımlanması, senkronizasyon ve kurtarma mekanizmaları

·       Sesli-görsel nesnelerin (AVO) telif hakkı tanımlaması (IPR).

6.3.3 Ses

Bu kısımda çok çeşitli uygulamaları kolaylaştırmak amacıyla, açık konuşmadan yüksek kalitede çoklu kanal (multichannel) sese ve doğal seslerden sentezlenmiş seslere kadar bazı işlevler sağlanmıştır. Bu işlevlere örnek olarak; hız kontrolü, ton değiştirme, hata esnekliği, ölçeklenebilirlik, bant genişliği, hata sağlamlığı, komplekslik vs. Bu özelliklerden bazıları aşağıda açıklanmıştır;

·       Hız değiştirme işlevi, kod çözme esnasında tonu değiştirmeden zaman ölçeğini değiştirmeye imkan sağlar. Örnek olarak, bu özellik ileri hızlı sarım fonksiyonu (veri tabanı araştırması) uygulamasında veya ses dizisinin uzunluğunu verilen bir görüntü dizisine uydurmada veya dans basamaklarını yavaş bir hızda pratik yapmada kullanılabilir.

·       Bit oranı ölçeklenebilirliği, bir bit akışının daha küçük bit oranında bir akışa bölünebileceği ve kombinasyonun hala anlamlı bir sinyal olarak çözülebileceği anlamına gelir. Bu işlem iletim sırasında veya kod çözücüde yapılabilir.

·       Bant genişliği ölçeklenebilirliği, bit oranı ölçeklenebilirliğinin özel bir durumudur ki bu sayede iletim sırasında veya kod çözme sırasında frekans tayfının bir kısmını temsil eden bit akışları görmezden gelinebilir.

·       Hata sağlamlığı, kod çözücüye iletim hatalarından kaynaklanan işitsel distorsiyondan kaçınma veya saklanma yeteneği kazandırır.

·       Sentezlenmiş ses sinyalleri giriş veri akışlarının çözülmesiyle istenilen sentezlenmiş ses işlemleri yapılabilir.

·       Ses efektleri, kodu çözülmüş ses bilgilerinin tam zamanlı karıştırılması, yankılanması, uzaysallaştırılması vb. gibi fonksiyonlarda yetenekler kazandırmaktadır.

6.3.4 Görüntü

MPEG-4 görsel standardı, doğal (piksel tabanlı) resimlerle görüntülerin melez olarak kodlanmasıyla  yapay (bilgisayar tarafından yapılan) sahneler oluşturulmasına izin verir. Örnek olarak, bu video konferans katılımcıların sanal olarak varlığına izin verir. Bu noktada görsel standart doğal resimlerin ve görüntü dizilerinin sıkıştırılmasının yanında sentetik (yapay) olarak 2 ve 3 boyutlu grafik geometrisi parametrelerinin sıkıştırılmasını sağlamaktadır. Aşağıda bu standartla ilgili bazı özelliklere yer verilmiştir;

Desteklediği Formatlar;

·       Bit Oranları: tipik olarak 5 Kbit/s ile 4 Mbit/s

·       Formatlar: karışık görüntüler gibi gelişmekte olanlar

·       Çözünürlükler: tipik olarak sub-QCIF'den TV'ye kadar

Sıkıştırma Verimi;

·       Tüm bit oranı adreslerinde verimli görüntü sıkıştırma

·       2D ve 3D ağlarda doku kaplamada verimli doku sıkıştırması

·       İşlevlere rasgele erişim, mesela, depolanmış görüntüyü durdurma, ileri hızlı sarma ve geri hızlı sarma

İçerik Tabanlı İşklevsellikler;

·       Görüntü ve resimlerin içerik bazlı kodlanması

·       Görüntü dizilerinin içeriklerine rasgele erişim imkanı

·       Görüntü dizilerinin içeriklerinin gelişmiş idaresi

Doku, Görüntü ve Resimlerin Ölçeklenebilirliği;

·       Kodlayıcı ve kod çözücüde karmaşıklık ölçeklenebilirliği

·       Uzaysal ölçeklenebilirlik

·       Zamansal ölçeklenebilirlik

·       Kalite ölçeklenebilirliği

Yüz Animasyonu;

Standardın bu kısmı yapay yüzleri ayarlayan ve hareket ettiren parametreler gönderilmesine izin verir. Bu modeller MPEG-4 tarafından standartlaştırılmamıştır. Sadece parametreler standartlaştırılmıştır.

·       Yüz animasyonu parametrelerin tanımı ve kodlanması (model bağımlı)

·       Yüz tanımlama parametrelerinin tanımı ve kodlanması (Model ayarlamaları için)

·       Yüzsel doku kaplamaları

 

[1] MPEG-3 başlatıldı ve HDTV'yi hedef aldı. Fakat MPEG-2’nin bu ihtiyacı karşılayabileceği anlaşılınca vazgeçildi.