ana sayfa : araştırma : mpeg görüntü : mpeg-1 standardı [ 4 / 9 ]

GERİ

BÖLÜM 4

MPEG–1 STANDARDI

Uluslar arası Standartlar Organizasyonu (ISO) tarafından resim ve ilgili ses sinyallerinin sayısal kayıt ortamlarına (CD-ROM, DAT, Disk vs..) CIF formatında kaydedilmesi için geliştirilmiş olup veri hızı 1.5MB/s dir. Elde edilen resim kalitesi VHS formatında kaydedilmiş analog videodan daha iyidir. JPEG’den farklı olarak bu standartta kullanılacak olan algoritmalar standarda dahil edilmemiştir. Yani değişken uzunluktaki kodlamada; Huffman kodlaması yerine Dağınım (Entropy) kodlaması, DCT yerine başka bir dönüşüm kullanılabilir. Ayrıca resimle ilgili parametreler (örnek olarak, resim boyutu ) ayrı olarak gönderildiği için değişik standartlardaki resim işaretlerinde kullanılabilir.

MPEG (Moving Picture Experts Group)-1 görüntüsü (MPEG-1 video) sadece geçmesiz taramalı görüntü işaretlerini kabul eder. Bu işaret önce parlaklık ve renk fark işaretlerinden (Y, Cr, Cb) meydana gelen standart MPEG (Moving Picture Experts Group) giriş işaretine çevrilir. Parlaklık ve renk fark işaretleri 8-bit/benek olarak sayısala çevrilir (Renk işaretlerinden, parlaklık işaretine göre yatay ve düşey doğrultuda 2 defa daha az örnek alınır).

MPEG (Moving Picture Experts Group)-1’de kullanılabilecek en yüksek sınır değerler aşağıda verilmiştir. Bunların altındaki herhangi bir değer kullanılabilir.

Bir satırdaki benek (piksel) sayısı               720

Satır sayısı                                                            576

Saniyedeki resim sayısı                                          30

Bir resimdeki Makroblok sayısı                              396

Saniyedeki Makroblok sayısı                                  9900                                                                                                                                    

Veri hızı                                                               1.86 MB/s      

Tampon bellek                                                      376 832 bit

İşaret hatalarının akustik olarak algılanabilmesi frekansın yüksekliğine (ton yüksekliği) bağlıdır. Bu nedenle ses işareti vericide bir filtre bankasıyla 32 ton yüksekliği bölgesine (kısmi bandlar) ayrılır. Genlikleri normalize etmek amacıyla her kısmi band için ölçeklendirme faktörleri tanımlanır ve iletilir.

Ses işareti uygulamaya bağlı olarak, işaret bozulmaları duyulmayacak veya duyulacak, ama rahatsız etmeyecek kadar sıkıştırılır. Bu nedenle alıcının yapısı çok daha basit olabilir.

Farklı kalite beklentileri için, audio işaretlerini işleme modelleri olarak üç tabaka (layer I...III) öngörülmüştür. Donanımı en basit olan birinci tabaka en düşük veri sıkıştırmasına ve ona göre de bir niteliğe sahiptir. En yüksek veri sıkıştırması ve bununla birlikte en karmaşık devre ise üçüncü tabakada söz konusudur. Bunların uygulamaları sayısal küçük kaset (DCC; 1. tabaka) ve sayısal ses yayınlarıdır (DAB; 2.tabaka).

Öznel dinleme testlerinde bir stereo işaretinin 1. tabakada 384 Kbit/s ve 2. İle 3. tabakada da 256 Kbit/s ile CD niteliğinde kodlanabileceği saptanmıştır. 192 Kbit/s’de ise 2. ve 3. tabakada sadece kritik test işaretlerinde hatalar duyulabilmiştir. Hatta bir stereo işareti için 128 Kbit/s’de bile 3. tabaka, çok kritik olan birkaç test örneği dışında CD niteliğine çok yaklaşmaktadır.

MPEG-1’de ses işaretlerinin karakterlerine göre çeşitli kodlamalar ön görülmüştür: Tek kanallı kodlama (mono işaretler), çift kanallı kodlama, stereo kodlama ve ortak (joint) stereo kodlama.

4.1 MPEG-1 Bölümleri

MPEG-1 tam olarak beş bölümden oluşan bir standarttır:

ISO/IEC 11172-1: 1993:  Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm 1: Sistemler (Part 1: Systems)

ISO/IEC 11172-2: 1993: Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm 2: Görüntü (Part 2: Video)

ISO/IEC 11172-3: 1993: Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm 3: Ses (Part 3: Audio)

ISO/IEC 11172-4: 1993: Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm 4: Uygunluk testi (Part 4: Conformance testing)

ISO/IEC 11172-5: 1993: Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm 5: Yazılım simülasyonu (Part 5: Software simulation)

Şekil 4.1 - Tipik bir ISO/IEC 11172 kod çözücü


4.1.1 Sistemler

Şekil 4.1’de görüldüğü gibi MPEG-1 standardı ses ve görüntüden alınan bir veya daha fazla veri akışlarının zamanlama bilgisiyle birlikte birleştirerek tek bir akış haline getirilmesi problemi ile ilgilenir. Bu fonksiyon önemlidir çünkü veri akışı tek bir dizi halinde birleştirilirse dijital depolama veya dönüşüm için çok uygun hale gelir.

4.1.2 Görüntü

625 satır (line) ve 525 satırlık görüntü dizilerini 1.5 Mbit/s bit oranı çevresinde sıkıştırmada kullanılan kodlama algoritmaları belirtilir.  Bölüm 2 1.5 Mbit/s devamlı transfer oranı isteyen depolama ortamlarını prensipte çalıştırmak üzere geliştirildi. Bununla birlikte daha geniş bir çerçevede kullanılabilir. Çünkü genel bir yaklaşım sergilenmiştir.

Yüksek sıkıştırma oranları elde edebilmek için birden fazla teknik kullanılabilir. Birincisi sinyal için ayrılmış uzaysal bir çözünürlük seçmektir. Bundan sonra algoritma zamansal gereksizliği (temporal redundancy) indirgemek için blok tabanlı hareket kompanzasyonu kullanılır. Hareket kompanzasyonu şu durumlarda kullanılır;

·         Bir önceki resimden o andaki resmi tahmin etme (nedensel tahmin)

·         O anki resmi ilerdeki bir resimden fark etme (nedensel olmayan tahmin)

·         Geçmişteki resimlerden gelecekteki resimlere değer biçerek tahmin

Şekil 4.2 - Zamansal resim yapısı örneği

Fark sinyali, tahmini hata uzaysal korelasyonu ortadan kaldırmak için DCT kullanılarak sıkıştırılır ve kuantalanır. Son olarak hareket vektörleri DCT (ayrık kosinüs dönüşümü) bilgisi ile birleştirilir ve değişik uzunluk kodları kullanılarak kodlanır. Şekil 4.2 standart içinde kullanılan üç ana tip resmin mümkün olan kombinasyonlarını açıklamaktadır.

4.1.3 Ses

Mono ve stereo ses dizilerinin her ikisinin de sıkıştırılabilmesi için kodlanmış bir temsili belirtir. Algoritması şekil 4.3’de açıklanmıştır. Giriş ses bilgileri kodlayıcıya beslenir. Haritalama (mapping), alt örneklenmiş (subsampled) ve filtrelenmiş giriş ses bilgisinin sunumunu oluşturur. Fizyoakustik model, nicelendiriciyi kontrol etmek ve kodlama yapmak için bir veri kümesi meydana getirir. Nicelendirici ve kodlama bloğu haritalanmış giriş örneklerinden bir grup kodlama sembolleri oluşturur. "Çerçeve Paketleyici" blok diğer blokların çıkışlarından hakiki bit akışlarını toplar ve diğer gerekli bilgileri ekler (örnek olarak; hata düzeltmeleri - error correction).

Şekil 4.3 - Ses Kodlayıcının Basit yapısı

4.1.4 Uygunluk Testi

Bit akışları ve kod çözücülerin MPEG-1 standardının 1,2 ve 3 numaralı bölümlerinde belirtilen gerekliliklerle uyuşup, uyuşmadığını belirlemek için yapılacak olan testlerin ne şekilde dizayn edileceğini açıklar. Bu testler şu kişiler tarafından kullanılabilir;

·         Kodlayıcı üreticileri ve onların müşterileri tarafından, kodlayıcının geçerli bit akışları üretip üretmediğini kontrol etmek için kullanılır.

·         Kod çözücü üreticileri ve onların müşterileri tarafından, kod çözücünün talep edilen kod çözücü yeteneklerine göre standardın 1,2 ve 3 numaralı bölümlerinde açıklanan gerekliliklere uygunluğunu kontrol etmek için kullanılır.

·         Uygulamalar tarafından, verilen bit akışının karakteristiklerinin uygulama gereksinimlerini karşılayıp karşılamadığını kontrol için kullanılır. Örnek olarak; kodlanmış resmin boyutunun, uygulama için izin verilen maksimum değeri aşıp aşmadığını anlamak gibi.

4.1.5 Yazılım Simülasyonu

Teknik olarak bir standart değildir. Fakat teknik bir rapordur. MPEG-1 standardının ilk 3 bölümü için tam yazılım uygulaması verir. Kaynak kodlara açıkça ulaşılamaz.

4.2 MPEG-1 Sözdizimi Hakkında Detaylı Bilgi

Kısaltma                       Moving Pictures Experts Group (Hareketli Resimler Uzmanları Grubu)

                                      Resmi Başlık : Resim, Ses ve Multimedya/Hipermedya Bilgisinin Kodlanmış Temsili

                                      ISO CD 11172 Başlığı : Information Technology - Coding of moving pictures and associated ses for digital storage media at up to about 1.5 Mbit/s (Bilgi teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması)

Başlangıç                      ISO/IEC JTC1/SC2 - WG 11 (Kasım 1991'den önce)

                                      ISO/IEC JTC1/SC29 - WG 11 (şu anki hali)

Nedeni                          Sayısal görüntü verileri, sayısal ses verileri ve zamanlama bilgisinin tek bir dizi veri akışına birleştiren Uluslararası standart oluşturma

Kullanıcılar                   Yaklaşık 1.5 Mbit/s veri oranını destekleyen ortamlar; DC (Compact Disc), Dijital Ses Teybi v manyetik harddiskler örnek verilebilir.

Kontrol                         Telif Hakkı                     ISO/IEC

                                      Markalar                        Yok

                                      Telif Hakkı Ücreti           Konu ile yaklaşık olarak 30 patentli olmasına rağmen kesin bir anlam bulunmuyor.

Versiyonlar                   Komisyon Taslağı (Committee Draft - CD) Kasım 1991

                                      Taslak Uluslararası Standart(Draft International Standart-DIS) Mart 1992

                                      Uluslararası Standart (IS) Mart 1993

 

Genel Tabakalar           Sistem Tabakası

                                      Görüntü Tabakası

                                      Ses Tabakası

Sistem Tabakası           Esas Veri tipi         Veri paketlerini zamanlama ve Senkronizasyon

                                      Renk Temsili         Yok

                                      Veri Organizasyonu    Ardışıl (Sequential)

                                      Veri Kodlaması      İkili (Binary)

                                      Veri Sıkıştırması     Yok

Veri Organizasyonu      Veri Akışının Genel Sözdizimi Aşağıdaki gibidir;


Görüntü Tabakası         Esas Veri tipi         Izgara (2 boyutlu sayısal görüntü)

                                      Renk Temsili         YCrCb (4:1:1)

                                      Veri Organizasyonu               Ardışıl (Sequential)

                                      Veri Kodlama        İkili (Binary)

                                      Veri Sıkıştırma       DCT : Tek (kişisel- individual) Çerçeve Görüntüleri için

                                                                  Farklılaştırma (hareket kompanzasyonu ile) : Zamansal Sıkıştırma için (Çerçeveler arası)

Görüntü Tabakası         I-Resimleri (Intra Pictures- İçsel Resimler)

Veri Tipleri                   P-Resimler (Predicted Pictures - Kestirmli Resimler) 

                                      B-Resimler (Bidirectional Pictures - Çift Yönlü Resimler)

Görüntü Tabakası         Veri akışının asıl sözdizimi


Veri Organizasyonu      aşağıda verilmiştir;

Dizi Başlığı          Bir veya daha fazla resim grubuna ait bilgi içerir.


 

Aşağıdaki en/boy oranları tanımlanmıştır;

Kod                     Boy/En                 Örnekler

 


0000                     Tanımlanmadı        Yasaklandı, kullanılamaz

0001                     1,0000                   VGA, çoğu bilgisayar monitörlerinde

0010                     0,6735

0011                     0,7031                   16:9 oran, 625 çizgi

0100                     0,7615

0101                     0,8055

0110                     0,8437                   16:9 oran, 525 çizgi

0111                     0,8935

1000                     0,9375                   CCIR 601,525 Çizgi; 720x576 4:3 oranında

1001                     0,9815

1010                     1,0255

1011                     1,0695

1100                     1,1250                   CCIR 601,525 Çizgi; 720x576 4:3 oranında

1101                     1,1575

1110                     1,2015

1111                     Tanımlanmadı        İleride tanımlanmak üzere geri çevrildi

Aşağıdaki Resim oranları tanımlanmıştır;

Kod                     Resim/Saniye       Örnekler

 


0000                     Tanımlanmadı        Yasaklandı, kullanılamaz

0001                     23,976

0010                     24                         Film

0011                     25                         PAL/SECAM Görüntü (noninterlaced)

0100                     29,97                     NTSC Görüntü (noninterlaced)

0101                     30

0110                     50                         PAL/SECAM Görüntü (interlaced)

0111                     59,94                     NTSC Görüntü (interlaced)

1000                     60

1001                     Tanımlanmadı

......                                                   Daha sonra açıklanmak için geri çevrildi

1111                     Tanımlanmadı

Resim Grubu (GOP) Başlığı           Resim grubu (GOP-Group of Pictures)1 adet I-resmi ve 0 veya daha fazla B- ve P- resimleri içerir.


Resim Başlığı                                  Görüntü dizisi içindeki bir resim.


Resim kodlama tipi'nin kodlanma şekilleri;

Kod                     Resim Kodlama Tipi

 


000                       Tanımlanmadı (yasaklandı)

001                       I resimleri (Intra-coded)

010                       P Resimleri (Predicative-Coded)

011                       B Resimleri (Bidirectionally-Predicative-Coded)

100                       D Resimleri (DC-Intra-Coded)

101                                              Tanımlanmadı (İleride kullanılmak üzere bırakıldı)

Dilim Başlığı                                    Bir dilim 1 veya daha fazla makroblok içerir.


Makroblok Başlığı       Bir makroblok, resmin 16x16 piksellik alanı için veridir. Aynı zamanda her biri kendi içinde 64 değer içeren 6 veri bloğuna sahiptir(mesela bir 8x8'lik dizi). İlk 4 blok parlaklık (luminance) değerlerini içerir. Geriye kalan 2 blok ise uzaysal frekansın yarısında örneklenen renklilik değerleridir. Aşağıdaki diyagram bu planı anlatmaktadır;

                                               Parlaklık         Renklilik

                                      Veri değişken uzunluk (Huffman) kodları kullanılarak kodlanır. Bu yüzden aşağıdaki veri değerleri bit veya byte sayıları içermez;

Adres Artırımı                 Atlanan Makroblokların sayısını gösterir (bir önceki resimden farkı olmayan makrobloklar atlanabilir)

Makroblok Tipi                Bu blok için nicelendirmenin değişip değişmediğini ve kodlamada ileri hareket vektörümü yoksa geri hareket vektörümü kullanıldığını belirtir.

Nicelendirme Oranı         Makrobloğu oluşturan 6 veri bloğunun nicelendirme seviyelerinin indirgenmesi veya yükseltgenmesi için kullanılır.

Hareket Vektörleri          İleri yatay, ileri dikey - Geri yatay, Geri dikey

Kodlanmış Blok Deseni   Makroblok içinde o anda 6 bloktan hangisinin bulunduğunu belirler (bir önceki resimden değişmeyen bloklar kodlanmak zorunda değildir).

Veri Bloğu                    8x8 blok piksel değerlerinin DCT (ayrık kosinüs dönüşümü) tarafından dönüşümünün ardından Hufmann kodlamasına tabi tutulan katsayıları içerir. Katsayılar zikzak düzende sıralanır ve çalışma-uzunluğu kodlanır.

Dosya Adı Soneki           .mpg