ana sayfa : araştırma : mpeg görüntü : mpeg-1 standardı [ 4 / 9 ] |
|||||||||||||||||||
GERİ | |||||||||||||||||||
BÖLÜM 4MPEG–1 STANDARDIUluslar
arası Standartlar Organizasyonu (ISO) tarafından resim ve ilgili ses
sinyallerinin sayısal kayıt ortamlarına (CD-ROM, DAT, Disk vs..) CIF
formatında kaydedilmesi için geliştirilmiş olup veri hızı 1.5MB/s dir.
Elde edilen resim kalitesi VHS formatında kaydedilmiş analog videodan daha
iyidir. JPEG’den farklı olarak bu standartta kullanılacak olan
algoritmalar standarda dahil edilmemiştir. Yani değişken uzunluktaki
kodlamada; Huffman kodlaması yerine Dağınım (Entropy) kodlaması, DCT yerine başka bir dönüşüm
kullanılabilir. Ayrıca resimle ilgili parametreler (örnek olarak, resim
boyutu ) ayrı olarak gönderildiği için değişik standartlardaki resim işaretlerinde
kullanılabilir. MPEG
(Moving Picture Experts Group)-1 görüntüsü (MPEG-1 video) sadece geçmesiz
taramalı görüntü işaretlerini kabul eder. Bu işaret önce parlaklık
ve renk fark işaretlerinden (Y, Cr, Cb) meydana gelen standart MPEG (Moving
Picture Experts Group) giriş işaretine çevrilir. Parlaklık ve renk fark
işaretleri 8-bit/benek olarak sayısala çevrilir (Renk işaretlerinden,
parlaklık işaretine göre yatay ve düşey doğrultuda 2 defa daha az örnek
alınır). MPEG
(Moving Picture Experts Group)-1’de kullanılabilecek en yüksek sınır
değerler aşağıda verilmiştir. Bunların altındaki herhangi bir değer
kullanılabilir. Bir
satırdaki benek (piksel) sayısı
720 Satır
sayısı
576 Saniyedeki
resim sayısı
30 Bir
resimdeki Makroblok sayısı
396 Saniyedeki
Makroblok sayısı
9900
Veri
hızı
1.86 MB/s
Tampon
bellek
376 832 bit İşaret hatalarının akustik olarak algılanabilmesi
frekansın yüksekliğine (ton yüksekliği) bağlıdır. Bu nedenle ses işareti
vericide bir filtre bankasıyla 32 ton yüksekliği bölgesine (kısmi
bandlar) ayrılır. Genlikleri normalize etmek amacıyla her kısmi band için
ölçeklendirme faktörleri tanımlanır ve iletilir. Ses işareti uygulamaya bağlı olarak, işaret
bozulmaları duyulmayacak veya duyulacak, ama rahatsız etmeyecek kadar sıkıştırılır.
Bu nedenle alıcının yapısı çok daha basit olabilir. Farklı kalite beklentileri için, audio işaretlerini
işleme modelleri olarak üç tabaka (layer I...III) öngörülmüştür.
Donanımı en basit olan birinci tabaka en düşük veri sıkıştırmasına
ve ona göre de bir niteliğe sahiptir. En yüksek veri sıkıştırması ve
bununla birlikte en karmaşık devre ise üçüncü tabakada söz konusudur.
Bunların uygulamaları sayısal küçük kaset (DCC; 1. tabaka) ve sayısal
ses yayınlarıdır (DAB; 2.tabaka). Öznel dinleme testlerinde bir stereo işaretinin
1. tabakada 384 Kbit/s ve 2. İle 3. tabakada da 256 Kbit/s ile CD niteliğinde
kodlanabileceği saptanmıştır. 192 Kbit/s’de ise 2. ve 3. tabakada
sadece kritik test işaretlerinde hatalar duyulabilmiştir. Hatta bir stereo
işareti için 128 Kbit/s’de bile 3. tabaka, çok kritik olan birkaç test
örneği dışında CD niteliğine çok yaklaşmaktadır. MPEG-1’de ses işaretlerinin karakterlerine
göre çeşitli kodlamalar ön görülmüştür: Tek kanallı kodlama (mono
işaretler), çift kanallı kodlama, stereo kodlama ve ortak (joint) stereo
kodlama. 4.1 MPEG-1 BölümleriMPEG-1
tam olarak beş bölümden oluşan bir standarttır: ISO/IEC
11172-1: 1993: Bilgi teknolojisi - Dijital depolama ortamları için
hareketli resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s
oranında kodlanması-Bölüm 1: Sistemler (Part 1: Systems) ISO/IEC
11172-2: 1993: Bilgi
teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve
birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm
2: Görüntü (Part 2: Video) ISO/IEC
11172-3: 1993: Bilgi
teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve
birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm
3: Ses (Part 3: Audio) ISO/IEC
11172-4: 1993: Bilgi
teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve
birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm
4: Uygunluk testi (Part 4: Conformance testing) ISO/IEC
11172-5: 1993: Bilgi
teknolojisi - Dijital depolama ortamları için hareketli resimlerin ve
birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında kodlanması-Bölüm
5: Yazılım simülasyonu (Part 5: Software simulation)
Şekil 4.1 - Tipik bir ISO/IEC 11172 kod çözücü Şekil 4.1’de görüldüğü gibi MPEG-1 standardı ses ve görüntüden alınan bir veya daha fazla veri akışlarının zamanlama bilgisiyle birlikte birleştirerek tek bir akış haline getirilmesi problemi ile ilgilenir. Bu fonksiyon önemlidir çünkü veri akışı tek bir dizi halinde birleştirilirse dijital depolama veya dönüşüm için çok uygun hale gelir. 4.1.2
Görüntü
625
satır (line) ve 525 satırlık görüntü dizilerini 1.5 Mbit/s bit oranı
çevresinde sıkıştırmada kullanılan kodlama algoritmaları belirtilir.
Bölüm 2 1.5 Mbit/s devamlı transfer oranı isteyen depolama
ortamlarını prensipte çalıştırmak üzere geliştirildi. Bununla
birlikte daha geniş bir çerçevede kullanılabilir. Çünkü genel bir
yaklaşım sergilenmiştir. Yüksek
sıkıştırma oranları elde edebilmek için birden fazla teknik kullanılabilir.
Birincisi sinyal için ayrılmış uzaysal bir çözünürlük seçmektir.
Bundan sonra algoritma zamansal gereksizliği (temporal redundancy)
indirgemek için blok tabanlı hareket kompanzasyonu kullanılır. Hareket
kompanzasyonu şu durumlarda kullanılır; ·
Bir
önceki resimden o andaki resmi tahmin etme (nedensel tahmin) ·
O
anki resmi ilerdeki bir resimden fark etme (nedensel olmayan tahmin) ·
Geçmişteki
resimlerden gelecekteki resimlere değer biçerek tahmin
Şekil 4.2 - Zamansal resim yapısı örneği Fark sinyali, tahmini hata uzaysal korelasyonu ortadan kaldırmak için DCT kullanılarak sıkıştırılır ve kuantalanır. Son olarak hareket vektörleri DCT (ayrık kosinüs dönüşümü) bilgisi ile birleştirilir ve değişik uzunluk kodları kullanılarak kodlanır. Şekil 4.2 standart içinde kullanılan üç ana tip resmin mümkün olan kombinasyonlarını açıklamaktadır. 4.1.3
Ses
Mono
ve stereo ses dizilerinin her ikisinin de sıkıştırılabilmesi için
kodlanmış bir temsili belirtir. Algoritması şekil 4.3’de açıklanmıştır.
Giriş ses bilgileri kodlayıcıya beslenir. Haritalama (mapping), alt örneklenmiş
(subsampled) ve filtrelenmiş giriş ses bilgisinin sunumunu oluşturur.
Fizyoakustik model, nicelendiriciyi kontrol etmek ve kodlama yapmak için
bir veri kümesi meydana getirir. Nicelendirici ve kodlama bloğu haritalanmış
giriş örneklerinden bir grup kodlama sembolleri oluşturur. "Çerçeve
Paketleyici" blok diğer blokların çıkışlarından hakiki bit akışlarını
toplar ve diğer gerekli bilgileri ekler (örnek olarak; hata düzeltmeleri
- error correction).
Şekil 4.3 - Ses
Kodlayıcının Basit yapısı 4.1.4
Uygunluk Testi
Bit
akışları ve kod çözücülerin MPEG-1 standardının 1,2 ve 3 numaralı
bölümlerinde belirtilen gerekliliklerle uyuşup, uyuşmadığını
belirlemek için yapılacak olan testlerin ne şekilde dizayn edileceğini açıklar.
Bu testler şu kişiler tarafından kullanılabilir; ·
Kodlayıcı
üreticileri ve onların müşterileri tarafından, kodlayıcının geçerli
bit akışları üretip üretmediğini kontrol etmek için kullanılır. ·
Kod
çözücü üreticileri ve onların müşterileri tarafından, kod çözücünün
talep edilen kod çözücü yeteneklerine göre standardın 1,2 ve 3 numaralı
bölümlerinde açıklanan gerekliliklere uygunluğunu kontrol etmek için
kullanılır. ·
Uygulamalar
tarafından, verilen bit akışının karakteristiklerinin uygulama
gereksinimlerini karşılayıp karşılamadığını kontrol için kullanılır.
Örnek olarak; kodlanmış resmin boyutunun, uygulama için izin verilen
maksimum değeri aşıp aşmadığını anlamak gibi. 4.1.5
Yazılım Simülasyonu
Teknik olarak bir standart değildir. Fakat teknik
bir rapordur. MPEG-1 standardının ilk 3 bölümü için tam yazılım
uygulaması verir. Kaynak kodlara açıkça ulaşılamaz.
4.2 MPEG-1 Sözdizimi Hakkında Detaylı BilgiKısaltma
Moving
Pictures Experts Group (Hareketli Resimler Uzmanları Grubu)
Resmi Başlık : Resim, Ses ve Multimedya/Hipermedya
Bilgisinin Kodlanmış Temsili
ISO CD 11172 Başlığı : Information Technology - Coding of
moving pictures and associated ses for digital storage media at up to about
1.5 Mbit/s (Bilgi teknolojisi - Dijital depolama ortamları için hareketli
resimlerin ve birleştirilmiş ses bilgisinin ortalama 1.5 Mbit/s oranında
kodlanması) Başlangıç
ISO/IEC
JTC1/SC2 - WG 11 (Kasım 1991'den önce)
ISO/IEC JTC1/SC29 - WG 11 (şu anki hali) Nedeni
Sayısal görüntü verileri, sayısal ses verileri ve zamanlama
bilgisinin tek bir dizi veri akışına birleştiren Uluslararası standart
oluşturma Kullanıcılar
Yaklaşık 1.5 Mbit/s veri oranını destekleyen ortamlar; DC (Compact
Disc), Dijital Ses Teybi v manyetik harddiskler örnek verilebilir. Kontrol
Telif Hakkı
ISO/IEC
Markalar
Yok
Telif Hakkı Ücreti
Konu ile yaklaşık olarak 30 patentli olmasına rağmen kesin bir
anlam bulunmuyor. Versiyonlar
Komisyon Taslağı (Committee Draft - CD) Kasım 1991
Taslak Uluslararası Standart(Draft International Standart-DIS) Mart
1992
Uluslararası Standart (IS) Mart 1993 Genel Tabakalar Sistem
Tabakası
Görüntü Tabakası
Ses Tabakası Sistem Tabakası
Esas Veri tipi
Veri paketlerini zamanlama ve Senkronizasyon
Renk Temsili
Yok
Veri Organizasyonu
Ardışıl (Sequential)
Veri Kodlaması
İkili (Binary)
Veri Sıkıştırması
Yok Veri Organizasyonu Veri Akışının
Genel Sözdizimi Aşağıdaki gibidir;
Renk Temsili
YCrCb (4:1:1)
Veri Organizasyonu
Ardışıl (Sequential)
Veri Kodlama
İkili (Binary)
Veri Sıkıştırma
DCT : Tek (kişisel- individual) Çerçeve Görüntüleri için
Farklılaştırma (hareket kompanzasyonu ile) : Zamansal Sıkıştırma
için (Çerçeveler arası) Görüntü Tabakası I-Resimleri (Intra
Pictures- İçsel Resimler) Veri Tipleri
P-Resimler (Predicted Pictures - Kestirmli Resimler)
B-Resimler (Bidirectional Pictures - Çift Yönlü Resimler) Görüntü Tabakası Veri akışının asıl
sözdizimi
Dizi Başlığı
Bir veya daha fazla resim grubuna ait bilgi içerir.
Aşağıdaki
en/boy oranları tanımlanmıştır; Kod
Boy/En
Örnekler
0000
Tanımlanmadı
Yasaklandı, kullanılamaz 0001
1,0000
VGA, çoğu bilgisayar monitörlerinde 0010
0,6735 0011
0,7031
16:9 oran, 625 çizgi 0100
0,7615 0101
0,8055 0110
0,8437
16:9 oran, 525 çizgi 0111
0,8935 1000
0,9375
CCIR 601,525 Çizgi; 720x576 4:3 oranında 1001
0,9815 1010
1,0255 1011
1,0695 1100
1,1250
CCIR 601,525 Çizgi; 720x576 4:3 oranında 1101
1,1575 1110
1,2015 1111
Tanımlanmadı
İleride tanımlanmak üzere geri çevrildi Aşağıdaki
Resim oranları tanımlanmıştır; Kod
Resim/Saniye
Örnekler
0000
Tanımlanmadı
Yasaklandı, kullanılamaz 0001
23,976 0010
24
Film 0011
25
PAL/SECAM Görüntü (noninterlaced) 0100
29,97
NTSC Görüntü (noninterlaced) 0101
30 0110
50
PAL/SECAM Görüntü (interlaced) 0111
59,94
NTSC Görüntü (interlaced) 1000
60 1001
Tanımlanmadı ......
Daha sonra açıklanmak için geri çevrildi 1111
Tanımlanmadı Resim
Grubu (GOP) Başlığı
Resim
grubu (GOP-Group of Pictures)1 adet I-resmi ve 0 veya daha fazla B- ve P-
resimleri içerir.
Kod
Resim Kodlama Tipi
000
Tanımlanmadı (yasaklandı) 001
I resimleri (Intra-coded) 010
P Resimleri (Predicative-Coded) 011
B Resimleri (Bidirectionally-Predicative-Coded) 100
D Resimleri (DC-Intra-Coded) 101
Tanımlanmadı (İleride kullanılmak üzere bırakıldı) Dilim Başlığı
Bir
dilim 1 veya daha fazla makroblok içerir.
Parlaklık
Renklilik
Veri değişken uzunluk (Huffman) kodları kullanılarak kodlanır.
Bu yüzden aşağıdaki veri değerleri bit veya byte sayıları içermez; Adres
Artırımı
Atlanan Makroblokların sayısını gösterir (bir önceki resimden
farkı olmayan makrobloklar atlanabilir) Makroblok
Tipi
Bu blok için nicelendirmenin değişip değişmediğini ve kodlamada
ileri hareket vektörümü yoksa geri hareket vektörümü kullanıldığını
belirtir. Nicelendirme
Oranı
Makrobloğu oluşturan 6 veri bloğunun nicelendirme seviyelerinin
indirgenmesi veya yükseltgenmesi için kullanılır. Hareket
Vektörleri
İleri yatay, ileri dikey - Geri yatay, Geri dikey Kodlanmış
Blok Deseni Makroblok içinde
o anda 6 bloktan hangisinin bulunduğunu belirler (bir önceki resimden değişmeyen
bloklar kodlanmak zorunda değildir). Veri
Bloğu
8x8 blok piksel değerlerinin DCT (ayrık kosinüs dönüşümü)
tarafından dönüşümünün ardından Hufmann kodlamasına tabi tutulan
katsayıları içerir. Katsayılar zikzak düzende sıralanır ve çalışma-uzunluğu
kodlanır. Dosya
Adı Soneki
.mpg |