ana sayfa : araştırma : mpeg görüntü : mpeg ve terimler [ 1 / 9 ]

GERİ

BÖLÜM 1

MPEG ve TERİMLER

MPEG ile ilgili çok fazla terim kullanılmaktadır. Bu terimlerin bazıları diğer standartlarda da kullanıldığı gibi bazıları da sadece MPEG’e has olarak kullanılmaktadır. Bu bölümmde ilk olarak MPEG sıkıştırmasının nedenlerine daha sonrada bu standartlarda kullanılan genel ve özel terimlerin manalarına göz atılacaktır.

1.1 Sayısal Görüntü İşleme ve Sıkıştırma Nedenleri

Resim işaretini sayısal olarak kodlamak için önce işaretin örneklenmesi ve her örnek (piksel) için kullanılacak bit sayısının belirlenmesi gerekir. Standart TV sistemleri için 15 MHz civarında örnekleme hızları ve renkli resim için 24 bit/piksel'lik kodlama kullanılır. Bu hızda bile veri hızı 300 MB/s’nin üzerine çıkar. HDTV (High Definition TV-Yüksek Çözünürlüklü Televizyon) sistemlerinde ise veri hızı 1 GB/s’den fazla olacaktır. Bu kadar yüksek bir veri hızında TV işaretlerinin iletilmesi ve saklanması pratik olarak uygulanabilir değildir. Bu durumda yapılacak tek iş sayısallaştırılmış işaretin özel tekniklerle sıkıştırılarak veri hızının makul seviyelere çekilmesidir. 10 MB/s gibi makul hızlara inebilmek için de 100:1 gibi oranlarda bir sıkıştırmaya gerek vardır.

Sıkıştırma yöntemleri işaretteki gereksiz tekrarların atılması ve insan gözünün doğrusal olmayışı esaslarına dayanır. Sabit resimlerde uzaysal benzerlikler, hareketli resimlerde ise hem uzaysal (Resim İçi) hem de zaman içindeki (Resimler Arası) benzerlikler kullanılarak büyük sıkıştırmalar yapılabilir. Sabit resimlerde 10:1 ile 50:1, hareketli görüntülerde ise 50:1 ile 200:1 oranlarında bir sıkıştırma yapılabilmektedir. Ancak bu kadar yüksek sıkıştırmalar için görüntü kalitesinde az da olsa bir kayıp söz konusudur. Kayıpsız sıkıştırma yöntemleri de mevcut olmakla beraber bu yöntemlerle elde edilebilen sıkıştırma oranları çok düşüktür (3:1 gibi). Bu tür yöntemler sadece tıp cihazlarında ve özel işlerde kullanılır.

Kayıplı yöntemler, insan gözünün renk işareti için ayırıcılığının az olması gibi fizyolojik özelliklerini de kullanır. Örnek olarak yayın kalitesinde bir video işaretinde parlaklık işareti (Luminance) 720x480 piksel ayırıcılığa sahipken renk işareti ayırıcılığı sadece 360x240 pikseldir. Ayrıca renk bilgisi daha az bit sayısı ile tanımlanabilir. Sonuç olarak renk için gerekli toplam bit sayısı, parlaklık işareti için gerekli olandan çok daha az yapılabilir.

İnsan gözü görüntüdeki ince detaylara veya yüksek uzamsal frekanslı enerjilerdeki seviye değişikliklerine daha az duyarlıdır. Buna bağlı olarak yüksek uzamsal frekanslı bileşenler daha az sayıda bitle kodlanabilir.

Bütün bu özellikler kullanılarak yapılan kodlamalarla 100:1 gibi çok yüksek sıkıştırma oranlarında bile orijinal görüntüye çok yakın görüntüler elde edilebilir.

Ses izlerine (track) eşlik eden resim çerçeveleri dijital formda temsil edilmeye çalışıldığı takdirde çok geniş çapta depolama alanı işgal eder. Örneğin, bir dizideki resimlerin ayrık ızgaralar veya diziler (360 resim elemanı (pel[1])/ızgara çizgisi ve 288 çizgi/resim) şeklinde temsil edildiğini düşünün, ki bu MPEG-1'dekine oldukça benzer bir durumdur. Resim dizilerinin renkli olduğunu farz edersek her resim için 3-renk ayırma (3 temel renk= kırmızı, yeşil, mavi = RGB-Red Green Blue) kullanılabilir. Eğer ayrımdaki her renk bileşeni 360x288 çözünürlük ve 8 bit duyarlıkta örneklenirse, her resim yaklaşık olarak 311 Kbyte yer kaplayacaktır. Eğer hareketli resimler sıkıştırılmadan 24 resim/saniye oranında gönderilmeye çalışılırsa, dizi için ham veri oranı aşağı yukarı 60 Mbit/s olacaktır ve 1 dakikalık görüntü klibi ise 448 Mbyte yer kaplayacaktır.

Ses izleri (track) için veri oranları tamamen korkunç değildir. Ses izleri stereo ise ve her iki kanal 44Khz örnekleme oranında ve 16 bit duyarlıkta örneklenirse, veri oranı yaklaşık olarak 1,4 Mbit/s olacaktır.


MPEG'in çözmeye çalıştığı ve işaret ettiği problem, CD-ROM (compact disk -read only memory) gibi dijital depolama ortamlarına uygun hale gelebilecek şekilde sıkıştırmanın, ses bilgileri içeren hareketli resim grubuna nasıl uygulanacağıdır. Problemin büyüklüğü hemen yansıyacaktır ki, yüksek kalitede CD ses çoğaltmada kullanılan dijital depolama teknolojisiyle tamamen aynıdır. Görüntü bilgisi ile birlikte yüksek kalitede ses izlerinin ikisi beraberce, hemen hemen, normalde sadece bir ses bilgisinin tek başına kapladığı alanla aynı büyüklükteki bir alana sığıştırılmalıdır. Ayrıca, bu işlem ses ve görüntü bit akışlarının tam zamanlı kontrolü ve senkronizasyonu ile gerisarıma (playback) izin verecek şekilde yapılmalıdır. Herhalde bu sebepler sıkıştırmaya gereksinimin açıkça ifadesidir. Aşağıda sıkıştırma metodları için ortak olan tipik bir şekil verilmiştir.

Şekil 1.1 - Sıkıştırma Metodlarının Tipik Birleşimi

1.2 Terimler

1.2.1 Diziler, Resimler ve Örnekler


Bir MPEG görüntü dizisi sabit zamanlı artıştan oluşan resimlerden (genellikle) oluşur.

Şekil 1.2 - MPEG Görüntü Dizisinin Şekilsel Gösterimi

Çünkü resimler renklidir ve her resim 3 bileşen sahip olmalıdır. Renk bir parlaklık (luminance) bileşeni ve iki renk (chrominance) bileşeni terimleri ile gösterilir. Parlaklık (luminance) tek renkli bir resim (monochrome) ortaya koyarken iki renk (chrominance) bileşeni de bir resimdeki renk ayrıntısı (hue) ve doyum (saturation) eşitliğini gösterir. Bunun yanında bu bileşenler (parlaklık ve renk) RGB temelleri ile benzer değildirler.

Bir resimdeki her bir  bileşen 2 boyutlu ızgara veya dizi örneklemelerinden oluşur. 2 boyutlu ızgara içindeki örneklerin her bir yatay çizgisine ızgara çizgisi (raster line) denir ve ızgara çizgisi içindeki her bir örnek o noktadaki bileşen yoğunluğunun dijital olarak temsilidir. Bununla birlikte parlaklık ve renklilik bileşenleri mutlaka aynı örnekleme ızgarasına sahip olacaklar diye bir kaide yoktur. Çünkü göz, bir renklilik (chrominance) bileşenindeki hızlı uzaysal değişiklikleri parlaklık (luminance) bileşenindeki değişiklikler kadar kolay çözemez (farkedemez), böylece renklilik bileşenleri tipik olarak düşük uzaysal çözünürlüklerde örneklenir.

1.2.2 Çerçeveler ve Alanlar

NTSC, PAL veya SECAM[2] gibi analog görüntü yayın standartlarında görüntü dizileri zamansal olarak çerçevelere ve ızgara çizgilerine bölümlenir (şekil 1.2’deki ile aynı tarzda). Bununla beraber her ızgara çizgisindeki sinyal dijital değil analogdur. Ayrıca aşağıdaki şekilde de gösterildiği üzere her çerçeve iki karıştırılmış (interlaced) alana bölünür. Her alan tüm çerçevenin yarısı kadar bir ızgara çizgisine sahip olur ve değişimli alanlara ait olan diğer ızgara çizgileri gibi atlamalı alanlar bulunur. Bu yüzden çerçeve tekrar oranı alan oranının yarısıdır.

Analog görüntü çerçeveleri ve MPEG resimleri arasındaki ilişki MPEG-1 için tanımlanmamıştır ve ayrılmış 2-D resimler bu alan/çerçeve formatından çıkartılmıştır. MPEG-2'ye yapılan ilaveler tek alan veya tüm çerçeveler olarak kodlanan karıştırılmış (interlaced) resimlere müsaade etmektedir. Tipik TV boşluk aralıklarını gizli tutmak için overscan denen bir metod uygular. Böylece bu alanlar normal olarak görünmez olur. Resimler MPEG kodlayıcıya gönderilmeden önce boşluklar genellikle atılır.

 

1.2.3 Pel (Resim Elemanı) ve Piksel

Bir resim içindeki özel bir noktadaki bileşen örnek değerleri pel'i (picture element = resim elemanı) oluşturur[3]. Eğer her üç bileşen de aynı örnekleme ızgarasını kullanırsa her pel her bileşenden birer tane olmak üzere üç örneğe sahip olur. Bununla beraber, daha önce de bahsedildiği üzere göz renk bilgisinde meydana gelen hızlı uzaysal değişikliklere karşı duyarsızdır. Bu nedenle MPEG-1 her boyut için 2 kez daha az çözünürlüğe sahip renk ızgarası kullanarak renk bilgisi sağlayan bileşenlerin alt örneklemesini yapar. Böylece pel yüksek örnekleme çözünürlüklerinde renk temsili olarak tanımlanabilir. Fakat bu, pel'i oluşturan her örnek o çözünürlükde olacak demek değildir. MPEG-1 resim elemanları (pel) şekil 1.3’de gösterilmektedir.

 


Şekil 1.3 - MPEG Resim Elemanlarının Bileşen Örnekleri

Not: Bir pel içindeki bileşenleri düşük çözünürlüklerde örneklediğiniz zaman en yüksek çözünürlük örneklemelerine bağlı olarak düşük çözünürlük örneklemelerinin pozisyonlarını tanımlamak durumundasınız.

1.2.4 Sıkıştırma Terimleri

MPEG tarafından kullanılan sıkıştırma teknikleri basit olarak iki sınıfa ayrılır, intra (içsel) ve nonintra (içsel olmayan). Intra teknikler bir resmi sadece o resimden bilgi alarak sıkıştırır. Nonintra teknikler ise zaman içinde yer değiştiren diğer bir veya iki resimden bilgi alarak  sıkıştırır.

Veri sıkıştırıcısına giren veri genellikle kaynak veri (source) olarak adlandırılırken veri çözücüsünden çıkan veri de yeniden inşa edilmiş veri (reconstructed) olarak adlandırılır. Yeniden inşa edilmiş veri ve kaynak verinin farksız olduğu bazı sıkıştırma tekniklerine genel olarak kayıpsız (lossless) adı verilir. Diğer tekniklerde yeniden inşa edilmiş veri sadece kaynak veriye yaklaşık olarak elde edilir. Bunlara kısaca kayıplı (lossy) denir. Bu iki sıkıştırma tekniği sınıfları arasındaki fark son derece önemlidir. Çünkü kayıpsız sıkıştırma normal olarak kayıplı sıkıştırmaya oranla daha az verimlidir(bit/pel kurallarına göre). Çoğu veri sıkıştırma algoritmaları kayıplı ve kayıpsız unsurları birleştirmektedir. Kayıplı unsurlar, ayırıcılık uygulanarak veri içersinde gözle görülemeyen veya kulakla duyulamayan yapılara aldırmadan genellikle çok etkileyici sıkıştırmalar elde edilir.

1.3 MPEG Sıkıştırmasına Genel Bakış

Veri sıkıştırmada ve görüntü kodlamada bir çok yöntem olmasına karşın, belki de hareketli resimleri sıkıştırmada resim dizileri arasındaki benzerlik anahtar kısmı oluşturmaktadır. Bu benzerlik iki resim arasındaki farklar alınarak daha açık bir şekilde görülebilir. Bu olay şekil 1.4’de örülebilir.


 

Şekil 1.4 - Tenis Görüntü Dizisinin 30 ve 32'inci Resimleri

Bu fark resimlerinde, Nötr gri olan yerler sıfırın pel farklılıklarını, orantılı olarak olrlak olan kısımlar pozitif farklılıkları, orantılı olarak koyu olan kısımlar negatif farklılıkları belirtir.


En görülebilir farklılıklar (şekil 1.5’de görüldüğü üzere), top gibi hareketli nesnelerin olduğu kısımlarda olmaktadır.

Şekil 1.5 - Resim Farklılıkları; (a) Basit Faklılıklar, (b) Hareket Kompanzasyonlu Farklılıklar

Genel bir kural olarak bir resim içersindeki az hareketlilik (daha küçük farklılıklar) daha mükemmel bir sıkıştırmaya ulaşılmasına neden olur. Eğer hiçbir hareket yoksa, mesela resmin orta noktalarında hiçbir fark oluşmuyorsa , o zaman görüntü dizisi tek bir resim olarak kodlanır ve ardında da birkaç bitle -ardından gelecek resimleri kod çözücüye tekrar etmesini söyleyecek bilgiler- yollanır. Bu da MPEG 'in tam olarak ne yaptığını açıklamaya yeterli olabilir. Tabii ki tamamen değişmeyen çerçevelerin kodlanması çok özel bir durumdur ve daha çok tipik resim çerçevelerinin kodlanması için kullanılmalıdır. Dizi herhangi bir yerden başlamalı ve buna göre bir kodlama tekniği gereklidir ki birinci resmi diğer komşu çerçevelerden referans almadan kodlasın. Sonuç olarak bu teknik tipik bir düzgün aralıklarla ilerleyen resim dizisinde kullanılmalıdır. Eğer bir görüntüdeki resim dizisi içersindeki bazı resimler arada sırada komşu resimlerden referans almadan kodlanmışsa, yapılmış olan kodlamayı geri dönüştürmek çok zor bir hale gelir. Bunun yanında dönüştürme işlemi sırasında meydana gelen bit hataları veya orijinal kaynak resimle kod çözücüde yeniden inşa edilen resim arasında meydana gelmesine izin verilen küçük farklılıklar oluşur. Bu sebepleri de göz önüne aldığımızda kod çözücü tarafından yeniden oluşturulacak olan resimlerde kabul edilemez seviyelerde bozukluklar olacaktır.

MPEG uygulamaları tarafından ihtiyaç duyulan sıkıştırma işlemi, görüntü dizisi içindeki çoğu resmin diğer komşu resimlerle olan farklılıkların gözönüne alınmasıyla başarılmıştır. MPEG bunu birkaç değişik yolla gerçekleştirir: Resmin bazı bölümleri -önemli değişikliklerin meydana gelmediği- basitçe kodlanır. Diğer bölümler bitişik resimlerle karşılaştırılarak hatalar önceden kestirilir ve düzeltmeler kodlanır. Resim içersindeki devinimden dolayı diğer bölümler hala en kolay tahmin edilebilir bölümlerdir ve bu da hareket kompanzasyonu (motion compensation) denilen bir tekniği gerektirmektedir. Mesela, resimlerin çevresel bölümlerinde (şekil 1.4’de ), kamera çekimi resmin iç bölgelerinde simetrik ( a'dan b'ye doğru) bir yer değişimini algılar. Bu farklılıklar şekil 1.5 ‘de resmin çevresel alanlarında daha açık bir biçimde görülmektedir.

Şekil 1.5’de görüleceği gibi, kodlayıcının resim-a ile resim-b arasındaki benzerlikleri bularak çalışması farklılıkları bayağı bir indirger. Resim parçalarının devinimi sırasında, şekil 1.4-(a) ve (b)'de verilen bölgelerde, hareketten dolayı benzer yönler birazcık değiştirilir. Eğer (a) 'nın pozisyonu fark oluşmadan önce fark miktarı kadar kaydırılacak olursa, (b) resmi elde edilir. Şüphesiz, hareket kompanzasyonu aktivitelerin çoğunu elemektedir.

Resimlerin bazı bölümleri referans resimlerle benzer olmayan yeni içeriklere sahip olabilirler - Mesela, bir nesnenin hareketinden dolayı daha önceden görünmeyen alanların ortaya çıkması ve kamerayla çekim yapılırken sağa sola gezdirmelerden dolayı resme daha önce girmeyen yeni alanların girmesi durumları gibi. Resmin bölümlerinin böyle olduğu durumlarda işlemler bitişik resimler referans alınmadan yapılır. Ama yinede bazı durumlarda zaman içinde geri yönde tahmin yaparak, bir sonraki resmin kodlanmış ve dönüştürülmüş olduğu düşünülerek işlem yapılır. Sıkıştırma sistemlerinin dokunulmaz kuralı, bu tahminlerin sadece kod çözücüden alınacak bilgiler doğrultusunda yapılabileceğidir.

 MPEG kodlayıcı ve MPEG kod çözücüler arasında çok geniş bir asimetrik bağ vardır. Bu ilişki, hareket kompanzasyonuna bağlı olarak karmaşıklık ve sayısal gereklilik kurallarına dayanır. Kodlayıcının görevi hareket yer değiştirmelerini (vektörlerini) bulmak iken kod çözücü sadece kodlayıcı tarafından kendisi için dönüştürülmüş değerleri kullanır. Kodlayıcı, kod çözücüye ne gönderileceği konusunda belirleme yaparken çok zor aşamalardan geçer fakat kod çözücü sadece ne yapması istenmişse onu yapar.

1.4 MPEG Uygulamaları

MPEG beklenilen bir standart olarak ortaya çıkmasına rağmen çeşitli uygulama alanlarında kabul edilebilirliği çok hızlı bir şekilde gelişmiş ve önde gelen onaylı bir işlem olmuştur. Örnek olarak, standart onaylanmadan önceleri yazılımlar, multimedya bordları MPEG-1 tamamlama yongaları halihazırda kullanımda idiler. Oyunlar, CD-ROM filmleri, dijital TV ve çoklu ortam (multimedya) ise şu anda kullanılan uygulamadan sadece birkaçıdır. Gerçekten, 12 Ocak 1996 tarihli, Wall Street Journal [TR96] 'ın "Dolandırıcılar Satellite (uydu) TV 'nin dijital kodlarını kırdılar" başlıklı manşetinde de işaret ettiği gibi dijital uydu TV uygulamalarının finansal olarak ne kadar önemli hale geldiği açıktır.

Komite, MPEG-1'in hiç değiştirilmeden ulaşılmış teknik bir anlaşma olarak kalması yönünde çok fazla çaba sarf etti. Bu, erken uygulamaları için yeterli ve uygun oldu fakat aynı zamanda standardın başından değiştirilmiş ve yüksek bant genişliklerinde adreslemeye ihtiyacı olan MPEG-2 ile beraberliğini engelledi. Bu olay MPEG-2'nin gelişimindeki anahtar sebeplerden sadece biri idi.

MPEG-2'nin kabul edilebilirliği biraz daha hızlı oldu. Amerika, Avrupa ve Japonya'daki yüksek yoğunluklu TV (High Definition TV-HDTV) standartlarında kullanımı beklendi ve aynı zamanda yaygın çözünürlüklerde yüksek kaliteli dijital görüntü yayınlarında kullanılacak olması beklendi. Gerçekten, bu son uygulama için kullanılan kod çözücülerin yayılması MPEG-2'nin son şeklini almasına kadar ertelendi.




[1] Pel=picture element (resim elemanı) kelimelerinin başlarındaki harflerin birleşimi.

[2] NTSC, PAL, SECAM genellikle kullanılan 3 analog video formatıdır. Sırasıyla National Television System Committee, Phase Alternating Line ve Sequentiel Couleur A Memorie isimlerinin baş harflerinden oluşmaktadırlar.

[3] Piksel de Resim Elemanı (picture element) için kullanılan bir kısaltmadır fakat MPEG standardı içersinde nadiren kullanılır.