|
Τι Εστί MP3
Κατ' αρχάς, το MP3 είναι ένα αρχείο: αρχείο υπολογιστή, που μπορούμε να το
αποθηκεύσουμε στο σκληρό μας δίσκο, όπως κάνουμε με όλα μας τα αρχεία, τα
έγγραφα, τις εικόνες κ.λπ. Όπως κάθε αρχείο υπολογιστή περιέχει κάτι, έτσι
και το συγκεκριμένο αρχείο περιέχει ήχο. Πρόκειται λοιπόν για ένα αρχείο
ήχου. Τα κλασικά αρχεία ήχου στα Windows είναι τα WAV, αυτό όμως δεν
σημαίνει ότι δεν υπάρχουν και άλλα. (Και για τις φωτογραφίες το ίδιο ισχύει.
Ο βασικός τύπος αρχείου εικόνας στα Windows είναι ο BMP, αλλά υπάρχουν και
πολυάριθμοι άλλοι τύποι, όπως το JPG και το GIF.)
Εφόσον το MP3 είναι αρχείο ήχου, εάν το ανοίξουμε, πρέπει να ακούσουμε ήχο.
Φυσικά, για να συμβεί αυτό, πρέπει να διαθέτουμε κάποιο πρόγραμμα που το
ανοίγει. Το βασικό προγραμματάκι που ανοίγει αρχεία MP3 λέγεται MP3 Player
(πρόγραμμα αναπαραγωγής MP3). Με την εξέλιξη των πραγμάτων, τη δυνατότητα να
ανοίγουν αρχεία MP3 την ενσωμάτωσαν πάρα πολλά προγράμματα, ιδιαίτερα αυτά
που ασχολούνται με την αναπαραγωγή πολυμέσων. Κλασικό παράδειγμα είναι το
ενσωματωμένο στα Windows πρόγραμμα αναπαραγωγής πολυμέσων, ο Windows Media
Player, ο οποίος από την έκδοση 5.2 ανοίγει και αρχεία MP3. Ανοίγοντας ένα
αρχείο MP3, ακούμε τους ήχους που περιέχει. Μπορεί να είναι κάθε είδους
ήχος, αλλά συνήθως είναι τραγούδια. Και γιατί, θα αναρωτηθεί κανείς, πρέπει
να αποθηκεύουμε τα τραγούδια μας σε αρχεία MP3, ενώ μπορούμε να κάνουμε το
ίδιο χρησιμοποιώντας τον στάνταρτ τύπο αρχείων ήχου των Windows, το WAV.
Διότι απλούστατα τα αρχεία MP3 είναι πολύ μικρότερα από τα WAV. Ένα τρίλεπτο
τραγούδι αποθηκευμένο σε WAV έχει μέγεθος αρχείου που ξεπερνά τα 30MB, ενώ
το ίδιο τραγούδι αποθηκευμένο σε MP3 δεν φτάνει ούτε τα 3MB! Όπως είπαμε,
αυτή η διαφορά στο μέγεθος των αρχείων οφείλεται στη συμπίεση των δεδομένων
που γίνεται κατά τη μετατροπή ενός αρχείου ήχου σε αρχείο MP3. Η συμπίεση
αυτή βασίζεται σε έναν πολύπλοκο αλγόριθμο, τον MPEG-Layer 3, από τον οποίο
πήραν και το όνομά τους τα αρχεία MP3 (MPEG-Layer 3).
Το MPEG-Layer 3 είναι ένας απωλεστικός αλγόριθμος συμπίεσης που αναπτύχθηκε
από τo γερμανικό ερευνητικό ινστιτούτο Fraunhofer-IIS σε συνεργασία με το
επίσης γερμανικό Πανεπιστήμιο Erlangen και εταιρείες όπως οι Thomson
Multimedia, CNET και AT&T. (Απωλεστικός αλγόριθμος συμπίεσης είναι αυτός ο
οποίος κατά τη διαδικασία της συμπίεσης χάνει για πάντα κάποιο μέρος της
πληροφορίας.) Ο συγκεκριμένος αλγόριθμος εκμεταλλεύεται μια ιδιαιτερότητα
της ανθρώπινης ακοής, η οποία ονομάζεται ακουστική σκίαση. Ακουστική σκίαση
είναι η δυναμική μεταβολή του κατωφλιού ακουστότητας της ακοής μας ανάλογα
με το συχνοτικό περιεχόμενο του ήχου που ακούγεται. Κατώφλι ακουστότητας
είναι η ελάχιστη ένταση που πρέπει να έχει ένας ήχος για να τον ακούσουμε.
Για κάθε συχνότητα του ακουστικού φάσματος, το κατώφλι ακουστότητας είναι
διαφορετικό και, όπως είπαμε, μεταβάλλεται δυναμικά, καθώς επηρεάζεται και
από τις υπόλοιπες συχνότητες που υπάρχουν στον ήχο που ακούμε. Η ένταση του
ήχου που φτάνει στα αφτιά μας μετριέται σε db SPL (Decibel Sound Pressure
Level). Έχουμε δημιουργήσει μια κλίμακα έντασης ήχων, στην οποία ως 0 έχουμε
βάλει τον πιο αδύναμο ήχο που μπορεί να ακούσει ένα φυσιολογικό αφτί στη
συχνότητα του 1KHz. Αυτό είναι το κατώφλι ακουστότητας για τη συγκεκριμένη
συχνότητα. Το κατώφλι αυτό όμως μεταβάλλεται δυναμικά, ανάλογα και με τις
άλλες συχνότητες που υπάρχουν στον ήχο που ακούμε εκείνη τη στιγμή. Μπορεί
δηλαδή, όταν υπάρχουν και άλλες συχνότητες στον ήχο που ακούμε τη δεδομένη
στιγμή, το κατώφλι ακουστότητας στο 1KHz να μην είναι 0 αλλά 2dB SPL. Το
ίδιο φυσικά ισχύει για όλες τις συχνότητες που ακούει το ανθρώπινο αφτί. Η
περίπλοκη αυτή συμπεριφορά του αφτιού έχει μετρηθεί και έχει καταγραφεί από
τους επιστήμονες, οι οποίοι με τον τρόπο αυτό δημιούργησαν ένα ψυχοακουστικό
μοντέλο.
Κατά την κωδικοποίηση σε MP3, σε κάθε ψηφιακό δείγμα του πρωτότυπου ήχου το
συχνοτικό φάσμα χωρίζεται σε 576 περιοχές και με τη χρήση του ψυχοακουστικού
μοντέλου της ακοής υπολογίζεται το κατώφλι ακουστότητας για κάθε περιοχή τη
δεδομένη στιγμή. Οι πληροφορίες περιεχομένου για ήχους που έχουν ένταση κάτω
από το κατώφλι ακουστότητας απορρίπτονται, αφού δεν τους ακούμε ούτως ή
άλλως. Έτσι, αφού μειώνονται οι πληροφορίες, μειώνεται και το μέγεθος του
αρχείου. Αυτή είναι η βασική αρχή του MPEG-Layer 3. H διαδικασία της
κωδικοποίησης είναι στην πραγματικότητα πιο πολύπλοκη, προκειμένου να λυθούν
τα προβλήματα που προκύπτουν από την εφαρμογή του αλγόριθμου αλλά και από
την επίτευξη μεγαλύτερης συμπίεσης. Για παράδειγμα, κατά τη συμπίεση τα
διαθέσιμα bit μοιράζονται σε καθεμία από τις 576 περιοχές ανάλογα με τις
ανάγκες της, ενώ ακολουθεί και νέα συμπίεση κατά Huffman για να μειωθεί η
κανονικότητα των δεδομένων (εντροπιακή κωδικοποίηση). Για τις δύσκολες
περιπτώσεις, όπου τα διαθέσιμα bit δεν επαρκούν για τη σωστή κωδικοποίηση,
υπάρχουν και κάποια bit εφεδρείας.
Ένα άλλο χαρακτηριστικό των αρχείων MP3 είναι ότι δεν έχουν όλα την ίδια
συμπίεση. Μπορούμε εμείς να καθορίσουμε το ποσοστό συμπίεσης που θα έχει
κάθε αρχείο. Όσο μεγαλύτερο είναι το ποσοστό συμπίεσης, τόσο μικρότερο θα
είναι το αρχείο. Βέβαια, όσο περισσότερο συμπιέζουμε ένα αρχείο, τόσο
περισσότερη πληροφορία χάνουμε, με αποτέλεσμα να αρχίζει να επηρεάζεται η
ποιότητα του ήχου. Το μέγεθος της συμπίεσης που εφαρμόζουμε μετριέται σε
kbps (kbit ανά δευτερόλεπτο), σε ρυθμό ροής δεδομένων δηλαδή και όχι σε
ποσοστό ή λόγο συμπίεσης. Μπορούμε όμως εύκολα να εξαγάγουμε και το ποσοστό
ή το λόγο συμπίεσης, αφού γνωρίζουμε ότι ο ρυθμός ροής δεδομένων του
ασυμπίεστου ήχου είναι 1.360kbps.
Η πιο διαδεδομένη συμπίεση είναι αυτή των 128kbps, η οποία μας δίνει λόγο
συμπίεσης λίγο πιο πάνω από το 1 προς 10, για την ακρίβεια 1.360:128 =
10,625. Μπορούμε να την αυξήσουμε κάτω όμως από τα 96kbps (δηλαδή συμπίεση
1:14) ο ήχος αρχίζει να χαλάει σημαντικά ή να τη μειώσουμε με αντίστοιχη
αύξηση του μεγέθους του αρχείου MP3 και σχετικά μικρή έως ανεπαίσθητη
βελτίωση του ήχου.
Εκτός του MPEG-Layer 3, υπάρχουν και τα MPEG-Layer 1 και MPEG-Layer 2, τα
οποία είναι προγενέστερα και βασίζονται και αυτά στο ίδιο ψυχοακουστικό
φαινόμενο της ακουστικής σκίασης. Οι δύο πρόγονοι του MP3 εφαρμόζουν
λιγότερο πολύπλοκους αλγόριθμους, με τον ίδιο μεν μηχανισμό αλλά με μοίρασμα
του συχνοτικού φάσματος σε 32 περιοχές και χωρίς συμπίεση κατά Huffman και
εφεδρικά bit, με αποτέλεσμα να πετυχαίνουν μικρότερη συμπίεση.
MP3 Γλωσσάρι
Aspect Ratio.
Ο λόγος του οριζόντιου προς το κατακόρυφο μήκος. Λέμε, π.χ., ότι η ταινία
μας στο DVD έχει λόγο εικόνας τέσσερα προς τρία και γράφουμε 4:3. Όταν
μεταβάλλουμε το μέγεθος μιας εικόνας ή κάποιου βίντεο (resizing), καλό είναι
να διατηρούμε τον αρχικό λόγο, ώστε να αποφεύγονται φαινόμενα παραμόρφωσης.
Crispness.
Όρος που αναφέρεται στην οξύτητα των αντιθέσεων μιας εικόνας, με άλλα λόγια
πόσο καλά διακρίνονται οι χρωματικές αντιθέσεις και τα όρια (σύνορα) μεταξύ
γειτονικών σχημάτων (περιοχών).
DCT.
Διακριτός συνημιτονοειδής μετασχηματισμός (Discrete Cosine Transformation).
Πρόκειται για αλγόριθμο ο οποίος μετατρέπει δεδομένα (εικονοστοιχεία,
κυματομορφές κ.λπ.) σε σύνολα συχνοτήτων. Οι πρώτες συχνότητες στο σύνολο
έχουν τη μεγαλύτερη σπουδαιότητα, ενώ οι τελευταίες τη μικρότερη. Όταν
συμπιέζουμε ένα μέρος των τελευταίων αυτών συχνοτήτων, χάνεται, αναλόγως της
ανοχής που έχουμε θέσει για την ποιότητα. Ο αλγόριθμος χρησιμοποιείται στις
διάφορες κωδικοποιήσεις κατά MPEG και JPEG.
Interpolation techniques (bilinear filtering, bicubic
filtering).
Πρόκειται για τις λεγόμενες τεχνικές παρεμβολής, οι οποίες, γενικά,
αναφέρονται σε αλγόριθμους «μαντέματος» ενδιάμεσων τιμών, με βάση κάποιες
άλλες, ήδη γνωστές. Για παράδειγμα, οι τεχνικές χρησιμοποιούνται στην
ψηφιακή επεξεργασία εικόνας, όπου εκεί παράγονται ενδιάμεσα εικονοστοιχεία,
με σκοπό τη βελτίωση της τελικής ποιότητας.
Keyframe.
Πολλοί αλγόριθμοι συμπίεσης βίντεο χρησιμοποιούν μια τεχνική που συνίσταται
στη λήψη καρέ (frame) ανά τακτά χρονικά διαστήματα, και στην αποθήκευση μόνο
των διαφορών του παρόντος καρέ (keyframe) από τα επόμενα. Αυτό έχει ως
αποτέλεσμα να αποθηκεύεται λιγότερη πληροφορία για τα επόμενα καρέ, σε σχέση
με την πληροφορία που θα αποθηκευόταν, εάν κάθε καρέ συμπιεζόταν ανεξάρτητα
από τα άλλα.
Smoothness.
Όρος που αναφέρεται στη λειότητα, με άλλα λόγια πόσο ομαλές θα φαίνονται οι
καμπύλες μιας εικόνας.
Τι Σημαίνει MPEG
Ας δούμε τώρα τι σημαίνει MPEG. MPEG (Moving Pictures Expert Group) είναι η
ομάδα που θέτει τις προδιαγραφές συμπίεσης οπτικοακουστικών δεδομένων
(βίντεο και ήχου). Υπάρχουν διάφορες τέτοιες προδιαγραφές:
* MPEG-1, μέρος της οποίας είναι και οι
προδιαγραφές MPEG-Layer 1, MPEG-Layer 2 και MPEG-Layer 3, (οι οποίες αφορούν
μόνο στον ήχο, ενώ οι προδιαγραφές MPEG-1 αφορούν συνολικά στο βίντεο και
στον ήχο).
* MPEG-2, η οποία αποτελεί μια επέκταση των
προδιαγραφών MPEG-1, όχι σε ό,τι αφορά τους αλγόριθμους συμπίεσης (αυτοί
παραμένουν ακριβώς οι ίδιοι) αλλά σε ό,τι αφορά τις επιπλέον δυνατότητες
(πολλά κανάλια ήχου, μεγαλύτερος ρυθμός δεδομένων κ.ά.).
* MPEG-4, η οποία αφορά και στον ήχο και στην
εικόνα, κυρίως για χρήση στο Internet/Intranet και στις κάθε είδους
παρουσιάσεις πολυμέσων, προσφέροντας ακόμη μεγαλύτερες συμπιέσεις.
|
|