Nie ulega wątpliwości, że pomimo pewnego powrotu do łask w ostatnich latach, wśród pasjonatów dobrego audio, wielu urządzeń analogowych, w tym gramofonów, płyt winylowych, czy wzmacniaczy lampowych, prym w kwestii wysokiej jakości dźwięku wiedzie i prawdopodobnie długo wieść będzie technologia cyfrowa. Choć chyba każdy kocha krążki, kolorowe pudełeczka i regały pełne rozmaitych płyt, olbrzymia ilość muzyki słuchana jest przy pomocy komputerów, często bez udziału fizycznych nośników danych, a przy pomocy serwisów takich jak Deezer, Spotify, Tidal, iTunes, czy YouTube. Wiele osób, często zamiast kolekcją płyt, w stanie jest pochwalić się pokaźną kolekcją empetrójek, czy innych FLACów na dysku.

Te, między inymi, będą właśnie bohaterami dzisiejszej części "Wademekum". Należy wiedzieć, że każdy odtwarzany przy pomocy komputera, telefonu, czy też każdego innego cyfrowego urządzenia dźwięk, przed dotarciem do naszego ucha, poprzez wprowadzenie głośnika w odpowiednie drgania, musi zostać odczytany z odpowiedniego cyfrowego pliku audio. Niezależnie, czy słuchamy muzyki przy pomocy odtwarzacza, z płyty CD umieszczonej w napędzie, czy z dowolnego serwisu muzycznego, plik ten zapisany musiał zostać wcześniej w odpowiednim formacie, posiadać właściwą specyfikacje.

Zapis cyfrowy audio

Każdy plik audio, reprezentować będzie parę wartości, będą to:

Ilość kanałów
Rozdzielczość bitowa
Częstotliwość próbkowania

Powyższa ilustracja, przedstawia wygenerowaną przy pomocy darmowego programu Audacity graficzną wizualizację pewnego pliku audio. Jak łatwo dostrzec, ukazuje ona dwa oddzielne wykresy, oznacza to, że prezentowany plik składa się w rzeczywistości z dwóch ścieżek, oddzielnej dla głośnika lewego, oddzielnej dla prawego. Utwór więc, który analizuję, został nagrany z myślą dwóch kanałach (stereo). Poza takimi nagraniami, w stanie jesteśmy spotkać się również z takimi nagranymi dla kanału jednego (mono), dla czterech (kwadro), spotkać również możemy się z dźwiękiem sześciokanałowym (5.1), czy nawet ośmiokanałowym (7.1). Trzy ostatnie jednak, w przypadku nagrań muzycznych są zdecydowanie rzadkością. Są one za to stosowane często z myślą o zestawach kina domowego i różnego rodzaju wideo. W przypadku większości płyt muzycznych standardem współcześnie jest stereo - ścieżki dwie.

Przy odpowiednio mocnym zbliżeniu na jeden z wykresów, jesteśmy w stanie uzyskać widok, zaprezentowany przez powyższą grafikę. Pierwsze, co powinno się w jej przypadku rzucić nam w oczy, to charakterystyczne punkty rozmieszczone co równą odległość na względem osi pionowej. Owe punkty prezentują przebieg sygnału w czasie. W zależności od tego, z jaką częstotliwością zmieniać będą się wartości sygnału, a więc tego, jak często zmieniać będzie się ich położenie na osi pionowej, uzyskać będziemy odpowiadające tej częstotliwości dźwięki - dla wysokich częstotliwości dźwięki wysokie, dla niskich dźwięki oczywiście niskie. Od wychylenia z kolei, zależeć będzie głośność wydobytego dźwięku. W związku z powyższym, niezwykle zróżnicowane rozmieszczenie punktów na wykresie, powinno nam sugerować, że uzyskany dźwięk będzie wysoki - właśnie taki jest, prezentowany przeze mnie mikroskopijny fragment pliku, to element wykresu dla dźwięku talerza.

Wartość tego, jak często na wykresie rozmieszczone są punkty, nazywamy właśnie częstotliwość próbkowania. Standardem dla płyt CD współcześnie jest rozmieszczenie 44100 takich punktów na jedną sekundę pliku. Oznacza to częstotliwość próbkowania równą 44,1 kHz. W przypadku studia nagraniowego, stosowanymi częstotliwościami próbkowania, są zazwyczaj wartości, będące wielokrotnościami 48 kHz. Czym częstotliwość próbkowania jest większa, tym dźwięk pozostaje bardziej naturalny i szczegółowy, warto wspomnieć również, o tzw. teorii Nyquista, wedle której, dla zachowania odpowiedniego brzmienia odpowiedniego dźwięku, częstotliwość próbkowania musi być dwukrotnie większa, niż częstotliwość właśnie tego dźwięku. Zdaje się to oczywiste - gdyby punkty na naszym wykresie występowały rzadziej, nie możliwe byłoby utworzenie zaprezentowanego na nim kształtu, a więc nie możliwe byłoby uzyskanie odpowiedniej wysokości dźwięku. Standard 44,1 kHz wyznaczono głównie w oparciu właśnie na owym twierdzeniu oraz na fakcie, że zakres słyszalnych dla człowieka częstotliwości mieści się mniej-więcej od 20 Hz do 20 kHz. Wykorzystanie wyższych częstotliwości próbkowania, umożliwia więc również uzyskanie wyższych częstotliwości sygnału.

^{Sygnał analogowy (szary) i cyfrowy (czerwony) spróbkowany ze stałą częstotliwością próbkowania
Źródło: pl.wikipedia.org}

Przejdźmy teraz do kwestii rozdzielczości bitowej. Każdy znajdujący się na wcześniej przedstawionym wykresie punkt, posiadał, jak łatwo zauważyć, swoją wartość. Zbiorem dostępnych wartości dla naszego wykresu, jak łatwo zauważyć, były liczby z zakresu od -1 do 1. Umiejscowienie każdego punktu w osi pionowej, określać musi więc konkretna wartość z przedziału. Wartość ta określana jest przy pomocy odpowiedniej liczby, ta z kolei zapisywana jest w pliku przy pomocy kombinacji zer i jedynek, gdzie jedna określa znak liczby (plus lub minus), reszta jej wartość. Ilość dostępnych do zapisu zer i jedynek, określana jest własnie przez wartość rozdzielczości bitowej pliku. Standardową dla płyt CD rozdzielczością jest tych bitów 16, co oznacza 15 cyfr do dwójkowego zapisu liczby oraz jedną określającą znak. Jak łatwo obliczyć, przy pomocy tylu cyfr, w stanie jesteśmy zapisać 2¹⁶ liczb o różnych znakach, co pozwala nam uzyskać łącznie 65 536 możliwych do uzyskania wartości dla pojedynczego sygnału. Dużo? No cóż, zdecydowanie.

Pliki dźwiękowe o niskiej rozdzielczości bitowej charakteryzować będą się niską dynamiką oraz charakterystycznym szumem. Rozdzielczość 16 bitowa sprawia, że zarówno problemy z dynamiką jak i szum stają się dla człowieka niezauważalne. Mimo to, jak już wspomniałem w poprzedniej części, w studio, dziś często spotkamy się również z nagraniami w rozdzielczości 24 bitowej. Co to oznacza? 16 777 216 możliwych do zapisania wartości! Choć dla ludzkiego ucha różnica pomiędzy tą rozdzielczością, a standardowymi szesnastoma bitami nie istnieje, to przy pracy z nagraniami, chroni ona przed zniekształceniami i niepotrzebnymi artefaktami występującymi przy obróbce.

Podsumowując. Standardowe wartości dla płyty CD, to:

Ilość kanałów - 2
Rozdzielczość bitowa - 16 bitów
Częstotliwość próbkowania - 44100 Hz

Wymnażając te dane, jesteśmy w stanie obliczyć dokładny rozmiar jednej sekundy nagranego na płytę dźwięku.

2 x 16 b x 44100 Hz = 1411200 b/s ≈ 1411 kb/s

Najpopularniejszymi formatami dla takiego typu zapisu dźwięku są:

WAV - Utworzony w 1991 przez firmę Microsoft, wciąż będący najpopularniejszym formatem niekompresowanego pliku dźwiękowego.
AIFF - Opracowany w roku 1988 przez Apple i do dziś wykorzystywany głównie na ich sprzęcie.

Kompresja

Ze względu na stosunkowo wysoki rozmiar plików WAV, także na ograniczenia łącza internetowego, ludzkość powoli szukać zaczęła rozmaitych metod na zmniejszenie rozmiarów pliku audio tak, by z jednej strony łatwo dało się go przechowywać, a z drugiej, by prezentował on przy tym rozmiarze najwyższą możliwą jakość. W ten sposób, z biegiem lat powstawały coraz to bardziej zaawansowane metody kompresji tego typu danych. Rodzaje kompresji możemy podzielić na dwa rodzaje:

Kompresję bezstratną - To jest taką, w przypadku której kompresowany plik zmniejsza swój rozmiar bez najmniejszego uszczerbku na jakości dźwięku.
Kompresję stratną - Charakteryzującą się wykorzystaniem metod kompresji typowych dla kompresji bezstratnej + dodatkowym pozbawieniem nagrania tych dźwięków, które niesłyszalne są dla ludzkiego ucha, a których pozbycie się, w stanie jest nieco odciążyć plik.

Najpopularniejszym formatem bezstratnej kompresji jest FLAC (Free Lossless Audio Codec). Zgodnie z przedstawioną wcześniej definicją, format ten wolny jest od jakichkolwiek strat w jakości, względem oryginalnego pliku dźwiękowego nie różni się niczym i może zostać w każdej chwili zostać zdekompresowany do formatu WAV lub AIFF. Jedną ze sztuczek stosowanych przy kompresji FLAC jest rezygnacja z zapisu konkretnych wartości dla sygnału audio i zastąpienie tej informacji jedynie różnicą pomiędzy konkretnymi próbkami, która to zwykle jest wartością stosunkowo niewielką.

Innym nieraz spotykanym formatem kompresji bezstratnej jest APE (Monkey’s Audio), który to choć pozwala na nieco większą kompresję niż FLAC, to kosztem niezwykle czasochłonnego procesu kodowania i dekodowania sygnału. Ostatecznie format ten stosowany jest rzadko, a najpopularniejszym pozostaje właśnie bardzo wygodny FLAC.

Innym rodzajem kompresji, jest kompresja stratna. Jak już wcześniej wspomniałem, dla jeszcze większej redukcji rozmiaru pliku, z myślą o ograniczeniu przestrzeni dyskowej, również o ograniczeniu przepustowości łącza internetowego, większość plików dźwiękowych dostępnych w sieci, umieszczonych tam zostało właśnie w formacie stratnym. Głównym zadaniem przy kodowaniu pliku audio do takiego formatu, jest pozbycie się z pliku tych elementów, które dla ludzkiego ucha, pozostaną nieuchwytne. W związku z tym, z tego typu plików dźwiękowych usuwa się zwykle skrajne częstotliwości wychodzące poza skalę ludzkiej percepcji (częstotliwośći poniżej 20 hz oraz te powyżej 20 khz). Wycinane z pliku również są dźwięki zbyt ciche lub zagłuszone poprzez inne, głośniejsze. Poziom degradacji jakości dźwięku zależna jest więc przede wszystkim od zastosowanych metod kompresji oraz jej stopnia.

Najpopularniejszymi formatami kompresji bezstratnej są:

MP3 - Opracowana w 1993 roku, dziś wciąż najpopularniejsza metoda kompresji, charakteryzująca się stałą przepływnością danych oraz pozwalająca na zapis do dwóch kanałów dźwięku. Najmniejsza dostępna przepustowość dla pliku MP3 to 8 kb/s, co stanowi o kompresji rzędu nawet 176 razy względem standardu CD-Audio. Maksymalny uzyskiwany bitrate z kolei, to 320 kb/s. Na początku pierwszej dekady XXI wieku popularny był również konkurencyjny dla MP3 format mp3PRO, pozwalający na uzyskanie nawet dwukrotnie efektywniejszej kompresji pliku przy niskich przepustowościach. Ten odtwarzany mógł być przy pomocy odpowiedniego odtwarzacza, bądź specjalnych wtyczek. Odtwarzanie przy pomocy oprogramowania pozbawionego wsparcia dla mp3PRO było możliwe, jednak plik odtwarzany był w tym przypadku z dwukrotnie niższą częstotliwością próbkowania, co prowadziło zwykle do ucięcia wysokich tonów w utworze. Format MP3 pozwala przy tym na próbkowanie 16-48 kHz oraz na zapisanie w tagach pliku specjalnej informacji pozwalającej na uzyskanie nieco uboższego względem standardowego pliku audio, zapisu dźwięku wielokanałowego 5.1.
AAC - Format opracowany w roku 1997 zaprojektowany jako następca MP3. Oferuje on zdecydowanie lepszą jakość względem MP3, przy zachowaniu tych samych przepustowości. Zakres próbkowania dla formatu ACC to 8-96 kHz, ponadto jesteśmy przy jego pomocy uzyskać dźwięk nawet do 48 kanałów (względem możliwych dwóch dla MP3, jest to dość spora zamiana). ACC charakteryzuje się przede wszystkim znacznie wyższej jakości dźwiękami dla wysokich częstotliwości.
Ogg Vorbis - Format stratnej potrafiący obsłużyć do 255 kanałów oraz częstotliwość próbkowania 6-48 kHz. Jest to format o otwartym kodzie źródłowym i wolnej licencji opracowany opracowany w roku 2000 przez Xiph.Org Foundation. Jakość OGG porównywalna jest do tej formatu AAC. Format OGG najlepiej sprawdza się dla przepustowości od 48 kb/s do 128 kb/s i najczęściej właśnie dla takich jest stosowany.

Rzecz jasna formatów jest znacznie więcej, jednak te trzy dziś pozostają najszerzej stosowane, stąd zdecydowałem z myślą o tym artykule przybliżyć tylko je. Na tym też zakończę dzisiejszą część wademekum. W następnej części postaram się przyjrzeć bliżej popularnym serwisom muzycznym oraz oferowaną przez nie jakością dźwięku. Tym czasem jednak już się żegnam i zostawiam was z losowo wybranym nagraniem z YouTube w cudownej jakości 64 kbps MP3 i częstotliwości próbkowania 22 050 Hz :)

Sort:

Trending

[-]

maryo (38) 7 years ago

Też używam audacity prosty intuicyjny program dla każdego.

$0.00

1 vote

ciekawski (54) 7 years ago

Świetne kompendium. Z mojej strony również #TylkoFLAC ;) ale warto mieć takie porównanie najpopularniejszych formatów i szczegółowe techniczne wyjaśnienie sprawy.

konradmil (25) 7 years ago

Świetny artykuł. Również jestem zdania, że pliki audio w formacie MP3 320 kbps są wystarczające, ba, dla niektórych jakość CD jest już wystarczającą opcją, lecz dla mnie jako producenta muzycznego 320kbps to minimum. Wave only for promo. :)

astromaniak (68) 7 years ago

Świetny post :) ja słucham głównie plików FLAC.

santarius (60) 7 years ago (edited)

Wielkie dzięki :)
Oczywiście pliki we FLACu, dla porządnego odsłuchu pozostają najrozsądniejszym rozwiązaniem, acz osobiście MP3 w jakości 320 kbps też uznaję za w porządku. Grunt to określić, jakie nagrania warto mieć w dobrej jakości, a które nie. Szczególnie jazz, czy muzykę symfoniczną, stworzoną z myślą o doświadczeniu wysokiej jakości fajnie posiadać w formacie bezstratnym. Dla wielu wykonawców których słucham, jakość MP3 jest jednak zdecydowanie wystarczająca.

Dodatkowo warto też wspomnieć o tym, o czym chciałem w poście napisać, a o czym na śmierć zapomniałem i napiszę tu. Otóż warto zwrócić uwagę, że pewne różnice w jakości pomiędzy formatami stratnymi, a bezstratnymi zauważymy jedynie posiadając odpowiedniej klasy sprzęt audio. Zintegrowane karty dźwiękowe w płytach głównych komputerów, raczej nie są urządzeniami najwyższej jakości, to samo tyczy się wielu rodzajów wzmacniaczy typowych choćby dla niskiej klasy głośników aktywnych, czy dla naszych telefonów komórkowych. W tych przypadkach często najlepszym wyborem będzie nawet nie 320 kbps, a 192 kbps, przy której to jakości nie usłyszymy zupełnie żadnej różnicy, a oszczędzimy miejsce przykładowo na karcie pamięci talefonu.

Różnicę z kolei przy już średniej klasy sprzęcie, przy odpowiednich nagraniach usłyszeć powinien zdecydowanie każdy, komu tylko bozia uszu nie poskąpiła :-)

astromaniak (68) 7 years ago (edited)

MP3 320 kbps też może być :) Różnicę słychać im lepszy sprzęt, tym bardziej to fakt.

mmmmkkkk311 (64) 7 years ago

I just upvoted You! (Reply "STOP" to stop automatic upvotes). Do społeczności: Jeżeli uważasz że głos został przyznany niesłusznie, przedstaw krótkie uzasadnienie w odpowiedzi do tego komentarza.

pozyton (41) 7 years ago

Flac nic nie da jak się ma słuchawki marki: Made in China i zintegrowaną kartę muzyczną :/

myukuleleworld (38) 7 years ago

Swietny artykuł! Może to w jaki sposób słucham dziś muzyki nie jest za bardzo audiofilskie ale sprawia mi wiele frajdy. Otóż od pewnego czasu zbieram kasety audio z muzyką rockową i około rockową i to ten nośnik mnie zaczarował mimo wszystkich swoich wad. Strona A/B, przewijanie, układanie kaset na półeczce...magia.

Dzięki wielkie! :)

Sam jestem zdania, że ponad wszelkie doznania stricte słuchowe, przy odsłuchu przede wszystkim liczy się odpowiedni klimat. Kasety jak najbardziej są wspaniałe, cyfrowe rozwiązania na pewno wiele w kwestii budowania atmosfery zdołały nam odebrać, o tym z resztą też postaram się napisać w swoim czasie :)

Zapraszam Cię w ogóle na chat, gdzie cóż... Warto być dla zapoznania się lepiej ze społecznością, czy choćby dla poszerzenia nieco swoich zasięgów, czy zaczerpnięcia rady od ewentualnie bardziej obytych z platformą osób :)

Dziękówka za zaproszenie zaraz tam zerknę :D

Wademekum młodego audiofila - Część druga: Formaty plików audio

Zapis cyfrowy audio

2 x 16 b x 44100 Hz = 1411200 b/s ≈ 1411 kb/s

Kompresja