Tych formatów i typów plików są dziesiątki i zaczynając podcastową przygodę, można się w tym wszystkim pogubić. Chodźcie, pomogę się Wam odnaleźć.
Będzie i prosta odpowiedź na postawione w tytule pytanie (jeśli chcesz ją poznać od razu, kliknij tu) i trochę kontekstu dla tych, których chcą trochę głębiej wniknąć w temat. Ale nie bójcie się, będzie krótko i prosto.
Posłuchaj w wersji audio
Jak komputery zapisują dźwięk?
Jeśli potrzebujecie superszybkiego odświeżenia informacji o tym, czym jest dźwięk, przeczytacie o tym w drugim akapicie tego tekstu.
Najprostsza forma cyfrowego zapisu dźwięku to zapisanie kolejnych liczb odpowiadających zmianom ciśnienia powietrza na mikrofonie. Pliki audio zapisane w taki sposób mają zazwyczaj rozszerzenie .WAV i nazywane są wave’ami.
Wielkość takiego pliku zależy od dwóch parametrów
- Częstotliwości próbkowania, czyli od tego, jak często będziemy zapisywać kolejne liczby.
- Tego, jak precyzyjnie (z jakim przybliżeniem) chcemy zapisać każdą z tych liczb. W tym przykładzie byłaby to np. ilość miejsc po przecinku
Często spotykanymi parametrami w świecie dźwięku to próbkowanie 44100 razy na sekundę i zapisywanie każdej takiej zmierzonej wartości przy użyciu 16 bitów, czyli 16 cyfr, które mogą być zerem albo jedynką.
Po co w takim razie komplikować sprawę i zapisywać dźwięk w innych formatach?
Problem w tym, że takie pliki, chociaż są proste do zapisywania i odtwarzania, zajmują sporo miejsca. A to sprawia problem przy ich płynnym przesyłaniu po wolniejszych łączach internetowych i przechowywaniu. Pojawiła się więc potrzeba tego, żeby dźwięk zapisywać w bardziej ekonomiczny sposób, tak by go szybciej przesyłać i żeby zajmował mniej miejsca na nośnikach. Tak zaczęły powstawać kolejne formaty zapisu dźwięku.
Stratna i bezstratna kompresja dźwięku
Mamy dwa rodzaje kompresji. Bezstratna pozwala na zmniejszenie rozmiaru pliku bez absolutnie zadnej utraty informacji. Ta stratna jest znacznie bardziej wydajna, ale tracimy tu na jakości.
Można by to opisać analogią. Weźmy sobie takie zdanie:
Ala ma burego kota i jeszcze jednego burego kota.
Czy można je zapisać tak, żeby było krótsze i przekazywało dokładnie ten sam komunikat? Spróbujmy tak
Ala ma dwa bure koty.
Treść się nie zmieniła, a znaków jest mniej. To jest przykład kompresji bezstratnej. A co jeszcze można usunąć ze zdania, żeby zachować kluczowe informacje?
Ala ma dwa koty.
Zachowaliśmy tutaj kluczowe informacje, ale straciliśmy szczegóły.
W przypadku kompresji audio działa to podobnie. Dźwięk rozkłada się na poszczególne częstotliwości i korzysta z wielu matematycznych przekształceń, pozwalających zmniejszyć rozmiar pliku.
Kompresja stratna korzysta z właściwości dźwięku i ludzkiego słuchu, usuwając niuanse, które możliwie najmniej wpływają na brzmienie. Jednak plik dźwiękowy, po „rozpakowaniu” będzie się już różnił od tego, który zmniejszaliśmy.
W przypadku najpopularniejszych formatów, można określić, jak bardzo chcemy zmniejszyć rozmiar pliku. Im mniejszy plik, tym więcej informacji tracimy. Do pewnego progu żadna zmiana nie będzie słyszalna, jednak przy silnej kompresji, zniekształcenia stają się mocno słyszalne i drażniące.
Kompresja stratna | Kompresja bezstratna |
---|---|
Najpopularniejsze formaty MP3, AAC, OGG Vorbis, OPUS | Najpopularniejsze formaty FLAC, WMA Lossless, APE |
Zalety – Mały rozmiar pliku | Zalety – Plik tak samo dobrze nadaje się do obróbki, jak plik surowy – Pozwala ograniczyć rozmiar pliku |
Wady – Przy silniejszej kompresji – słyszalne pogorszenie brzmienia – Nawet w wysokiej jakości, pewne zmiany mogą być słyszalne po obróbce dźwięku – Jest gorszym materiałem do pracy nad brzmieniem. | Wady – Pliki są dalej dość duże w porównaniu do możliwości formatów stratnych |
Popularne formaty audio
Ponieważ bezstratne formaty nie wpływają w żaden sposób na brzmienie, zajmę się tutaj tymi stratnymi. I chcę wprowadzić jeszcze jedno słówko, które bardzo pomoże nam zrozumieć sprawę. To słówko to bitrate. Brzmi groźnie, ale tak naprawdę mówi po prostu, ile bitów, czyli zer albo jedynek, potrzebujemy na zapisanie jednej sekundy dźwięku w danym formacie.
Jeśli chcemy więc zapisać dźwięk w formacie MP3 i bitrejcie (tak, będę spolszczał) 128 kilobitów na sekundę, to znaczy, że do zapisania jednej sekundy nagrania potrzebujemy 128 tysięcy zer lub jedynek.
Tworząc formaty stratnej kompresji dąży się do tego, żeby przy możliwie najmniejszym bitrejcie, oryginalny dźwięk był jak najlepiej zachowany. Niektóre algorytmy robią to lepiej, inne gorzej. Przy każdym z formatów dam tutaj do posłuchania po dwa przykłady, tak żebyście mogli usłyszeć, jakie zniekształcenia wprowadza zbyt mocne zmniejszenie pliku w każdym z tych formatów.
MP3
Pewnie ciężko będzie Wam w to uwierzyć, ale pierwsza wersja formatu MP3 została opublikowana w 1993 roku. To w zasadzie taki złoty standard. I mimo tego, że wcale nie jest najbardziej efektywny, deklasuje inne popularnością. Jeśli jakiekolwiek urządzenie lub program odtwarza dźwięk, to na pewno obsługuje standard MP3.
Do 2017 roku był chroniony patentami, więc producenci sprzętu i oprogramowania, chcąc go obsługiwać, musieli płacić za licencję. Ochrona jednak już wygasła i można korzystać z niego bezpłatnie.
Plusy
- Ogromna popularność i kompatybilność
Minusy
- W porównaniu z nowszymi standardami – niska wydajność.
Posłuchaj
AAC
Został stworzony jako następca MP3. I to w 1997 roku. Już wtedy naukowcy uważali, że MP3 jest przestarzałe i pewnie nie przyszłoby im do głowy, że w 2021 r. będzie trzymać się tak dobrze. Algorytm jest względem MP3 usprawniony i pozwala zachować wyższą jakość dźwięku przy tym samym rozmiarze pliku (bitrate).
Czyli możemy mieć albo – równie dobrze brzmiący plik, który jest mniejszy, albo – tak samo duży jak MP3 plik, który będzie brzmieć lepiej.
W ramach AAC możemy mieć do czynienia z różnymi „podstandardami” kompresji (różne firmy opracowały własne rozwiązania w ramach standardu) i różnymi rozszerzeniami plików:
.mp4, .3gp, .m4a, .m4b, .m4p, .m4r, .m4v, .aac
Plusy
- Pliki są odczytywane przez większość urządzeń i programów
- Znacznie większa wydajność od MP3: można mieć mniejszy plik o porównywalnym brzmieniu albo taki sam jak MP3 plik, który będzie brzmieć lepiej
Minusy
- Standard dalej jest chroniony patentami i chociaż dużo programów odczytuje te pliki, to darmowe lub tanie programy często nie obsługują zapisywania dźwięku w tym formacie (w związku z konieczną opłatą licencyjną)
- Problemy z kompatybilnością (to dopisuję w zasadzie po napisaniu tekstu). Okazuje się, że nie wszystkie pliki w tym formacie są np. dozwolone do użycia w WordPressie. Dlatego te przykłady poniżej musiałem tu umieszczać bardzo okrężną drogą.
Posłuchaj
OGG
Ten format w założeniu jest w pełni otwarty i darmowy. Intensywne prace nad jego stworzeniem ruszyły, kiedy w 1998 r. ogłoszono, że korzystanie z MP3 będzie płatne.
Jakość dźwięku w przypadku plików o podobnym rozmiarze jest porównywalna do AAC, istotnie lepsza od MP3.
Plusy
- W pełni darmowy, więc wiele programów go wspiera
- Oferuje wyższą jakość dźwięku niż MP3, przy tym samym rozmiarze pliku
Minusy
- Jest trochę gorzej wspierany, niż MP3. Jeśli umieścicie np. w treści strony plik OGG, nie będzie dało się go odtworzyć w przeglądarce Safari na urządzeniach Apple.
Posłuchaj
WMA
WMA czyli Windows Media Audio. To była odpowiedź Microsoftu na inne popularne kodeki audio. W jego ramach zawiera się kilka podstandardów, takich jak WMA Voice, WMA Lossless (bezstratny) i WMA Professional. Pierwsze wersje to końcówka lat 90., format był jeszcze rozwijany w latach dwutysięcznych. Obecnie jest mało popularny.
Plusy
- Przy większej kompresji oferuje znacznie wyższą jakość dźwięku od MP3
Minusy
- W tym momencie bardzo słabo wspierany, już nawet przeglądarki internetowe Microsoftu nie odtwarzają WMA.
Tutaj słuchania nie będzie, bo pliki WMA nie są wspierane przez przeglądarki.
Opus
To otwarty i darmowy format. Został stworzony jako następca standardu OGG Vorbis. Jest zaprojektowany tak, żeby nadawał się równie dobrze do kompresowania mowy przy bardzo niskich bitrate’ach (duża kompresja i małe pliki), jak i do muzyki przy znacznie mniejszej kompresji i większych plikach.
Moim zdaniem to obecnie najefektywniejszy z kodeków, którego ogromną zaletą jest darmowość. Jest przy tym wspierany przez praktycznie wszystkie przeglądarki internetowe. Niestety niektórzy twórcy oprogramowania trochę mniej zdają sobie sprawę z istnienia i zalet tego formatu.
Dlatego np. nie da się go wrzucić domyślnie jako pliku na stronę w WordPressie, bo to nieznany mu format. Tak więc niektórzy muszą się z tym jeszcze trochę ogarnąć 🙂
Plusy
- Bardzo efektywna kompresja. Nawet bardzo mały plik będzie brzmieć bardzo naturalnie.
- Darmowy i otwarty standard.
- Duża kompatybilność – obsługiwany przez wiele programów
Minusy
- Wciąż nie tak popularny jak MP3
Posłuchaj
W jakim formacie audio zapisywać gotowe podcasty, a w jakim surowe nagrania?
Surowe nagrania
Surowe nagrania lub jakiekolwiek pliki, które mają jeszcze zostać obrabiane, edytowane, masterowane, zapisujemy w WAV lub innym formacie bezstratnym.
Podcasty do publikacji
Jeśli platforma hostingowa pozwala nam przesłać plik WAV i potem sama zajmuje się skompresowaniem plików, do innych formatów, skorzystajmy z tej możliwości, jeśli tylko zmieścimy się w limicie rozmiaru pliku (dla anchor.fm jest to 250 MB).
Jeśli musimy skorzystać z mniejszego pliku, gotowy podcast najlepiej będzie zapisać w AAC lub MP3 w najwyższej możliwej jakości. Ważne tylko zmieścić się w górnym rozmiarze pliku narzuconym przez platformę, której używamy do hostingu podcastu. Potem takie pliki i tak z reguły są często przetwarzane, więc ważne, żeby źródłowy materiał był jak najwyższej jakości.