Dwa oblicza MQA — mała „encyklopedia" kontrowersyjnego formatu

Sie 08, 2022

wielkość czcionki Zmniejsz czcionkę Powiększ czcionkę

Żaden z dotychczas opracowanych formatów i kodeków audio nie wywołał takich emocji, jak MQA (Master Quality Audio Authenticated). Przyjrzyjmy się bliżej temu wynalazkowi — tak od strony teorii, jak i praktyki.

Tekst: Filip Kulpa | Ilustracje: MQA

Artykuł pochodzi z Audio-Video 9/2021 - KUP PEŁNE WYDANIE PDF

MQA (Master Quality Audio Authenticated)

4 grudnia 2014 r., londyński hotel The Shard — to tutaj, podczas bardzo oficjalnej gali, Bob Stuart, CEO firmy Meridian, obwieszcza światu hi-fi narodziny nowego kodeka audio, który ma zrewolucjonizować jakość dźwięku dostępną w streamingu, ale nie tylko. Zdarzenie to poprzedza (pół roku wcześniej) prezentacja innowacyjnego rozwiązania o nazwie MQA (Master Quality Authenticated), która odbywa się w brytyjskiej sekcji AES (Audio Engineering Society). W ślad za nią pojawia się artykuł zaprezentowany podczas 137. konwencji AES w Los Angeles (październik 2014 r.). Wkrótce później MQA zostaje anonsowane na wystawie CES w Las Vegas.

Minęło ponad sześć lat. Najwyższy zatem czas odpowiedzieć na pytania: na czym polega MQA i czy ma w ogóle sens? Nim to jednak zrobimy, przypomnijmy, że Bob Stuart, a dokładniej firma Meridian, na której czele stoi od początku jej istnienia, w latach 2000 opracowała kodek MLP (Meridian Lossless Packing), zaaprobowany w ramach standardu DVD-Audio, a następnie jako opcja dla formatu Blu-ray. Zadaniem MLP była bezstratna kompresja wielokanałowego sygnału fonicznego PCM hi-res na płytach DVD-Audio. Stworzenie MLP było niewątpliwie dużym sukcesem marketingowym niewielkiej specjalistycznej firmy z Wielkiej Brytanii, która zdołała się przebić do oficjeli dużych producentów zgrupowanych wokół DVD Forum. 15 lat później ci sami ludzie postanawiają rzucić jeszcze większe wyzwanie całemu rynkowi fonograficznemu.

Niełatwe początki

Do promocji i — co nawet ważniejsze —licencjonowania nowej techniki zostaje powołana spółka MQA, Ltd, na której czele stoi wspomniany Bob Stuart, wieloletni członek Audio Engineering Society, autor wspomnianego kodeka MLP i licznych prac naukowo-badawczych z dziedziny cyfrowej obróbki sygnałów, psychoakustyki i neurobiologii. Sprawa zapowiada się bardzo poważnie.

Od początku staje się jednak jasne, że nowy wynalazek ma dwa oblicza. Z jednej strony ma umożliwić uzyskanie jakości dźwięku hi-res przy wykorzystaniu strumienia danych o przepływności porównywalnej z zapisem PCM 16/44,1 w kontenerze FLAC – po to, by możliwy był streaming z urządzeń mobilnych. Jednocześnie MQA ma być wstecznie kompatybilny z urządzeniami, które nie są dostosowane do odtwarzania sygnału o jakości wyższej niż PCM 16 bitów/48 kHz. Z drugiej natomiast, MQA ma zapewnić stały strumień gotówki płynącej z licencji udzielanej producentom sprzętu muzycznego i wydawcom muzyki. Ten drugi aspekt spotyka się z dezaprobatą części obu środowisk. W lutym 2017 r. na stronie internetowej szkockiego Linna (www.linn.co.uk) zostaje opublikowany wielce nieprzychylny dla MQA artykuł, w którym autor wyjaśnia wieloetapowy mechanizm pobierania opłat licencyjnych. Wielkim sojusznikiem MQA zostaje Warner (maj 2016 r.). Tydzień później organizacja RIAA uznaje MQA za format Hi-Res Music, a potem do obozu MQA dołącza jeszcze Sony. Wygląda więc na to, że MQA nabiera masy krytycznej, by wystrzelić ostro do przodu. Tak jednak się nie dzieje. Pierwsza faza przyswajania nowego formatu idzie opornie. Owszem, grono producentów oferujących przetworniki czy streamery zgodne z MQA systematycznie rośnie, ale tempo procesu nie przystaje do oczekiwań. Dopiero na przełomie 2018 i 2019 r. zainteresowanie nowym wynalazkiem przybiera na sile, gdy platforma Tidal włącza MQA do swojej oferty, tworząc najwyższy pakiet jakościowy o nazwie „Tidal Masters”. Początkowo repertuar jest dość skromny, jednak w 2020 i w 2021 roku ma miejsce prawdziwy wysyp nagrań w MQA. Sprawa jest ciekawa o tyle, że kontrowersje wokół MQA wcale nie ustają, wręcz przeciwnie.

Kilkanaście miesięcy temu, na platformie YouTube, użytkownik o nazwie Golden Sound, opublikował bardzo krytyczny materiał, z którego wynika, że MQA jest procesem wysoce stratnym, wprowadzającym do nagrań duże ilości szumu kwantyzacji i zniekształceń, a mechanizm kodowania w Tidalu odrzuca spreparowane sygnały testowe. Oglądając to wideo trudno nie odnieść wrażenia, że osoba, która przygotowała ów materiał ma przede wszystkim na celu zniechęcić do subskrypcji Tidala. Pada tam nawet argument, że streamy w jakości teoretycznie bezstratnej (Tidal Hi-Fi) też są w MQA, choć platforma tego nie komunikuje, a w związku z tym użytkownicy nie mają świadomości, że słuchają materiału zapisanego „stratnie”. Nie zamierzam się odnosić do tych rewelacji, pozwolę sobie jednak zauważyć, że po pierwsze, owa krytyka nie uderza bezpośrednio w MQA, a po drugie sam fakt, że koder odrzucił sygnały testowe stoi w sprzeczności z zasadą działania nowego kodeka, który opracowano wyłącznie z myślą o efektywnym zapisie, przechowywaniu i strumieniowaniu sygnałów muzycznych. Trudno też na równi stawiać opinię nieznanej osoby z kręgów producentów muzycznych z autorytetem człowieka niezwykle zasłużonego dla branży audio na przestrzeni ostatnich kilkudziesięciu lat. Tutaj w pełni zgadzam się z Hansem Beekhuyzenem (prowadzącym inny kanał na YT). Z drugiej jednak strony, nie można zapominać, że kodek MQA jest chroniony patentem, tak więc nikt, poza jego autorami, nie ma dostępu do kodu ani algorytmów. Producenci sprzętu audio otrzymują „czarną skrzynkę” — również nie wiedząc, co dokładnie implementują w swoich urządzeniach. Jednym z pierwszych producentów, który podważał sens stosowania MQA był Chord Electronics, a dokładniej Rob Watts. Swój sceptycyzm wobec MQA wyraził również Paul McGowan (PS Audio). Pytałem o tę kwestię także Eelco Grimma. Przyznał, że sam pomysł jest ciekawy, ale problem stanowią używana w MQA filtry interpolujące.

Ponieważ klienci coraz cześciej pytali o MQA, to producenci nie mieli wyjścia i pod wpływem narastającej presji zaczęli implementować MQA w swoich urządzeniach, niekiedy może nawet wbrew własnym przekonaniom. Obecnie spora część przetworników c/a i streamerów obsługuje MQA, a liczba tych urządzeń powoli, acz systematycznie rośnie.

Tajemniczy deblurring

U podstaw opracowania nowego formatu legły dwa, trzeba przyznać, że całkiem interesujące założenia. Po pierwsze, zapis liniowy LPCM (ang. linear pulse code modulation) jest nieefektywny z punktu widzenia jego dostosowania do czułości naszego słuchu. Nie potrzebujemy bowiem dynamiki na poziomie 144 dB (typowej dla 24-bitowego zapisu PCM) w pełnym zakresie akustycznym. To dość oczywisty, a dotąd jednak pomijany aspekt związany z zapisem dźwięku hi-res. Prawdziwym argumentem przemawiającym za nową technologią miało być jednak co innego: możliwość niwelowania rozmycia czasowego impulsów (ang. deblurring) — efektu powstającego w procesie cyfryzacji analogowego sygnału audio (jak również podczas konwersji c/a), którego nie da się wyeliminować przy skończonej, a do tego „rozsądnej” częstotliwości próbkowania. Tutaj Bob Stuart używa przemawiających do wyobraźni wykresów, z których wynika, że typowy zapis PCM o próbkowaniu 44,1 kHz rozmywa impuls w skali rzędu 80 µs, natomiast przy zapisie PCM 192 kHz rozmycie jest wciąż znaczące. W teorii MQA ma być lepsze, osiągając poziom zapisu PCM 352,8 lub 384 kHz. Jak tego dokonuje? W tym momencie pojawia się pierwsza zagadka i niejednoznaczność. O ile bowiem można sobie jeszcze jakoś wyobrazić kompensację niedoskonałości znanego konwertera a/c użytego do zgrania do plików taśm-matek, to trudno odgadnąć, jak mogłaby wyglądać procedura „ściągania” sygnatury wszystkich układów ADC użytych w latach 80. W tym celu konieczna byłaby niezwykle szczegółowa dokumentacja techniczna każdej sesji nagraniowej dokładna wiedza na temat charakterystyk impulsowych ówczesnych konwerterów a/c. Pomnóżmy to przez tysiące albumów powstałych w tamtych czasach, a łatwo dojść do podejrzenia, że zadanie może mieć charakter życzeniowy. Wytwórnie, które wspierają MQA nie dzielą się takimi informacjami. Wątpliwości pomogła rozwiać sesja pytań i odpowiedzi (Q&A) z Bobem Stuartem — publikujemy ją w dalszej części tego materiału.

816mqafeature.MQAfig18

U podstaw prac nad MQA leżą badania nad możliwościami ludzkiego słuchu oraz ich relacją w stosunku do technicznych ograniczeń sprzętu rejestrującego (mikrofony) i sposobów kodowania. Diagram pokazuje, jak bardzo różne są to obszary. Ilustr. MQA.

Muzyczne origami

Druga wątpliwość, czy może raczej niejednoznaczność, wiąże się ze sposobem obróbki i kodowania sygnału muzycznego. Mówi się, że MQA jest formatem stratnym, choć autorzy wynalazku utrzymują, że jest inaczej. Skąd ta rozbieżność? MQA powołuje się na badania neurobiologiczne oraz teorię przetwarzania sygnałów a/c i c/a, z których wynika, że zakres użytecznej informacji można (arbitralnie, ze względu na krotności użytecznych częstotliwości próbkowania) podzielić na pola A, B i C (ilustracje obok). Pole A odpowiada (mniej więcej) zapisowi CD (16/44,1), natomiast cały obszar wykresu ma reprezentować zapis LPCM 24/192. Dowiadujemy się ponadto, że istotny muzycznie zakres informacji mieści się w pomarańczowym trójkącie – tak ma wynikać z badań rzeczywistych nagrań muzycznych. Na dowód tego mamy spektrum FFT próbki muzycznej (linia ciemnożółta), która faktycznie mieści się w owym trójkącie, i to z dużym zapasem. Faktem jest, że energia muzyczna (i poziom nagrania) w realnym świecie maleją wraz z częstotliwością — przy 10 kHz jest dużo ciszej niż przy 1 kHz, zaś powyżej 20 kHz ilość energii muzycznej stanowi drobny ułamek tej przy 1 kHz. Fakt, że pomarańczowy trójkąt nie sięga powyżej 50 kHz jest zrozumiały — wyższe częstotliwości znajdują się już generalnie poza widmem instrumentów akustycznych, chociaż jeśli weźmiemy pod uwagę pełne spektrum alikwotów talerzy perkusyjnych, trąbki czy klawesynu, to niekoniecznie tak jest (rzeczywiste widmo akustyczne tych instrumentów sięga powyżej 60 kHz). Przyjmijmy jednak, że dotychczasowe założenia nie budzą wątpliwości, tj. że są z grubsza prawdziwe.

Koder MQA dzieli pasmo na wspomniane zakresy A (0–24 kHz), B (24–48 kHz) i C (48–96 kHz). Konsekwentnie, zakresom B i C przypisuje mniejsze znaczenie niż A (co jest całkowicie logiczne), a jednym z najważniejszych tricków algorytmu kompresji MQA jest schowanie (upakowanie) informacji B i C poniżej poziomu szumów w zakresie A. Aby osiągnąć ten cel, stosowane jest „zawinięcie” danych audio z podziałem pasma B na dwa podpasma B1 i B2. Ten podział nie jest już opisany przez MQA — wyjaśnia go jednak Bob Stuart w bezpośrednich odpowiedziach na moje pytania. Dodatkowo do sygnału dodawany jest kształtowany szumowo strumień danych (linia zielona) zawierający dane o nagraniu, instrukcje dla dekodera oraz informacje audio z pasm B i C. Z poziomu linii zielonej można wnioskować, że ta informacja ingeruje w słowa sygnału cyfrowego na poziomie 18. bitu. MQA twierdzi, że sygnał „zielony” jest całkowicie usuwany przez dekoder MQA, ale w przypadku systemów 16-bitowych umożliwia usłyszenie „więcej muzyki”, a jego „odcisk" na sygnale jest równoważny zaledwie 0,15 bitu.

rys 1

Diagram informacyjny Shannona. Szary prostokąt opisuje przestrzeń kodowania dla płyty CD, złoty wykres obrazuje piki muzyczne w typowym nagraniu muzycznym. Linie czerwona i brązowa pokazują maksymalne i uśrednione wartości szumu. Wszystkie istotne muzycznie informacje zawierają się w pomarańczowym trójkącie.

W opisie MQA pojawia się kolejna wskazówka: pasma B1 i B2 mogą zostać ukryte w sygnale „zielonym” lub poniżej, czyli na dalszych (mniej znaczących) bitach. Zwróćmy uwagę, że wyjściowo dysponujemy 24-bitowym zapisem audio, który chcielibyśmy, aby był bezstratny. Ingerencja w mniej znaczące bity danych stoi w sprzeczności z rozumieniem pojęcia dokładności bitowej. Zauważmy jednak, że pojęcie bit-perfect nigdzie nie pojawia się w materiałach MQA. Jest w nich jedynie mowa o bezstratności sygnału muzycznego — w rozumieniu zachowania informacji w częstotliwościach ponadakustycznych, od początku do końca całego procesu. Dalszy opis wynalazcy stawia jednak pod znakiem zapytania zasadność tej tezy. Pada bowiem sformułowanie, że koder B wykorzystuje sygnał przybliżający (interpolację) do tego, by uzyskać bezstratność przesunięcia omawianego pasma w region A.

Ostatni etap kodowania MQA polega na zwinięciu całej informacji, a więc także pasma C (dotąd znajdującego się w obszarze B) i upakowaniu całości w stosunkowo „lekki” plik FLAC 24/48. Zdaniem twórców formatu, taki zapis zabrzmi lepiej niż CD — także w sytuacji, gdy odtwarzamy go za pośrednictwem urządzenia pozbawionego dekodera MQA.

fig26 fold1

fig28 fold2

Objaśnienia do dwóch powyższych grafik zamieszczono w tekście. Ilustr. MQA.

Dekodowanie – co wiemy?

Pełne rozpakowanie i rozkodowanie plików w formacie MQA jest procesem dwuetapowym, choć w materiałach źródłowych jest mowa nawet o podwójnym „unfoldzie", czyli rozwinięciu danych audio z pasma B. W teorii, jak wyjaśnia Bob Stuart (patrz wywiad), „unfoldów” może być więcej niż dwa.

Jednym z założeń twórców było stworzenie kodeka maksymalnie elastycznego, który w zależności od możliwości technicznych po stronie odbiorcy, umożliwi częściowe lub całkowite wykorzystanie potencjału nowego kodeka oraz samego nagrania hi-res. Z tego też powodu wyodrębniono tzw. rdzeń procesu (MQA Core), który może być realizowany programowo (choć nie musi) przez oprogramowanie komputera (Roon, Audirvana, Tidal, etc.) lub nawet smartfona, ewentualnie hardware’owo — wewnątrz urządzenia odtwarzającego. Po tej operacji sygnał audio zyskuje jakość opisaną pomarańczowym trójkątem, a więc PCM 24/96 lub 24/88,2 — zależnie od wyjściowej częstotliwości próbkowania nagrania (jest zwiększana dwukrotnie). Tak rozpakowany strumień MQA może być następnie wypuszczony poprzez złącze USB, Lightning czy nawet S/PDIF do renderera MQA. Renderer MQA to urządzenie komplementarne dla całego procesu, zawsze ściśle powiązane z przetwornikiem c/a, a więc uwzględniające jego parametry. Jak wyjaśnia

Bob Stuart: „idea enkapsulacji i renderingu jako procesów komplementarnych jest kluczowa, ponieważ gwarantuje, że całkowite rozmycie czasowe w systemie odtwarzającym jest tak małe, jak to tylko możliwe”. Podczas renderingu, częstotliwość próbkowania wynikowego sygnału audio zwiększa się znów dwukrotnie— do 176,4/192 kHz. W przypadku niektórych nagrań może jednak wzrastać czterokrotnie — do 352,8 lub 384 kHz.

Jeśli urządzenie wyjściowe ma ograniczenie częstotliwości próbkowania do 44,1 lub 48 kHz, strumień MQA przechodzi jedynie proces poświadczenia (ang. authentication), gwarantując możliwość sczytania danych zawartych w sygnale „zielonym”. Jest to prawie najgorsza z możliwych opcji (zasadniczo dedykowana dla urządzeń mobilnych bez zewnętrznego DAC-a), choć i tak lepsza — jak argumentuje MQA — niż odczyt na urządzeniu w ogóle niekompatybilnym z MQA.

MQA CD

Istnieje jeszcze jedna, specyficzna wersja formatu MQA ograniczona do 16-bitowego kontenera FLAC lub zapisu na płycie CD, którą da się odtworzyć za pośrednictwem kompatybilnego odtwarzacza CD. Do tej pory, w Japonii ukazało się już kilkaset tytułów w formacie MQA CD. Konieczność „pomieszczenia” sygnału MQA na płycie kompaktowej nie jest jedyną przyczyną, dla której stosuje się 16-bitowe MQA. Część nagrań jest bowiem dostępna wyłącznie w takiej rozdzielczości.

MQA CD1

Na japońskim rynku, wciąż bardzo przychylnym dla CD, ukazało się już ponad 600 tytułów w formacie MQA.

Odsłuch

Niezależnie od tego, jak poważne lub przeciwnie — nieuzasadnione, wynikające z niepełnej, fragmentarycznej wiedzy lub zwykłych uprzedzeń — są wątpliwości dotyczące technicznej strony działania MQA, należy pokusić się o subiektywną (siłą rzeczy!) ocenę jakości dźwięku uzyskiwaną z nagrań w formacie MQA w konfrontacji z kodowaniem liniowym PCM, ewentualnie formatem DSD. Okazuje się, także i w tej sferze sprawa nie jest do końca jednoznaczna. To znaczy taka by była, gdyby nie to, że MQA funkcjonuje w dwóch, bardzo nierównych przestrzeniach: niszowym, choć powiększającym się downloadzie i płytach CD oraz zdecydowanie dominującym streamingu z Tidala.

Nie mieliśmy jeszcze do czynienia z płytami MQA CD, przeprowadziliśmy natomiast próby z tymi samymi nagraniami zapisanymi w formie plików hi-res PCM i odpowiadającym im plikom MQA w kontenerze FLAC. Początkowo skorzystaliśmy z downloadów ze strony wytwórni 2L (www.2l.no). Repertuar ten nie musi każdemu odpowiadać, ale na podstawie odsłuchu kilkunastu par utworów odsłuchiwanych w dwóch różnych systemach, uznaliśmy, że jakość dźwięku w formacie MQA uzyskiwana z przetworników c/a z pełnym wsparciem tego formatu, jak również tylko w przypadku dekodowania rdzenia za pomocą Roona dorównuje lub nawet przerasta jakość uzyskiwaną z tych samych nagrań w jakości PCM 24 bity/192 kHz. Dawało się odczuć znakomite poczucie aury, bardzo dużą szczegółowość i namacalność dźwięku. Nagrania MQA z materiału źródłowego 352,8 kHz brzmiały, według naszej oceny, porównywalnie do analogicznych plików PCM 352,8 kHz i lepiej niż downsamplowany materiał PCM 24/192.

playlista

Fragment zbioru nagrań testowych zaimportowanych do biblioteki Roona.

W trakcie prac nad niniejszym materiałem, Bob Stuart udostępnił mi testowy zestaw nagrań zapisanych w MQA oraz ich dokładnych odpowiedników źródłowych w jakości LPCM 24/192 stanowiącej obecnie „złoty standard” hi-res audio. Sampler ważący 3,5 GB przygotowano w bardzo wygodny sposób, edytując tytuły utworów, wyraźnie je oznaczając dopiskiem MQA dla łatwego rozróżnienia od „oryginałów”. Pliki zgrałem na dysk SSD stanowiący bibliotekę Roona i umieściłem w kolejce odtwarzania. Odsłuch polegał na przeskakiwaniu kolejnych utworów i kilkukrotnych porównaniach materiału referencyjnego (PCM) z MQA. Repertuar był bardzo przekrojowy, zawierający nagrania mono z lat 50 (Louis Armstrong), jak również współczesne produkcje, niekoniecznie audiofilskie, oraz różne gatunki muzyczne, z akcentem na jazz i blues. Znalazły się tutaj nawet takie perełki, jak choćby „The Köln Concert” Keitha Jarreta. Z odsłuchów przeprowadzonych w moim regularnym, wysoce transparentym i dynamicznym systemie, z wykorzystaniem dCS-a Bartoka w roli renderera i Roona jako dekodera rdzenia wyłania się wysoce przychylny obraz możliwości MQA. W żadnym przypadku (z około 20 utworów) nie stwierdziłem pogorszenia jakości dźwięku po wybraniu wersji MQA. Drugim zaskoczeniem była mała skala różnic pomiędzy obydwiema wersjami. Oczekiwałem dość oczywistych wskazówek, tymczasem były one znacznie mniejsze przy odsłuchu różnych streamerów USB Audio (!), nie mówiąc już o transportach CD. Zwracam uwagę, że mówimy o sytuacjach, w których porównujemy teoretycznie ten sam strumień bitowy — tyle że podawany z różnych urządzeń, w różny sposób! Na tle tych różnic — przeważnie oczywistych w wykorzystanym systemie — te same nagrania w formatach MQA i PCM brzmiały niemalże identycznie.

Jeśli mam być szczery, to nie jestem wcale pewien, że w ślepym teście uzyskałbym statystycznie znaczący wynik, jednak kolejne odtworzenia tych samych utworów prowadziły do ustalenia pewnego wzorca preferencji. Ów wzorzec sprowadzał się do tego, że chcąc kolejny raz posłuchać tych naprawdę świetnych nagrań, wybierałem te oznaczone jako MQA… Anglicy mawiają „hearing is believing” (tłum. usłyszeć znaczy uwierzyć) i trudno o lepszą puentę dla tego eksperymentu. Z czego wynikała nieznaczna, ale jednak preferencja dla MQA? Najkrócej rzecz ujmując, z wrażenia lepszego „kontrastu”. Odpowiedniki źródłowe wydawały się lekko rozbielone, minimalnie mdłe. Z MQA zyskiwałem nieco lepszą saturację, wrażenie czerni, jak również odrobinę energii i precyzji. Rozmiary sceny dźwiękowej i bas — tutaj nie odnotowałem powtarzalnych różnic.

Odmiennie przedstawiają się wnioski z porównań w przypadku Tidala. Powstaje tutaj zasadniczy problem dotyczący pochodzenia poszczególnych wersji tych samych nagrań: nigdy nie mamy pewności, że z Tidala słuchamy tej samej wersji mastera, którą posiadamy w pliku z legalnego downloadu czy nawet ze zgrania płyty CD. Ogólny konsensus z przeprowadzonych przeze mnie i red. Lackiego porównań nie jest zbyt przychylny dla MQA z Tidala. W moim odczuciu, te streamy nie dorównywały jakością „peceemom” hi-res, oferując mniej więcej zbliżony poziom naturalności i namacalności dźwięku, jak ripy płyt CD. Wniosek ten koresponduje z wynikami wcześniejszych porównań streamów w jakości Hi-Fi (PCM 16/44,1) i ripów płyt CD lub downoladów o tej samej jakości.

Warto, nie warto?

Czy jest sens kupować DAC lub streamer obsługujący MQA? Najkrótsza prawidłowa odpowiedź na to pytanie brzmi: tak. Czy warto brać pod uwagę dekodowanie MQA jako argument przemawiający za zakupem tego, a nie innego modelu streamera czy przetwornika c/a? Nie powinno to być głównym kryterium wyboru. Pamiętajmy, że jakość brzmienia źródła cyfrowego determinuje szereg rozwiązań, począwszy od rodzaju kości DAC-a, poprzez sposób obróbki sygnału cyfrowego, jitter, jakość i rodzaj toru analogowego, zasilania, elementów pasywnych itd. Niewątpliwie, MQA jest pożądanym dodatkiem i tak należy ten format rozpatrywać. Odrębną kwestią jest to, w jaki sposób wykorzystać jego niemały potencjał. W naszej opinii, jedyną pewną metodą jest odsłuch plików MQA zgromadzonych na dysku. W odpowiednio przezroczystym systemie będziemy w stanie usłyszeć ich przewagę nad materiałem PCM, zaś w najgorszym razie — usłyszmy mniej więcej to samo. Z kolei MQA z Tidalu raczej nie zagra tak dobrze, jak downloady hi-res 24/96 czy 24/192, co jednak nie powinno prowadzić do wniosku, że MQA to naciąganie. U podstaw MQA leżą poważne badania naukowe z dziedziny neurobiologii ludzkiego słuchu oraz analizy i przetwarzania sygnałów audio, z których wynika, że kontynuowana przez dekady metoda zwiększania częstotliwości próbkowania to poniekąd ślepy zaułek — rozwiązanie, które sprawdza się do pewnego momentu (czytaj: częstotliwości próbkowania), a później prowadzi już tylko do rozrastania się plików i dysków je magazynujących. MQA przełamuje to myślenie, a efekty uzyskane w kontrolowanych warunkach odsłuchowych pokazują, że jest to format co najmniej równoważny wobec liniowego kodowania PCM, z którego świat audio korzysta już od ponad 40 lat. Zachęcamy do porównań downoladów, zakupienia kilku albumów w formacie MQA i ich posłuchania w dobrym systemie. To powinno rozwiać wszelkie wątpliwości.

MQA w pytaniach i odpowiedziach — rozmowa z Bobem Stuartem

AV: Zacznijmy od kwestii ogólnej, nieraz podnoszonej w środowisku audiofilów: po co nam kolejny kodek audio w 2021 r., skoro ani transfer danych przez internet, ani pojemność dysków nie są już problemem ani ograniczeniem. W początkowej fazie promocji MQA podkreślano wydajność tego formatu – możliwość przesłania sygnału hi-res audio w strumieniu odpowiadającym zapisowi CD. Dziś Tidalowi wyrosła groźna konkurencja w postaci Apple Music, Qobuza, Amazona HD czy Spotify — serwisów oferujących bezstratne strumienie hi-res audio.

Bob Stuart: W tym pytaniu zawarto głęboko nieprawdziwe założenia. Dzięki zrozumieniu procesów, jak ludzki słuch postrzega dźwięk i jak to się ma do nowoczesnych technik kodowania dźwięku, MQA zachowuje WSZYSTKIE informacje, które są potrzebne i bardzo niewiele tych, które są zbędne. Z tego powodu, o efektywności MQA można mówić w kategoriach efektu ubocznego wynikającego z użytych algorytmów w celu uzyskania lepszej jakości dźwięku.

Nasz team składa się z wiodących ekspertów w bezstratnej obróbce sygnału i kompresji. Używamy unikatowych metod dla uzyskania najbardziej efektywnego strumienia danych. MQA dostarcza wyższą rozdzielczość niż konwencjonalna „cyfra”, szczególnie jeśli chodzi o drobne struktury w domenie czasowej, na które nasz słuch jest najbardziej wyczulony.

Tylko w źle poinformowanej przestrzeni audiofilskiej uznaje się za rozsądne nie rozwiązywanie problemu polegającego na tym, że format hi-res PCM jest zarówno wysoce nieefektywny, jak i niedopasowany do ludzkiego słuchu. Ponadto — to już taki wyspiarski punkt widzenia — szerokie pasmo (szybki transfer danych – przyp. F.K.) nigdy nie jest za darmo, a jego parametry nie będą rosnąć w nieskończoność. Ślad węglowy internetu i streamingu jest znaczący; strumieniowanie wideo już zaczyna być analizowane pod kątem możliwych regulacji prawnych.

Efektywne kodeki obniżają koszty funkcjonowania infrastruktury — niezależnie od tego, jak duża jest nasza „rura”. Serwisy streamingowe płacą znacznie więcej za przechowywanie i przesyłanie plików, które są niepotrzebnie duże. Dla właściciela dużej platformy oszczędność wynikająca z używania MQA zamiast szybkiego PCM-u idzie w dziesiątki milionów dolarów rocznie. Co więcej, technika muzycznego origami pozwala upakować nagranie hi-res w strumieniu 48 kHz, który jest 100% kompatybilny w przód i w tył z transmisjami wideo i radiem, co pozwoli zaoferować znacznie lepszy dźwięk także w tych mediach.

Wspomniane serwisy są nieodpowiedzialne z komercyjnego i ekologicznego punktu widzenia. Redukcja danych sprzyja obniżeniu emisji gazów cieplarnianych, natomiast zwiększanie strumienia audio czy wideo daje dokładnie odwrotny skutek. Popyt na wysoką jakość strumienia nie powinien negatywnie odbijać się na naszej planecie. To także jest wpisane w dewizę MQA. Co więcej, serwisy takie, jak Apple czy Amazon używają techniki adaptacyjnego streamingu w celu redukcji przepływności w czasie rzeczywistym, co powoduje, że niekoniecznie wiemy, jaki strumień w danym momencie do nas płynie. Jak wyjaśnię w dalszej części, strumień MQA jest z definicji poświadczony (ang. authenticated), podczas gdy wymienione serwisy bezstratne udostępniają pliki bez żadnej gwarancji ich zawartości czy pochodzenia. W tym sensie pomysł rozszerzania pasma transmisji, by dostarczać coś nie do końca sprawdzonego wydaje się jeszcze bardziej wadliwy.

AV: Deblurring jest fascynującym konceptem. Z naszej wcześniejszej korespondencji wywnioskowałem, że zespół MQA jest w stanie zdjąć „odcisk palca” magnetofonu użytego w zapisie analogowego mastera, jeśli stan urządzenia na to pozwala, a taśma jest w dobrym stanie. Jak taki proces wygląda w praktyce i ile takich projektów zrealizowano?

BS: Używamy specjalnych sygnałów testowych, które są nagrywane na taśmę referencyjną za pomocą badanego magnetofonu, a następnie odtwarzane w przód i w tył. Łącząc kilka różnych pomiarów otrzymujemy „odcisk” napędu, głowicy i elektroniki. Taka charakteryzacja była robiona wiele razy dla różnych magnetofonów (analogowych i cyfrowych) w studiach masteringowych, a rezultaty użyte w setkach wydań MQA.

AV: W przypadku masterów (nagrań) cyfrowych wspomniałeś, że procedura może przebiegać na trzy różne sposoby. Albo inżynier od masteringu korzysta z waszych narzędzi, albo dokonywany jest pomiar użytego przetwornika ADC, albo używa się automatycznego procesu „bazującego na koderze, który przećwiczono na podstawie wielu przykładów znanych systemów. […]” Padło również sformułowanie:

„Nie ma znowu tak wiele typów przetworników ADC. W rzeczywistości garść rodzajów chipów pokrywa zdecydowaną większość rynku studyjnego. Po 6 latach bliskiej współpracy ze studiami masteringowymi regularnie sprawdzamy zautomatyzowany proces kodowania, konfrontując wyniki z odsłuchami. Po kilku milionach zakodowań jest to gładki proces, który rzadko przynosi niespodzianki”. Rodzi się pytanie, która z tych opcji jest najczęściej stosowana?

BS: Gdy tylko jest to możliwe, realizujemy „projekty w białych rękawiczkach”, charakteryzując konkretny konwerter a/c. Było to robione dla kilku niezależnych specjalistów. Często się zdarza, że z danym wydawcą tworzymy procedurę, w którą oni sami są głębiej zaangażowani, tworząc wstępny setup dla swoich systemów, który potem jest ponownie wykorzystywany przy kolejnych wydaniach. Ponieważ ta zautomatyzowana metoda przynosi dobre rezultaty, a inwestycja mieści się w budżecie wydawców, jest ona najczęściej stosowana. Jesteśmy zadowoleni z każdej z tych metod — wybór konkretnej uzależniamy od dostępnego budżetu.

AV: Wiemy, że koder MQA dzieli zakres częstotliwości w nagraniu na trzy pasma: A, B i C, z czego B jest dzielone na podpasma B1 i B2. Jaki zakres częstotliwości jest typowy dla B: 24–48 kHz? Czy jest on z góry ustalony, czy może zależny od spektrum lub innych cech nagrania? Wiadomo, że niektóre instrumenty, jak trąbka czy talerze mogą produkować harmoniczne o częstotliwościach znacznie przekraczających 48 kHz.

BS: Zakładając, że pytanie dotyczy materiału źródłowego o próbkowaniu 192 kHz, to tak, jak sugerujesz, cała zawartość muzyczna w drugiej oktawie (B) zostaje uchwycona. To, że rdzeń o próbkowaniu 96 kHz jest tak często stosowany wynika z tego, że w nagraniach komercyjnych nie pojawiają się informacje w zakresie częstotliwości powyżej 48 kHz. Tak mówią nam statystyki milionów dotąd przeanalizowanych utworów muzycznych. Koder analizuje spektrum szczytów sygnału muzycznego i określa, czy w tym zakresie pasma użyteczna informacja jest poniżej, czy powyżej poziomu szumów. Jeśli powyżej, to koder wyświetla ostrzeżenie i wówczas mamy możliwość zastosowania wyższego tempa transmisji (niż 48 kHz – przyp. F.K.), jednak są to niezwykle rzadkie przypadki (garść na miliony zakodowanych utworów). Dlaczego tak to wygląda? Rzeczywiście, użycie specjalnego mikrofonu, który rejestruje w bliskim polu trąbkę czy klawesyn pozwala zarejestrować harmoniczne powyżej 48 kHz. Sęk w tym, że nie obserwujemy tego efektu w nagraniach komercyjnych — albo dlatego, że nie pozwala na to sam mikrofon, albo po prostu znajduje się on zbyt daleko od instrumentu (efekt tłumienia bardzo krótkiej fali akustycznej – przyp. F.K.). Co więcej, instrumenty elektroniczne zachowują się w pewnym sensie podobnie do akustycznych – również nie produkują dźwięków powyżej rozważanego zakresu.

AV: Jaka jest relacja pasm B1 i B2 i czemu służy ten dodatkowy podział?

BS: Podział między pasma A i B jest bezstratny, tak samo bezstratny jest podział pomiędzy B1 i B2. Ten drugi pozwala nam zoptymalizować efektywność kodeka przy doskonałym zachowaniu odpowiedzi w domenie czasowej.

AV: Czy poniżej poziomu szumów w paśmie A faktycznie znajduje się dość przestrzeni, by móc w niej pomieścić całą informację muzyczną z pasma B w przypadku nagrań klasycznych i jazzowych? To bardzo istotne, jeśli chce się wykazać, że MQA jest formatem bezstratnym.

BS: Opublikowaliśmy dane pokazujące rzeczywisty poziom szumów w nagraniach. Zwykle jest to przestrzeń wystarczająca nie tylko do ukrycia w niej informacji wysokoczęstotliwościowej, ale także do tego, by mieć dostateczny margines bezpieczeństwa. W bardzo rzadkich przypadkach, gdy energia wysokoczęstotliwościowa nie może zostać upchnięta poniżej progu szumów w pasmie A, koder wyśle ostrzeżenie i zatrzyma się.

AV: Jaka jest rola pasma C, skoro zawiera ono głównie szum kwantyzacji? Czy koder jest w stanie wyekstrahować stamtąd dodatkową informację muzyczną (jeśli jest tam takowa)?

BS: Pasmo C jest artefaktem częstotliwości próbkowania. Przetwornik a/c generuje szum własny nawet przy braku sygnału (ciszy). W rozważanym rejonie obserwujemy, że szum jest niezależny od sygnału muzycznego w niższych oktawach. Inaczej mówiąc, jest to szum przypadkowy, losowy. Nie słychać go, ale jeśli byśmy go odfiltrowali, wówczas usłyszelibyśmy działanie filtru. C nie zawiera zatem użytecznej informacji, pożera za to mnóstwo danych w uproszczonym kodowaniu PCM.

AV: Kształtowany szumowo sygnał zielony na wykresie, według informacji na Waszej stronie: „zawiera informację o nagraniu, instrukcje dla dekodera, jak również B i C”. W których bitach oryginalnego sygnału 24-bitowego jest zawarty?

BS: Sygnał ten jest bezstratnie usuwany przez dekoder, tak więc zapis MQA wykonany w studiu zostaje odzyskany bit po bicie.

AV: Jak mają się te wszystkie manipulacje na sygnale do idei bezstratności MQA?

BS: Celem MQA jest bezstratność w domenie analogowej. To, do czego się odnosisz, to bezstratność na poziomie sygnału cyfrowego, w której to koncepcji byliśmy pionierami w latach 90 (MLP — przyp. F.K.). Rozwiązuje ona tylko wąski aspekt znacznie szerszego problemu — jak przesuwać dane audio z umiarkowaną efektywnością. Plik bezstratny mówi nam, że dane zostały precyzyjnie przetransferowane, ale nie jest to świadectwo jakości sygnału, jego rozdzielczości, a jedynie kontenera. Problem, z którym postanowiliśmy się zmierzyć jest większy, poważniejszy — jak usunąć artefakty procesu konwertowania sygnału audio do postaci cyfrowej, a potem sygnału cyfrowego do analogowego. Nasz przekaz pod tym względem nigdy się nie zmienił. Deblurring, enkapsulacja, origami, a następnie dekodowanie, poświadczenie i renderowanie osiągają założony cel w sposób, który jest wstecznie kompatybilny. Naturalnie, gdy sygnał zostanie już zakodowany do MQA, jest przekazywany z wytwórni muzycznej w bezstratnym kontenerze. Założeniem jest uzyskanie znacznie lepszej jakości audio o zdecydowanie poprawionej rozdzielczości czasowej. Biorąc pod uwagę to, że wyczyściliśmy dane i przygotowaliśmy je dla danego DAC-a (w procesie renderingu – przyp. F.K.), faktycznie można wysnuć wniosek, że dane zostały zmienione. Zaznaczam, że dzieje się tak tylko dlatego, żeby uzyskać lepszy efekt końcowy! Równie dobrze można powiedzieć, że mycie okna jest zabiegiem stratnym, ponieważ zmyliśmy brud z szyby. A chyba nikt nie zaprzeczy, że mycie okna poprawia widok.

AV: Unfolding (rozpakowywanie) – czy jest to proces dwu- czy czasami nawet trzyetapowy?
a.) Czy słuszne jest myślenie, że pierwszy unfold „odwija” dane z pasma B, czemu towarzyszy dwukrotne zwiększenie częstotliwości próbkowania?
b.) Drugi unfold ponownie podwaja częstotliwość próbkowania, ale istnieją nagrania w MQA pochodzące z materiałów 352,8 lub 384 kHz. Jak te wszystkie rozwinięcia mają się do pasma C?

BS: System MQA bazuje na idei, że rdzeń (Core) zawiera całą istotną muzycznie zawartość nagrania. Odpowiedź na pytanie a.) brzmi twierdząco. Odpowiedź na pytanie b.) jest natomiast bardziej złożona. W opisanym przypadku, materiału o próbkowaniu powyżej 96 kHz i tempa transmisji 48 kHz rdzeń jest tworzony w procesie zawinięcia kapsułkowego (ang. encapsulation fold) za pomocą systemu bazującego na hierarchii krzywych B-sklejanych, co zostało wytłumaczone w jednej z prac przedstawionych na konwencji AES. Koncepcyjnie rzecz biorąc, kodowanie i dekodowanie bazują na dwóch kolejnych etapach rozwinięć od i do analogu (za analog uważa się sygnał o nieskończonej częstotliwości próbkowania).

Jeśli myślimy o odtwarzaniu, to unfolding może być kontynuowany nie tylko do częstotliwości próbkowania materiału źródłowego, ale także do najwyższej częstotliwości próbkowania obsługiwanej przez dany DAC (nawet do 24 MHz). Choć sama idea uwzględnia dużą liczbę unfoldów, to jednak można je arbitralnie spleść w mniejszą liczbę etapów. Dlatego też urządzenie renderujące odtwarzany sygnał 8x (np. 352,8 kHz) lub 16x (np. 768 kHz) może zrenderować rdzeń MQA za pomocą jednego lub więcej kroków. Nie ma faktycznego rozróżnienia pomiędzy drugim, trzecim czy czwartym rozwinięciem. Kaskada tych kroków może być wykonana jednorazowo lub etapami — tak długo, jak wyjście analogowe „pasuje" do intencji kodera.

AV: Omówmy pokrótce dekodowanie rdzenia i rendering od strony użytkowej. Czym różni się jedno od drugiego i czym są urządzenia określane jako MQA Renderer i MQA Full Decoder?

BS: Dekoder rdzenia MQA (ang. MQA Core Decoder) może działać na różnych platformach. Jest wbudowany w odtwarzacze programowe takie, jak Roon, Audirvana, ale również w przetworniki c/a, amplitunery A/V, odtwarzacze CD, streamery, odtwarzacze przenośne (DAP-y), cyfrowe zestawy głośnikowe itd. Dekoder rdzenia dokonuje pojedynczego rozwinięcia do podwojonej częstotliwości próbkowania (2x), wydobywając ukryte informacje muzyczne z pasma B. Drugie rozwinięcie zawsze ma miejsce w rendererze, który jest komplementarnym etapem do enkapsulacji (w koderze). Ponieważ intencją jest wykreowanie analogowego sygnału audio, renderer jest zawsze ściśle powiązany z przetwornikiem c/a. Zwracam uwagę, że każdy renderer jest inny — dopasowany w taki sposób do każdego przetwornika c/a, aby dać właściwy sygnał na jego wyjściu (analogowym). Komplementarność enkapsulacji (rdzenia) i renderingu jest krytyczną cechą systemu — zapewnia możliwie najmniejsze rozmycie czasowe w całym łańcuchu sygnałowym, od początku do końca. Z tego powodu nie istnieją renderery z wyjściem cyfrowym.

Dekoder rdzenia MQA może być połączony z rendererem w jednym urządzeniu typu Full Decoder DAC.

AV: MQA na Tidalu. Z moich i nie tylko moich doświadczeń wynika, że materiał muzyczny na tej platformie potrafi brzmieć inaczej niż w przypadku plików uzyskanych ze zgrania płyt CD lub z downoladów. Znane są mi przypadki teoretycznie tych samych albumów, jak np. „Slowhand” Erica Claptona, które brzmią zaskakująco różnie w wersji hi-res z HDTracks i w wersji MQA na Tidalu. Gdzie leży przyczyna tych rozbieżności?

BS: Bardzo trudno jest przeprowadzać miarodajne porównania pomiędzy poszczególnymi serwisami streamingowymi. Generalnie nie znamy pochodzenia pliku z downloadu i ze streamingu. Założenie, że są one jednakowe często okazuje się błędne. Właśnie z tego powodu zaimplementowaliśmy do MQA mechanizm poświadczenia (ang. authentication). Chodzi o to, że pliki PCM nie zawsze są masterami ze studia. Gdy wytwórnia wypuszcza album w formacie PCM, jest to przeważnie eksport z projektu masteringowego, a niekoniecznie master jako taki (najczęściej zmiennoprzecinkowy). Mastering jest procesem kształtowania nagrania pod kątem mechanizmu jego dostarczenia. Z tego powodu, plik PCM może mieć różne częstotliwości próbkowania, różne poziomy, różne kompresje. W dystrybucji istnieją różne wymogi dla platform streamingowych, radia, czy płyt. Plik może być zmieniany, normalizowany lub transkodowany przez dystrybutora. To jest kluczowa różnica względem dawnych czasów, gdy master był używany wewnętrznie przez daną wytwórnię płytową dla celów replikacji — produkowania płyt czy kaset.

Należy także zauważyć, że zależnie od treści (nagrania) może istnieć jeden zatwierdzony master i wiele jego pochodnych. Dlatego zawsze prosimy, aby MQA przygotowywać z definitywnie potwierdzonego źródła.

W przypadku popularnych nagrań żyjący artyści i/lub ich producenci nierzadko wpadają na pomysł wykonania remasteringu lub wzbogacenia starego albumu. Wówczas istnieje więcej niż jeden zatwierdzony master. Przykłady to chociażby Led Zeppelin czy The Beatles, a także — jak w przytoczonym przykładzie — Eric Clapton i wspomniany przez ciebie „Slowhand”. Istnieje aż pięć wersji mastera tego albumu z różnych okresów (!). Ten w posiadaniu HDTracks jest stary i nie stanowi źródła dla streamingu z Tidala czy innych serwisów. Były remastery edycji specjalnej, rocznicowej… Moi ludzie podpowiedzieli mi, że trzy z tych masterów są na Tidalu w MQA. Całkiem możliwe, że nie ma miejsc, w których mógłbyś rzetelnie porównać wersję PCM z MQA…

Gdy wytwórnia decyduje się na wydanie MQA, ma ono powstać na bazie najwyższej jakości dostępnego mastera (PCM lub DSD). Dla każdego nagrania powinna istnieć tylko jedna taka wersja. Wydanie MQA jest podpisywane przez właściciela licencji, artystę lub producenta. To jest właśnie to poświadczenie. Plik lub stream MQA jest dostarczany w bezstratnym kontenerze (zwykle we FLAC-u). W celu prawidłowego odtworzenia, cały tor odczytu musi być zgodny bitowo (bezstratny). Omawiana koncepcja została przychylnie przyjęta przez społeczność twórców, ponieważ jest to jedyny sposób, w jaki można zapewnić to, że słuchacz otrzymuje dokładnie ten zapis, który powinien i słyszy go zgodnie z intencją twórców.

AV: 16-bitowe MQA — po co i dlaczego jest oferowane, poza płytami MQA CD wydawanymi w Japonii?

BS: W przypadku płyt MQA CD materiał może pochodzić z dowolnego źródła o częstotliwości próbkowania od 44,1 do 352,8 kHz, 24-bitowego, zmiennoprzecinkowego lub DSD64/128/256 itd. Jest wykonany z plików zawierających bliskie przybliżenie użytecznych danych audio powyżej 22 kHz. Działa to naprawdę dobrze.

Drugim przypadkiem użycia 16-bitowych plików MQA jest dostępność oryginalnego mastera wyłącznie w jakości 16 bitów/44,1 kHz (z taką sytuacją mamy do czynienia np. w przypadku albumu „Brothers in Arms” –przyp. F.K). Nie istnieje potrzeba rozszerzania zapisu o dodatkowe 8 bitów, skoro proces MQA zajmuje tylko 0,15 bita i zachowuje dynamikę 16-bitowego nagrania. Co więcej, godziłoby to w zasady, które omówiłem w odpowiedzi na pierwsze pytanie. Sztuczne zwiększenie długości słów byłoby nieodpowiedzialne w sytuacji, gdy ludzie płacą za pakiety danych lub mają narzucone limity ich wykorzystania — tym bardziej, że nie byłoby z tego żadnych korzyści.

Artykuł pochodzi z Audio-Video 9/2021 - KUP PEŁNE WYDANIE

Oceń ten artykuł

(8 głosów)