ЦИФРА, КОТОРУЮ СЛУШАЮТ
Эту статью я пишу как бы «вдогонку» к опубликованной ранее четырехчастной «Симфонии для акустики с компьютером» (к сожалению тот мой сайт и все материалы на нем пропали из-за недобросовестного хостинга). Дело в том, что прежде, чем обзавестись приличной звуковой картой и многоканальной акустической системой, я изучил огромное количество разнообразных тестов, выложенных в Сети и на страницах серьезных изданий. Каково же было мое удивление (возмущение, расстройство), когда на деле приобретенный товар выдавал не совсем то (а, не редко, совсем не то), о чем свидетельствовали мудрые тестовые заключения. Нет, я, конечно, не говорю о технике Hi-End-класса по заоблачным ценам (хотя, может, и там такая же картина?). Я, как нормальный среднестатистический пользователь, подбирал что-нибудь, пытаясь совместить несовместимое: достойное качество при халявной стоимости. Сам понимаю, что такого не бывает. Но ведь так хочется! В общем, я барахтался в огромной куче девайсов, по качеству и цене именуемых как «середнячки».
В результате, я уяснил следующее: почти все тесты и обзоры или являются PR-материалами (в большинстве случаев), где объективности нет априори, или выполнены небрежно (непрофессионально, однобоко, урезано). А как же еще к ним относится, если просто на слух я ощущал огрехи звучания при воспроизведении любимого аудиодиска. И данный носитель здесь ни причем. У приятеля через его акустику от Harman/Kardon фонограммы звучали, как говорится, «улетно».
Хочу пояснить, что я имею в виду, когда говорю об огрехах звучания. Все мои знакомые звукорежиссеры и специалисты по аудиомастерингу покупают домой исключительно бытовые системы, а не студийные. Они хотят слушать музыку, а не отмечать недочеты исполнения, сведения, записи и.т.п., которые прямо-таки вылезают на профессиональной технике. Так вот, артефакты и реально ощутимая потеря качества проверяемых мною аудиокарт и акустических систем, связанны с их конструктивными недостатками, а не с их «профессиональностью». И не подумайте, что в детстве я гулял по дремучей тайге, споткнулся, упал, и невесть откуда взявшийся медведь безжалостно оттоптал на мое некстати торчащее ухо. Я, конечно, не Владимир Горовиц, но слух у меня все же есть.
К чему это я? Да к тому, что если при выборе звукового оборудования прислушиваться к мнению экспертов, то только авторитетных, использующих серьезную тестовую технику. И, в первую очередь, ориентироваться по личным ощущениям. Правда, при этом неплохо быть хоть немного осведомленным в вопросе: что представляет собой цифровой звук. Собственно, об этом и пишу.
Так уж в настоящий момент сложилось, что любая фонограмма, звучащая из любого источника, является цифровой. Да, музыка льется с обыкновенной компакт-кассеты. Но ведь вначале ее записали на цифровой мастер-диск. Да, любимый ведущий любимого радио вещает из старенького транзисторного приемника. Но ведь между его микрофоном и радиоэфиром стоит цифровой процессор. Байки о том, что аналоговый звук лучше цифрового канули в лету. Все, прошли такие времена, обусловленные несовершенством как записывающей, так и воспроизводящей аппаратуры. И если сегодня кто-то жалуется, что ощущает явную безжизненность («пластмассовость», «дисциллированность») цифрового звука, то это свидетельствует либо о не качественности пиратского «копирайта», либо о несовершенстве звуковой карты или аудиосистемы пользователя. Поскольку о высоком качестве известных звукозаписывающих студий говорить не приходится. И вообще, поскольку в компьютерных системах никаких других вариантов звука, кроме «цифры», отродясь не водилось, то давайте исходить, как говаривал один политик, «из реалий наших дней».
Но сначала давайте определимся в основах звуковой оцифровки, оставляя пока «за бортом» сжатие по схемам MP3 или AC3. Поступающий на вход аналогово-цифрового преобразователя (АЦП) электрический сигнал отмечается через равные промежутки времени. Частота, с которой отмечается сигнал, называется частотой дискретизации (для компакт-диска таких фиксаций производится 44100 раз в секунду, отсюда частота – 44,1 кГц). Каждая подобная отметка называется цифровым отсчетом, или сэмплом. Отмеченное значение представляется в виде числа с определенным количеством бит (для CD их 16), что называется битностью. Понятно, что чем выше частота дискретизации (чем чаще отметка), тем точнее оцифрованный сигнал передает исходную форму волны. И чем больше бит в цифровом звуке, тем вернее отмеченное значение. Разница между реальным сигналом и его отмеченным значением называется ошибкой квантования (шумом квантования). Чем выше разрядность, тем меньше ошибок квантования.
Отношение сигнал/шум для данной разрядности рассчитывается по формуле: Сигнал/Шум (дБ) = 6 х Ч (Разрядность, бит) + 2. Отсюда следует, что для 16-битного кодирования динамический диапазон равен 98 дБ. Еще добавлю, что цифровой звук имеет верхний порог громкости, который записывается определенным количеством бит: для 16 – это 65536, - данное значение принимается за ноль, и от него вниз отсчитываются все уровни громкости.
Итак, обыкновенный аудио-CD – это сборник композиций с битностью в 16 бит и частотой дискретизации – 44,1 кГц. Его так и обозначают – 16 бит/44,1 кГц. Насколько корректно отрабатывают его компьютерные звуковые карты? Так уж получилось, но с частотой 44,1 работает вся современная бытовая аудиотехника, а вот компьютерный звук заточен исключительно под 48 кГц. И пусть никого не сбивают с толку надписи на коробках типа «CD Quality» или «44,1 Hi-Fi». Данные надписи указывают лишь на то, что карта способна прочитать и записать в режиме 16/44, и не более. Происходит все следующим образом: карта, принимая звук с частотой дискретизации 44,1 кГц, следом пересчитывает его в 48 кГц. То есть, к уже имеющимся в сигнале отметкам добавляются новые для увеличения количества сэмплов в секунду (с 44100 до 48000). Это называется ресэмплингом. Хочешь-не хочешь, а ресэмплинг является отцом довольно многих искажений, которые примешиваются к звуку еще до или после аналоговой части аудиокарты. Так что компьютерный звук может не уступать качеству воспроизведения CD с бытового проигрывателя только при двух условиях: либо АЦП/ЦАП последнего очень примитивен, либо это дорогая продвинутая звуковуха, программно или аппаратно «вытягивающая» недочеты и убирающая все искажения. Ведь, что интересно, даже при реализации звука в Dolby Digital, скомпрессированного в AC3 при частоте дискретизации 48 кГц, тоже получается искажение. Дело в том, что физически невозможно изготовить два идентичных тактовых генератора. Они хоть на доли процента, но будут непременно отличаться. А так как «умная» аудиокарта не может просто выдать то, что получила на входе, она его все равно «заресэмплит», подгоняя «под себя».
Другое узкое место компьютерного звука – помехозащищенность. Согласитесь, единственный источник помех в бытовом CD-плеере, который может негативно повлиять на качество воспроизведения CD – это лишь блок питания. Основная масса уважающих себя производителей решила эту проблему. Что касается компьютера, то в нем целый букет помехоносителей: начиная от самого процессора, заканчивая кулером на видеокарте. Поэтому случается, что, подключив какую-нибудь дешевую «no-name» звуковуху, чувствуешь – говорить что-либо о качестве собственно аналогово-цифровых и цифро-аналоговых преобразователей не приходится. И вспоминаешь знаменитую фразу: «Не гонялся бы ты, поп, за дешевизною!».
Теперь, о разнообразных схемах сжатия звука (MP3, АС3 и т.п.). Случается, что при выборе звуковой карты или акустики неожиданно отмечаешь – звучание фонограммы в MP3 лучше, чем качество с «прямого» аудио-CD. Не обольщайтесь. Скорее всего, это явный признак того, что ЦАП вашего CD-Rom уступает своему собрату с аудиокарты. Поскольку звук сжатых данных заведомо хуже не только из-за вышеупомянутого ресэплинга. Само понятие «компрессия» уже говорит о том, что ради возможности уменьшить объем файла пришлось чем-то пожертвовать. А чем можно пожертвовать, сжимая аудиофайл, кроме качества звучания?
Напрямую оцифрованная запись, хранимая на аудио-CD, имеет, как известно, частоту дискретизации 44,1 кГц. Согласно теореме Котельникова этого вполне достаточно для воспроизведения всех частот исходного сигнала, меньших половины частоты дискретизации. Т.е., все частоты до 22 кГц включительно воспроизводятся именно так, как они звучали в реальности до оцифровки. Те же частоты, что превышают 22 кГц, нас мало интересуют, поскольку человеческим ухом не воспринимаются. Есть, правда, индивидуумы, улавливающие звуки и на 24 тысячах Гц, но их – единицы. В общей массе наш порог слышимости заканчивается на 20 кГц. Короче, такая запись не имеет никаких искажений и потерь качества. Это и стало в 1980 году стандартом для производства цифрового аудиокомпакт-диска (Compact Disc Digital Audio – CD-DA), вошедшим в знаменитую «Красную книгу» (Red Book). Только не в ту «Красную книгу», что о редких и исчезающих животных. С целью систематизации технических стандартов был создан специальный сборник «цветных книг» - красная, желтая, зеленая, оранжевая, белая и голубая, описывающих и специфицирующих форматы различных типов представления цифровой информации на компакт-дисках. Основателями «Красной книги» выступили компании Philips и Sony Corporation. Они преследовали цель: сертифицировать носитель для прослушивания высококачественного звука в домашних условиях, способный наконец-то заменить недолговечный и капризный «винил». И все бы хорошо, если бы не одно «но» - размер звукового файла в формате audio-CD до неприличия огромен. Одна минута записи занимает примерно 15 мегабайт. Вот и приходится компрессировать информацию. Ничего не поделаешь, но основной принцип MP3, АС3 и т.п. основан на сжатии потока данных с потерями. Компрессия с потерями – такой вид компрессии, при котором невозможно восстановить исходные данные, а только данные, лишь в математическом смысле похожие на оригинал.
Приведу, для примера, метод сжатия в модном на сегодня формате Dolby Digital. Используемая в Dolby Digital схема компрессии данных AC3 обладает довольно высокой эффективностью: коэффициент сжатия иногда превышает 12:1, поддерживаемые битрейты от 32 до 640 кбит/с (в кино используется 320 кбит/с.; на простом аудио компакт-диске, информация закодирована без потерь с постоянным битрейтом 1407 kbps. – получается, что уже только битрейты можно уменьшить почти пятикратно). Однако при этом она обладает высоким качеством звука. Но, отмечу, субъективным. Дело в том, что AC3, как и все современные схемы сжатия данных звуковых потоков (в частности, MP3), опирается на психоакустические особенности восприятия человека. Замечено, что перед и после громкого акцентированного сигнала, звучащего на определенных частотах, наше ухо практически не способно услышать более тихие звуки, имеющие другую частоту. Это явление позволяет не кодировать вообще или кодировать с меньшей разрядностью подобные маскирующиеся звуки. Кроме того, компрессия данных осуществляется и путем недеструктивного избавления от избыточной информации (сродни алгоритмам, применяемым в архиваторах ZIP или RAR). Для реализации компрессии входящий поток данных разбивается во времени на перекрывающиеся блоки (фреймы) по 512 сэмплов. Так, при частоте дискретизации 48 кГц это составляет 10,66 мс. Причем, если в сигнале присутствуют резкие перепады уровня, то размер блока уменьшается вдвое, чтобы качественно передать эти быстрые скачки. Также при сжатии входящий поток разбивается и по частоте: весь звуковой диапазон в 24000 Гц делится на 256 сегментов, составляя для каждой полосы ширину диапазона в 93,75 Гц. Впоследствии звуковая информация в каждой частотной полосе фрейма переводится в числовое значение с плавающей запятой, поскольку количество бит в целочисленной мантиссе и экспоненте является переменным, и затем согласно определенной психоакустической модели производится обработка входящих значений, при которой некоторые не несущие сколько-нибудь значимой информации частотные полосы вообще не кодируются, а остальные кодируются с большей или меньшей разрядностью, благодаря чему и происходит существенное уменьшение потока данных. Причем, психоакустическая модель может меняться во время сжатия, но потом корректно восстанавливаться в момент декодирования, так как ее параметры прописываются для передачи в потоке AC3.
Для тех, кому непонятен термин битрейт, поясню: битрейт (bitrate) – количество единиц информации, необходимых для хранения (передачи) потока данных за одну секунду, т.е., объем информации в единицу времени. Естественно, чем он меньше, тем меньший размер имеют файлы с одинаковой по времени длине. Но чем он меньше, тем, значит, безвозвратно «выкидывается» большее количество «лишних» данных.
Для дополнительного сжатия используется еще и метод объединения данных из разных каналов. В реальной многоканальной фонограмме звуковая информация разных каналов нередко пересекается. Вот подобные фрагменты и кодируются один раз, как общие для всех. Правда, данная технология применима только для звуков, имеющих частоту выше 10 кГц, - только так удастся сохранить локализацию источников звука. Учитывая наличие целых пяти полноценных звуковых каналов, у кодера появляется возможность вдоволь «поиграться», чтобы значительно сократить поток данных.
Кстати, о полноценности каналов. В большинстве случаев, многоканальность достигается синтезированным, а не естественным образом. И хотя бывают случаи, когда фонограммы действительно записываются в 5.1 с помощью специальной звукоснимающей аппаратуры, расставленной особым способом, в основном такое встречается редко, поскольку требует нестандартных и трудоемких решений.
В итоге, сжатие звука не может не порождать целый «букет» искажений. Понятно, что чем выше битрейт, тем они менее выражены, хотя тем больше размер файла. Но все равно они есть, и никуда от них не деться. Даже новомодные форматы, типа DTS 96/24 не в силах выправить ситуацию. Понятно, что DTS 96/24 – шестиканальный стандарт с параметрами от DVD-audio — частота дискретизации 96 кГц, разрядность 24 бит, - стоит куда выше традиционных 48 кГц и 20 бит, применяемых для всех во всех распространенных форматах домашнего театра. Но, несмотря на все утверждения производителя, звук все равно не пока не может достичь качества обычного CD. А что делать? Ведь для того, чтобы добиться таких параметров: линейный PCM 16/44 с битрейтом свыше 3000 кбит/с на 2 канала, и сохранить при этом многоканальность – потребуется не один DVD-диск. Поэтому не удивляйтесь, если фонограмма, записанная в каком-нибудь формате сжатия (например, МР3) со стандартным битрейтом 192 кбит/с, кажется вам несколько искаженной. Значит, ваше ухо все-таки ощущает нехватку удаленных, вроде как, малозначительных данных. Есть определенная категория людей, которые ощущают «неправильность» звучания даже при воспроизведении с битрейтом 320 кбит/с. Вынужденная расплата за экономию места на диске.
Однако на качество цифрового звука влияет не только метод его оцифровки и сжатия, но и качество обработки. То, что звук переведен в цифру, совсем не значит, что теперь его можно обрабатывать, к примеру, на компьютере без всяких потерь. Ан нет! Даже если фонограмма заведомо высокого качества…. Точнее, - тем более, если фонограмма заведомо высокого качества, он ухудшится от любого вмешательства. Пусть вы всего лишь переписали ее, слегка усилив басы или «приподняв» высокие частоты. На своей звуковухе и через свои колонки эти ухудшения качества можно и не заметить. Но чем «хайфайнее» техника, тем такая деградация будет видна все отчетливее.
Почему? А потому, что изначально для нормальной обработке звука не хватает должной разрядности. Для того, что называется «нормальной обработкой» нужна избыточная разрядность преобразований, а не стандартные 16 бит.
Представьте себе, что фонограмма обрабатывается с целью добавить громкости на каких-то частотах. Соответственно изменяется громкость определенных семплов. В итоге, при повышении уровня всего на 1 дБ значение каждого из них перестает быть целочисленным, а приобретает вид числа с «хвостом» цифр после запятой с точностью до 4 или 5 знака. А поскольку ни одна карта не может работать с такими дробными числами, эти «хвосты» попросту отбрасываются. То есть, семплы становятся чуточку неточными. И сколько таких «чуточку» набирается на протяжении 3-минутного трека? Отсюда и получается «пластмассовое» звучание, что дает повод говорить о том, что цифровой звук уступает аналоговому. Метод обработки сигнала с простым «усекновением» знаков после запятой в аудиомастеринге называется транкейтом (truncate – отсечение, округление отбрасыванием младших разрядов).
24-битный сигнал и 16-битный сигнал, полученный из него транкейтом
Если же математическая составляющая алгоритма программы равна 32 битам – картина становится совершенно иной. Оригинал переводится в 32-битное состояние и обрабатывается. Естественно, при данной битности количество дробных значений становится на порядок меньше. А затем разрядность звука понижается до 16 бит. Но и в этом варианте некоторые сэмплы получаются с дробным значением. Кроме того, сужение динамического диапазона при возвращении в 16 бит само по себе может приводить к потерям. Поэтому, особенно при обработке записей с широким динамическим диапазоном (классика, джаз и т.п.) применяются специальные высококачественные методы снижения разрядности. Они называются дитерингом (dithering - размывание [аудио]сигнала для получения более естественного звучания).
24-битный сигнал и 16-битный сигнал, полученный из 24-битного с помощью дитеринга
Чтобы корректно избавиться от дробей к ним подмешивают специально сгенерированный шум небольшой амплитуды, доводя значение сэмплов до целого числа. Таким образом, улавливаемые человеческим ухом гармонические искажения могут быть либо совершенно устранены, либо значительно подавлены. Дитерингом удается превратить эти раздражающие искажения в обычный терпимый для восприятия шум. Увы, расплата за подавление искажений - немного повышенный (до +6 дБ по сравнению с округлением) уровень шума в фонограмме. Но, следует отметить, данный шум гораздо тише, чем «шипение» ленты компакт-кассеты.
Причем спектр дитеринг-шума можно варьировать, чтобы уменьшить его воспринимаемую громкость. Наше ухо неодинаково чувствительно к звукам различных частот. Поэтому почему бы не попытаться переместить шум в те частотные диапазоны, где наше ухо наименее чувствительно? Тогда воспринимаемая громкость шума понизится. Это уже следующая ступень дитеринга - noise shaping - метод формирования шума, позволяющий придать его спектру квантования практически любую форму, так сказать, следующий класс алгоритмов снижения разрядности, расширяющий возможности алгоритмов дитеринга. Основная идея заключается во введении обратной связи в процесс снижения разрядности. Ошибка квантования, полученная для текущего временного отсчета, при помощи специального фильтра участвует в процессе формирования шума для следующего временного отсчета. В результате шум практически вообще пропадает, ну, или, по крайней мере, не улавливается на слух.
Так вот, подобного уровня обработки никогда не добьешься ни с помощью бытовой техники, ни при использовании, пусть даже самой крутой, звуковой карты. И то, что на упаковке многообещающе написано «24 bit» - свидетельствует лишь о том, что микросхема преобразователя карты способна принять для ЦАП или отправить в АЦП 24-битный цифровой поток, а не о ее реальном разрешении.
Профессиональный же мастеринг делается в студиях с помощью аппаратуры динамической обработки – адаптивных эквалайзеров, компрессоров, лимитеров и т.д., и т.п., где стоимость каждого прибора переваливает за отметку 10 тысяч «зеленых». Но даже в их преобразователях производителям с трудом удается добиться точности близкой к 22 битам. А теперь прикиньте, с какой реальной битностью обрабатывается звук в компьютерной звуковой карте!
Еще о чем хотел сказать, так это о часто встречаемой «вшитой» в нутро бытовой техники или предлагаемой в качестве фишки в компьютерных программах-плеерах системе автоматического выравнивания звука. В идеале она должна подгонять фонограммы, записанные в сборник из разных источников, под один уровень громкости. Пользоваться этим прибамбасом я бы не советовал. Дело в том, что человеческий мозг оценивает громкость звучания по среднеквадратичному уровню сигнала – RMS (Root Mean Square). А «умная» техника может определять общую для всех треков громкость только по пиковым значениям, т.е., по самому громкому сигналу. Поэтому, если одна композиция на все своем протяжение звучит тихо, и лишь однажды в ней проскочил громкий сигнал, а вторая композиция вся целиком звучит громко, но все же тише, чем пик в предыдущей фонограмме, то, что сделает программа? Она оставит первый трек без изменения, а второй «подтянет» к пиковому сигналу первой. И получается, что первая композиция, как была тихой, так и осталась, а зато вторая «орет» как потерпевшая. При этом прошу учесть, что подобное «выравнивание» происходит не на аналоговом, а на цифровом уровне с 16-битной разрядностью, об огрехах которой я уже говорил выше.
И, наконец, об интерфейсе, то бишь, проводах. Если цифровой сигнал передается по проводам, скажем с аудиокарты на кроссовер акустической системы, то это вовсе не значит, что в отличие от аналоговой передачи звука он будет неизменно идеален. При соединении «по цифре» не редки случаи возникновения джитера (jitter – дрожание, отклонение фазы или частоты передаваемого сигнала) – нестабильности тактовой частоты цифрового сигнала, которая при высокоскоростной передаче может приводить к возникновению ошибок или потере синхронизации.
a) – джитер; b) – оригинал. t – время, затраченное на передачу одного бита при данной частоте дискретизации
На слух джитер ощущается по некоторой «замутненности», «размытости» звука, а также по плохой локализации фантомных источников звука и ощутимом сужении стереобазы. Это результат того, что частота дискретизации как бы не совсем равна 44,1 кГц. Из-за «дрожания» временные интервалы между сэмплами пусть немного – всего на несколько пикосекунд, но отличаются друг от друга.
Чем это вызвано? Во-первых, нестабильность тактового генератора передающего устройства. К сожалению, зачастую производители бытовой аппаратуры не устанавливают в нее дорогой высокостабильный генератор, дабы остаться в рамках определенной ценовой категории. Во-вторых, помехи и различные наводки, о которых я указывал ранее. И в третьих, плохое качество или несогласованность соединительных проводов. Если применять электрический SPDIF-кабель фирмы «Кто-то Там Китай Продакшин», в котором положенное сопротивление 75Ом не водится по определению, а штекеры-«тюльпаны» припаяны на честном слове, то джитер можно получить особо и не напрягаясь. Но бывает, переписывая с привода на привод данные с диска, отпечатанного на расхлябанном подпольном станке, получаем копию лучшего, чем оригинал, качества. А все потому, что джитер – есть результат недолжной работы передающего устройства и соединительных проводов, а не конечного преобразователя, где цифровой поток воспроизводится, используя собственный внутренний генератор. Кстати, воспроизведение звука непосредственно с компьютерного CD-Rom, как правило, качественнее, чем с привода бытового CD-плеера, однако весь прилагаемый к нему букет огрехов и помех, зачастую, сводит все на нет.
Вот, пожалуй, и все. Может, для кого-то эта статья показалась более сложной, чем предыдущий «эпос», но я специально писал ее для тех, кто хотел прояснить для себя некоторые более детальные подробности о цифровом звуке.
И вообще, больше доверяйте собственному слуху, чем всяким заумным статьям…. Моим, в том числе :-))!
Аскар Алиев, 2005, Алма-Ата
|
December 20 2014 05:15:19
December 20 2014 05:18:12
November 27 2021 13:35:06