Преобразование
аналогового звука
в цифровые данные
В этой главе...
v Аналоговые звуковые сигналы
v Параметры цифрового преобразования звука
v Методы обработки звука
v Эффекты на основе временной цифровой задержки
v Эффекты модуляции и фильтрации
v Технологии синтеза звука
v Процесс сэмплирования
v Краткий обзор программ работы со звуком
Всевозможные звуки, например речь, музыка, пение птиц, городской шум и гул
морского прибоя, которые мы можем воспроизводить с помощью магнитофонов, элек-
трофонов и прочих устройств, — это аналоговые сигналы.
Как известно, аналоговая звукозапись неидеальна, а такие носители, как магни-
тофонная лента и граммофонная пластинка, недолговечны. Лента на бобинах посте-
пенно приходит в негодность, а граммофонные пластинки на шеллаке с записями
"Мариинки" времен Эдисона давно утратили шарм той эпохи.
Для того чтобы аудиоархив можно было использовать спустя десятилетия, его
следует обработать в компьютере и сохранить на оптическом диске.
Для компьютерной обработки аналоговые сигналы непригодны - их нужно пред-
ставить в цифровом виде. В настоящий момент, преобразование звуковых сигналов из
аналогового вида в цифровой реализуется на основе хорошо проработанных техноло-
гий.
Поскольку назначение этой книги — научить читателя основам работы со звуком,
редактирования и сведения цифрового звука, наберитесь терпения и прочитайте эту
18
главу. В ней говорится о том, как аналоговый звук преобразуется в цифровой, какие
параметры изменяются в процессе преобразования, какие базовые принципы поло-
жены в основу данного процесса и какие аппаратно-программные средства могут ис-
пользоваться для этой цели.
Аналоговые звуковые сигналы
Что такое аналоговый звук
Естественные звуки окружающего мира — это, аналоговые (непрерывные во вре-
мени) сигналы. Если физический объект, или источник, формирует в упругой воз-
душной среде колебания, то они распространяются в виде волн. Эти волны попере-
менно увеличивают и уменьшают давление на чувствительные элементы органа слу-
ха или другого приемника.
Для передачи аналоговых сигналов на большие расстояния используются элек-
тронные устройства, предназначенные для усиления, амплитудной, частотной и фа-
зовой модуляции, фильтрации и коррекции электрических сигналов, которые рабо-
тают на акустическую систему.
Фонограммы, полученные с очень старых и, казалось бы, утраченных навсегда но-
сителей, могут быть преобразованы, восстановлены и сохранены. Для преобразования
таких записей и получения цифровых записей если и не отличного, то вполне прием-
лемого для прослушивания качества нужен лишь обычный персональный компьютер
(ПК) с минимальным набором аппаратного обеспечения и специальных программных
средств. Пользователь любого уровня подготовки самостоятельно может отреставри-
ровать старенькие фонограммы и сохранить их па оптическом диске.
Тон и обертон звука
Звук воспринимается слуховым аппаратом человека как результат периодических
изменений давления, вызванных колебаниями источника звука в упругой среде. Зву-
ковые колебания несут в себе энергию, а также информацию. Наиболее известны такие
свойства звука, как высота тона, длительность звучания и громкость, а также тембр и
пространственная локализация источника.
Реальные звуковые колебания графически изображаются на амплитудно-вре-
менной характеристике. Они более сложные, чем чистый тон звука, представленный
синусоидальной кривой.
Реальная звуковая волна имеет форму искаженной синусоиды, которая одно-
значно характеризует все особенности звучания источника звука. Всякое звучание мо-
жет быть разложено на чистые тона разных частот. Эти тона состоят из основного тона и
обертонов, или гармоник. Основным топом (с низшей частотой) определяется высота
звука. По обертонам мы различаем музыкальные инструменты, даже когда на них бе-
рется одна и та же нота. Обертоны особенно важны тем, что они создают тембр инст-
румента и определяют характер его звучания (рис. 1.1).
Частотный диапазон основных тонов большинства источников звука узок, благода-
ря чему можно легко понимать речь и улавливать мотив.
При использовании шкалы устройств и компьютерных программ значение 0 дБ — это
максимальный уровень громкости, который устройство способно воспроизвести в пре-
делах допустимого уровня нелинейных искажений.
При записи звука в компьютер значение 0 дБ соответствует максимальному зна-
чению амплитуды, а все более тихие звуки имеют отрицательное значение амплиту-
ды, выраженной в децибелах. При этом положительный входной уровень громкости
может вызвать перегрузку звукового канала. Это означает, что при воспроизведении
звука, записанного с такой интенсивностью, будут заметны нелинейные искажения.
Приведем некоторые примеры. Удвоение громкости соответствует
ее увеличению на 6 дБ, и наоборот. Уровень шума на магнитофонной лен-
те составляет приблизительно -60 дБ. Порог возникновения болевых ощу-
щений для человеческого уха —120 дБ.
Бинауральный слух
Восприятие пространственной локализации источника звука, или звуковая пано-
рама, имеет место при наличии двух приемников звука. Это явление также называ-
ется бинауральным слухом.
Бинауральный слух позволяет определить, откуда исходит звук. При этом боль-
шую роль играет оценка временного промежутка между поступлением звука в первый
и второй приемники.
Двухканальная стереофоническая система, рассчитанная на прослушивание че-
рез звуковые колонки, создает для бинаурального слуха раздельные звуковые кана-
лы. Звуковые потоки этих каналов несут информацию о направлении распространения
первичного звука.
Простейшая стереофоническая система содержит два микрофона, расположенных
рядом друг с другом и направленных под углом 45° к источнику звука. На практике
используется более двух микрофонов, сигналы от которых микшируются для улуч-
шения музыкального баланса и увеличения акустического разделения.
Сигналы на акустическую систему панорамируются в кажущееся положение, ко-
торое при использовании основной пары микрофонов соответствовало бы их реаль-
ному расположению на сцене.
Микширование— это объединение стереосигналов, а панорамирова-
ние— это изменение углового направления на источник звука. Оно со-
четается с регулировкой уровня.
Тембр и частотная коррекция
Параметр тембр связан с высотой звука. Звуковой сигнал содержит не только ос-
новную первую гармонику, но и гармоники более высоких частот, кратных основной.
При этом звук каждой компонентной частоты имеет собственную, отличную от дру-
гих громкость.
21
На базе амплитудно-частотных характеристик гармоник сложного колебания
можно построить графическое изображение спектра звука. Совокупность всех спек-
тральных составляющих определяет тембр звучания.
Неправильный баланс в области низких и высоких частот приводит к частотным
искажениям, которые графически могут быть изображены в виде провалов на низких
или высоких частотах амплитудно-частотной характеристики.
Для минимизации частотных искажений в аппаратуре с высокой верностью воспро-
изведения предусматриваются корректирующие устройства — эквалайзеры, которые
позволяют минимизировать неравномерности на амплитудно-частотной характери-
стике сигнала.
Коррекция частотной характеристики проводится также для внесения в нее пре-
дискажений, обеспечивающих нужную форму частотной характеристики, от чего за-
висят параметры пространственного звукового поля.
Спектр синусоиды и гармоник
В процессе анализа звука широко применяется спектральное представление зву-
ковых волн, поскольку между спектром и колебательными системами существует
тесная взаимосвязь.
Спектральное представление сигналов, в том числе и звуковых, базируется на тео-
рии разложения гармонических колебаний в ряд Фурье.
Ряд Фурье дает разложение любой периодической функции по элементарным три-
гонометрическим функциям. Это разложение можно применить и к непериодическому
сигналу, который в этой ситуации рассматривается как предельный случай периодиче-
ского сигнала при неограниченном возрастании периода.
Основные соотношения теории спектра связывают между собой две наиболее
важные составляющие — вещественную функцию времени, формула которой пред-
ставляет интеграл Фурье, и комплексную функцию частоты, которая выражает так на-
зываемую спектральную плотность. Абсолютное значение спектральной плотности на-
зывают просто спектром.
Если ряд Фурье представляет собой периодическую функцию с суммой беско-
нечного числа синусоид и с частотами, имеющими определенные дискретные значе-
ния, то интеграл Фурье представляет непериодическую функцию с суммой синусоид
и косинусоид с непрерывной последовательностью частот.
Иногда говорят, что в составе непериодического сигнала есть колебания всех час-
тот. В случае непериодического сигнала судить об амплитудах отдельных спек-
тральных составляющих нет смысла, так как это бесконечно малые величины. В данном
понимании процесса спектр зависит только от частоты.
Текущий спектр определяется как результат преобразования Фурье, но с пере-
менным верхним пределом интегрирования (текущее время), поэтому является
функцией не только частоты, но и времени.
Циклический процесс называется периодическим, если он длится доста-
точно долго. Длительность процесса в этом случае определяется
числом периодов, которое должно быть намного больше единицы.
Динамический диапазон оценивается соотношением между наи-
большим уровнем интенсивности полезного сигнала, при котором нели-
нейные искажения удовлетворяют техническим требованиям, и минималь-
ным уровнем полезного сигнала с допустимым соотношением "сигнал-
шум".
Технология компандирования позволяет при записи повышать средний уровень
интенсивности звука, а при воспроизведении — понижать уровень сравнительно ти-
хих фрагментов и, следовательно, шума.
Процесс компандирования, с одной стороны, должен обеспечить согласование ком-
прессора и экспандера во всем диапазоне частот и громкости. С другой стороны, следует
предотвратить повышение и понижение уровня шума вместе с уровнем сигнала.
Стандарт динамического шумоподавления Долби
Одна из наиболее известных технологий шумоподавления — так называемая
"система Долби". Рассмотрим ее разновидности.
Система "Долби Л". Обеспечивает промежуточную обработку, осуществляемую на
входе и выходе звукозаписывающей аппаратуры, результатом которой является
нормальная, или плоская, характеристика на выходе. Каждый из частотных каналов
обрабатывается отдельно, вследствие чего подавление шума выполняется только в том диа-
пазоне частот, в котором эти шумы обнаружены. Критерием для такой обработки яв-
ляется порог громкости полезного сигнала, который недостаточно эффективно маскирует
уровень громкости шума.
Система "Долби В". Эта система нашла применение в бытовых кассетных магнитофонах.
В отличие от метода "Долби А" запись звука осуществляется с учетом того, что при воспро-
изведении будет выполнена дополнительная обработка сигнала. Музыкальные фраг-
менты, закодированные посредством технологии "Долби В", можно воспроизводить и на
аппаратуре, не имеющей соответствующей системы шумоподавления Долби, но это
приведет к потере громкости на высоких частотах.
Система "Долби С". Представляет собой усовершенствование системы "Долби В" и по-
зволяет понизить шум до 20 дБ. Система "Долби С" функционирует начиная с частоты 100
Гц и поддерживает понижение уровня шума на 15 дБ на частотах в пределах 400 Гц,
что ослабляет эффект модуляции средних частот высокочастотными сигналами.
Система шумоподавления DBX. Эта система дополняет обработку на входе и выходе магни-
тофона. При кодировании и декодировании с ее помощью сигнал сжимается в два раза, т.е. исполь-
зуется коэффициент компрессии 2:1. В системе DBX уровень оценивается по полной мощности
сигнала. При этом учитывается, что основная часть мощности звукового, сигнала концентрируется
на средних и низких частотах, а на высоких частотах большая мощность бывает лишь при высоком
общем уровне громкости. Система DBX может повысить отношение "сигнал-шум" на высоких
частотах на 30 дБ.
Недостатки аналогового метода звукозаписи
При аналоговой звукозаписи количество информации в несущем сигнале соот-
ветствует количеству информации в исходном сигнале. Электрическое представление
25
сигнала не содержит избыточности, которая могла бы защитить переносимый сигнал от ис-
кажений при хранении, передаче и усилении. Таким образом, несмотря на сущест-
вующие возможности точного воспроизведения фонограмм для аналоговой звукозаписи ха-
рактерен ключевой недостаток — невозможность отредактировать записанный му-
зыкальный фрагмент.
Кроме этого недостатка, следует отметить неизбежность порчи фонограмм при записи и
хранении магнитных лент и граммофонных дисков. Фонограмма может испортиться по са-
мым разным причинам.
Параметры цифрового преобразования звука.
Как выполняется преобразование звука.
В связи с отмеченными недостатками аналоговой записи звука наряду с этим методом
может использоваться цифровая звукозапись. Передачу и хранение данных в компью-
терах, оперирующих исключительно цифровыми данными, можно осуществлять без каких-
либо существенных потерь ее качества.
Цифровая запись звука в большей степени свободна от шумов и помех, она может
быть скопирована неограниченное количество раз и каждый раз сохранена без ухуд-
шения качества. Кроме того, цифровой звук на компьютере можно редактировать,
аранжировать, компоновать и вообще обрабатывать запись настолько глубоко и тща-
тельно, насколько позволят используемое специальное программное обеспечение и
мощность компьютера.
Цифровое представление электрических сигналов призвано внести в них избы-
точность, предохраняющую от воздействия паразитных помех. Для этой цели на не-
сущий электрический сигнал накладываются ограничения — его амплитуда может
принимать только два предельных значения: 0 и 1.
Аналоговые сигналы от источника звука преобразуются в цифровой код с помо-
щью специального устройства— аналого-цифрового преобразователя (АЦП). Это уст-
ройство преобразует непрерывный аналоговый сигнал в последовательность от-
дельных чисел, делая его дискретным (Discrete), состоящим из отдельных частей.
В результате работы АЦП получается цифровой образ звука, который называется
волновой формой (Waveform).
Существует также и другое название оцифрованного звукового сигнала — сэмпл.
Соответственно, процесс цифрового преобразования, или оцифровки, называется
сэмплированием.
Сэмпл (Sample) — это мгновенный цифровой отсчет волновой формы аудио-
сигнала, произведенный в конкретный момент времени. При оциф-
ровке серия цифровых сэмплов воспроизводит полную волновую форму ис-
ходного сигнала.
Однако, в музыкальном сэмплировании термин сэмпл используется для
описания всей записи цифрового сигнала, а не мгновенного цифрового от-
счета.
После дискретизации относительно низкочастотный исходный аналоговый сиг-
нал представляет собой последовательный временной ряд очень узких импульсов с
различной амплитудой и с очень широким спектром до нескольких мегагерц (чем уже
импульс, тем шире его спектр). Таким образом, спектр дискретизованного сигнала
значительно шире спектра исходного аналогового сигнала.
Реальные аналоговые сигналы часто содержат высокочастотные составляющие,
плохо поддающиеся оцифровке на стандартных частотах 44,1 или 48 кГц. Поэтому
перед дискретизацией необходима аналоговая фильтрация, т.е. удаление всех частот
выше частоты Найквиста. Для этой цели используются различные средства, в част-
ности - метод дискретизации на повышенной частоте, или метод превышения частоты
(Oversampling).
Квантование по амплитуде
Второй этап оцифровки — это квантование амплитуды дискретных отсчетов, по-
лученных на первом этапе.
В чем заключается квантование по амплитуде?
На рис. 1.2 представлен график амплитудно-временной характеристики звукового
сигнала. Эта кривая представляет волновую форму, и в любой момент звукового сиг-
нала ее амплитуда имеет конкретное значение.
Значение амплитуды кривой может быть измерено и выражено некоторым чис-
лом. При высокой точности измерения амплитуды сигнала в каждый момент времени
и ее выражении в числовом виде полученный ряд чисел будет представлять запись
исходного звукового сигнала. Эту последовательность чисел можно преобразовать в
двоичную форму и записать на жесткий диск компьютера.
Поскольку звуковой сигнал непрерывен, для получения точной цифровой записи
звукового сигнала измерять его амплитуду нужно через бесконечно малые проме-
жутки времени и бесконечное количество раз, а полученный числовой массив будет
бесконечно велик.
В действительности же можно провести измерения лишь конечное число раз, ис-
пользуя конечное число амплитудных градаций (этот параметр называется ампли-
тудным разрешением). Такой процесс называется квантованием по амплитуде. В ре-
зультате оцифрованный звук на выходе в любом случае будет отличаться от исход-
ного. Каждый отсчет можно представить вертикальной полоской на графике ампли-
тудно-временной характеристики (рис. 1.6).
Вместе с тем для нашего слуха характерна логарифмическая зависимость вос-
приятия звуков, что дает возможность применять метод логарифмического кван-
тования. В этом случае числовое значение пропорционально величине сигнала в де-
цибелах.
Использование дизеринга
Поскольку реальные музыкальные сигналы далеки от белого шума (сигналов с
равномерной интенсивностью в пределах частотного спектра), при их оцифровке
шумы квантования оказываются зависимыми от сигнала. Слух реагирует на этот
"грязный" звук. Особенно четко данный эффект проявляется при 8-разрядном пре-
образовании.
Если обычный 16-разрядный сигнал уменьшится по громкости на 48 дБ (для 8-
разрядного преобразования) от своего номинального уровня, то звук станет непри-
годным для прослушивания. В этом случае вместо отношения "сигнал-шум" 96 дБ
для обычного 16-разрядного сигнала реальный динамический диапазон из-за эффекта
зависимости шумов квантования от сигнала составит всего 48 дБ.
Следовательно, для того чтобы 16-разрядная цифровая запись звучала чисто, не-
обходимо предотвратить понижение уровня сигнала — он не должен становиться 8-
разрядным. В этом случае нужно сжать динамический диапазон исходного музы-
кального материала, что предотвратит грязное звучание на слишком низких уровнях.
Поставленную задачу сложно выполнить, поэтому в таких случаях применяется
технология, называемая дизерингом (Dithering). Она позволяет частично снизить эф-
фект грязного звучания за счет незначительного увеличения высокочастотного шума.
Технология дизеринга заключается в добавлении небольшого шумового (обычно
высокочастотного) сигнала во входной сигнал АЦП или уже к цифровому сигналу в
момент понижения разрядности (например, с 20 и более разрядов исходного музы-
кального материала до 16 разрядов для записи на компакт-диск). Это приводит к неза-
висимости шумов квантования и сигнала, однако общий уровень шумов возрастает. |