Кодирование и сжатие аудио-информации
Реферат, 13 Декабря 2011, автор: пользователь скрыл имя
Описание работы
Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :
Семплирование и квантизация
Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени.
Работа содержит 1 файл
лекции.doc
— 1.15 Мб (Скачать)Кодирование и сжатие аудио-информации
Цифровая запись и воспроизведение звука
Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :
Семплирование и квантизация
- Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени. Таким образом, происходит замена аналогового сигнала последовательностью его мгновенных значений, отсчитываемых с определенной частотой( семплирование).
- Согласно теореме Шеннона-Котельникова, значение сигнала будет точно воспроизведено, если частота стробирования по крайней мере в 2 раза выше, чем частота самого сигнала.
- Для речевого сигнала, ограниченного при телефонной передаче частотой 3400 Гц, частота дискретизации принята равной 8000 имп/с, и, следовательно, период стробирования, т.е. интервал между соседними сканированиями, равняется 125мкс(1 с/8000=125 мкс).
- Измерение амплитуды в дискретные моменты времени называется квантованием амплитуды, когда кждое значение аплитуды представляется как сумма небольших и равных ее значений, называемых квантами , а сама процедура называется квантизацией.
Оцифровка звукового
сигнала
Дискретизация аналогового сигнала во времени
Квантование
значений амплитуды
Параметры оцифровки
- Частота семплирования (частота дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Для качественного преобразования применяют частоты более чем в два раза превышающие верхнюю границу звукового диапазона: 44.1, 48, 96 кГц
- Разрядность семплирования. Этот параметр указывает, с какой точностью происходят измерения амплитуды аналогового сигнала. В современных преобразователях используется 24-битное кодирование сигнала. Такая разрядность позволяет получить 224=16777216 значений амлитуды, что более чем достаточно для высококачественной оцифровки звука.
Семплирование звука с низкой и повышенной частотой и разрядностью
Методы сжатия аудио
1. Алгоритмы основанные на дискретизации
Самый простой метод сжатия звука: весь диапазон значений уровня громкости (в большинстве случаев это 16-битные значения) приводится к интервалу 0-15 (тогда каждый уровень громкости можно будет задать 4-мя битами). У стерео-сигнала каждый канал обрабатывается отдельно. Для повышения качества при распаковке диапазон значений громкости можно приводить обратно к 16-битному виду по нелинейному/адаптивному интерполяционному алгоритму.
2. Восстановление сигнала по спектру
Зависимость амплитуды колебания от его частоты в разложении сигнала называется спектром. Сжатие основывается на том, что спектр изменяется медленнее, чем сам сигнал – и, соответственно, лучше сжимается. Однако, этот метод обычно применяется только для сжатия речи, т.к. он выигрывает у других только при очень высоких степенях сжатия и, соответственно, при довольно больших искажениях.
3. Алгоритм MP3.
Этот алгоритм
использует особенности человеческого
слуха. Например, человек более чувствителен
к средним частотам (нежели к низким
и высоким); практически не воспринимает
тихий звук, близкий по частоте к громкому,
и т.д. Эти особенности восприятия называются
психоакустической моделью. После удаления
из спектра неслышимых частей звук кодируется
алгоритмом, похожим на описанный в п.1;
причем - чем лучше слышен звук в данной
частотной полосе, тем больше уровней
используется. Для работы со стереозвуком
существуют 2 режима: обычный, когда каналы
обрабатываются отдельно, и JoinedStereo, когда
кодируется один канал, а вместо второго
- разница между каналами, которая обычно
невелика.
MPEG - Moving Pictures Expert Group.
Экспертная группа по движущимся изображениям.
Организация была создана в 1988 году и за время своего существования выпустила несколько стандартов, оказавших большое влияние на информационные технологии и современную жизнь в целом.
MPEG1 – первый официальный международный стандарт, посвященный хранению видео и аудио информации в цифровом виде.
Стандарт состоит из трех частей:
- Система. Описывает системную часть формата. Определяет способы мультиплексирования аудио и видео потоков, синхронизацию и формат физического хранения данных.
- Видео-канал. Определяет формат и алгоритм кодирования видео-потока и способ восстановления кадров изображения.
- Аудио-канал. Определяет формат и алгоритм кодирования аудио-потока и способ восстановления звукового потока.
Впоследствии,
когда формат сжатия аудио,
предложенный в третьей части
стандарта получил
Аудио параметры MPEG-1
- 48, 44.1, 32 кГц
- Mono
- Dual
- Стерео
- Интенсивное стерео
Уровни AudioMPEG1 для сжатия стерео сигналов
| Номер уровня | Коэффициент сжатия | Скорость потока данных,
Кбит/с |
| 1 | 1:4 | 384 |
| 2 | 1:6…1:8 | 256…192 |
| 3 | 1:10…1:12 | 128..112 |
Оптимальный
уровень - 3 со скоростью потока 125 кбит/с
и плотностью данных 1Мбит/мин
MPEG-2 – upgrade MPEG-1
Изменения а Audio:
- Появились новые виды частот 16, 22.05, 24 кГц
- Поддержка многоканальности (5+1)
- Появился AAC (Advanced Audio Coding) – обеспечивает высокое качество звука скоростью 64 кбит/с на канал.
Схема кодирования звука
- Банк фильтров – наборы фильтров двух типов: полифазные и фильтры модифицированный алгоритм дискретной косинусной трансформации (Modified Discrete Cosine Transform (MDCT)).
- Перцепционная модель – психоакустическая система, выполняющая оптимизацию сжатия звука на основе знаний об устройстве человеческого слухового аппарата, психологии и звуковосприятия.
- Кодирование и квантование – состоит из двух вложенных циклов – цикла оценки уровня сигнала(квантования) и цикла контроля шума(помех, вносимых квантованием). Цикл контроля шумов является внешним, в него вложен цикл оценки уровня. Цикл контроля шумов выполняется до тех пор, пока уровень шума не будет соответствовать заданным условиям субъективного качества звука (спектральная похожесть исх. звука и кодир.).
- Кодирование аудио-потока – сжатие и кодирование квантов(ячеек, элементов) потока в какой-либо формат хранения или передачи данных. Алгоритм сжатия потока зависит от реализации формата хранения/передачи. Используется алгоритм Хаффмана. Обычно (в различных форматах хранения/передачи) после алгоритма Хаффмана также используются алгоритмы LZIFF(zip), gzip, bzip2.
Методы сжатия, основанные на психоакустике
- Обсчет психоакустической модели (маскирования).
- Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
- Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.
Перцепционная модель
Психо-акустическая модель построена на основе информации, накопленной о звуковом восприятии, строении человеческого слухового аппарата и психологии восприятия музыки. Можно сказать, что MP3 построен на «обмане» человеческого уха и мозга, не сохраняя те звуковые картины, которые человек наверняка не заметит. Основными способами «обмана» являются:
- эффект маскирования – человек не воспринимает тихие звуки на фоне или сразу после громких. Этот эффект можно сравнить с ослеплением – некоторое время необходимо для восстанавления чувствительности;
- меньший приоритет высоким и низким тонам – человек плохо слышит звуки ниже 200Гц и выше 5КГц;
- адаптивное смешение каналов (см. ниже);
Кодирование аудио-потока
В стандарте определено только кодирование потока – нет рекомендаций о форматах файлов хранения или форматах вещания MP3.
После квантования, полученные кванты данных по каждому каналу (логическому, т.к. количество каналов в потоке MP3 не обязательно соответствует количеству реальных стереофонических каналов) сжимаются по алгоритму Хаффмана (Huffman).
Алгоритм Хаффмана заключается в замене наиболее часто встречающихся последовательностей бит в потоке (паттернов) на битовые последовательности меньшей длины. Чем чаще паттерн встречается в потоке, тем короче соответствующая ему последовательность бит. Преимущества алгоритма – высокая скорость и мизерные накладные расходы на размер потока в случае совершенно равномерных данных. В среднем, для классической симфонической музыки, алгоритм дает сжатие порядка 20%.
Полученный
поток сохраняется в
Способы сжатия и хранения нескольких звуковых каналов.
- Моно;
- Стерео (два независимых канала, каждый кодируется и хранится отдельно);
- Объединенное стерео (Joint Stereo) – для очень высоких и очень низких частот, расположение источника которых человеческое ухо не может точно определить, оба канала не записывают, а только один - объединенный. Впоследствии, в момент проигрывания такие участки воспроизводятся как моно, но человеческое ухо не может этого заметить.
- Mid/Side Stereo - хранится один общий канал и информация о разнице между главным и боковыми. Когда каналы похожи, то за общий можно взять (L+R), а за боковой – (L-R). При проигрывании нетрудно будет вычислить исходные каналы.
Схема декодирования звука
- Декодирование аудио-потока – извлечение квантов из формата хранения, распаковка.
- Обратное квантование – создание набора спектральных линий для каждого кванта данных каждого канала данных. Здесь не выполняется какого-либо преобразование спектров, смешения каналов и т.д. – все эти операции выполняются банком синтезирующих фильтров.
- Синтезирующие фильтры – набор правил, алгоритмов и фильтров, создающих на основании потока спектральных линий несколько(в зависимости от формата) каналов аудио-данных. Количество входящих каналов данных часто отличается от количества исходящих – ото связано со способом кодирования информации о нескольких каналах.
Способы кодирования стерео сигнала в рамках MP3
| Dual Channel | Каждый канал получает половину потока и кодируется отдельно как моносигнал. |
| Stereo | Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу места больше, чем другому |
| Joint Stereo (MS Stereo) | Стереосигнал раскладывается на средний между каналами и разностный. При этом 2-й кодируется с меньшим битрейтом |
| Joint Stereo (MS/IS Stereo) | Для нескольких частотных диапазонов оставляется только отношение мощностей сигнала в разных каналах |
Исследование АЧХ сэмплов, признанных лучшими