Mp3 - технология сжатия звуковой информации. Как сжать звуковые файлы

Лекции 15 – 16. Сжатие звуковой информации План лекции 1. Общие сведения. 2. Структура кодера с компрессией цифровых аудиоданных. 3. Психоакустические модели (ПАМ). 4. Базовые системы кодирования.

1. Методы сжатия звука основаны на устранении его избыточности. Различают статистическую и психоакустическую избыточность натуральных звуковых сигналов. Сокращение статистической избыточности базируется на учете свойств самих звуковых сигналов, а психоакустической – на учете свойств слухового восприятия. 2

Статистическая избыточность обусловлена наличием корреляционной связи между соседними отсчетами временной функции звукового сигнала (ЗС) при его дискретизации. Для ее уменьшения применяют достаточно обработки. При информации нет, их сложные алгоритмы использовании однако исходный потери сигнал оказывается представленным в более компактной 3

форме, что требует меньшего количества бит при его кодировании. Однако даже при использовании достаточно сложных процедур обработки устранение статистической избыточности звуковых сигналов позволяет увеличить требуемую пропускную способность канала связи лишь на 15… 25% по сравнению с ее исходной величиной, что нельзя считать революционным достижением. 4

После устранения статистической избыточности скорость цифрового потока при передаче высококачественных ЗС и возможности человека по их обработке отличаются, по крайней мере, на несколько порядков. 5

Это свидетельствует также о существенной психоакустической избыточности первичных цифровых ЗС и, следовательно, о возможности ее уменьшения. Наиболее перспективными с этой точки зрения оказались методы, учитывающие такие свойства слуха, как маскировка. Если известно, какие части звукового сигнала ухо воспринимает, а какие нет вследствие маскировки, то можно 6

выделить и затем передать по каналу связи лишь те части сигнала, которые ухо способно воспринять, а неслышимые – можно просто отбросить. Кроме того, сигналы можно квантовать с возможно меньшим разрешением по уровню так, чтобы искажения квантования, изменяясь по величине с изменением уровня самого сигнала, еще оставались 7

бы неслышимыми - маскировались бы исходным сигналом. Однако после устранения психоакустической избыточности точное восстановление формы временной функции ЗС при декодировании оказывается уже невозможным. 8

Две важные для практики особенности: Если компрессия цифровых аудиосигналов уже использовалась в канале связи, то ее повторное применение ведет к появлению существенных искажений, т. е. важно знать «историю» цифрового сигнала и какие методы кодирования уже использовались. 9

Традиционные методы оценки качества (например, на тональных сигналах) для кодеков с компрессией аудиоданных не пригодны, тестирование проводится на цифровых поскольку реальных звуковых сигналах. 10

Работы по анализу качества и оценке эффективности цифровых алгоритмов аудиоданных с компрессии целью их последующей стандартизации начались в 1988 году, когда была образована международная экспертная группа MPEG (Moving Pictures Experts Group). 11

Итогом работы этой группы на первом этапе явилось принятие в ноябре 1992 года международного, стандарта MPEG-1 ISO/IEC 11172 -3 (цифра 3 после номера стандарта относится к кодированию звуковых сигналов). 12

К настоящему времени достаточное распространение получили еще нескольких стандартов MPEG, таких, как MPEG-2 ISO/IEC 13818 -3, 13818 -7 и MPEG-4 ISO/IEC 14496 -3. В отличие от этого в США, в качестве альтернативны стандартам MPEG, был разработан стандарт Dolby AC-3. 13

Несколько позже четко сформировались две разные платформы цифровых технологий для радиовещания и телевидения – это DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB (с наземной DVB-T, кабельной DVB-C, спутниковой DVB-S разновидностями) и ATSC (Dolby AC-3). 14

Первая из них (DAB, DRM) продвигается Европой, ATSC – США. Отличаются эти платформы, алгоритмом прежде всего, компрессии выбранным цифровых аудиоданных, видом цифровой модуляции и процедурой помехоустойчивого кодирования ЗС. 15

2. Несмотря на значительное разнообразие алгоритмов компрессии цифровых аудиоданных, структура кодера, реализующего такой алгоритм обработки сигналов, может быть представлена в виде обобщенной схемы: 16

В блоке временной и частотной сегментации исходный звуковой сигнал разделяется на субполосные составляющие и сегментируется по времени. Длина кодируемой выборки зависит от временных характеристик звукового сигнала. 18

При отсутствии резких выбросов по амплитуде используется так называемая длинная выборка. изменений кодируемой уменьшается, В случае же резких амплитуды выборки что дает сигнала длина существенно более высокое разрешение по времени. 19

20

21

22

Модель NMR использует следующие свойства слуха: Абсолютный порог слышимости. Критические полоски слуха (частотные группы, на которые человек разделяет звуковой сигнал при его восприятии), у которых даже есть своя единица измерения для высоты тона – барк. 23

Относительный маскировка в порог слышимости частотной области. и При одновременно воздействии на слух двух сигналов один на фоне другого может быть не слышен – это маскировка, а относительный порог слышимости – это порог слышимости одного сигнала в присутствии другого с учетом маскировки по частоте 24

Маскировка во временной области – характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости, когда маскирующий и маскируемый сигналы звучат не одновременно. 25

При этом различают послемаскировку (изменение порога слышимости после сигнала высокого уровня) и предмаскировку (изменение порога слышимости перед приходом сигнала высокого уровня). Такой вид маскировки, когда звуки не перекрываются во времени, называется временной маскировкой. 26

Послемаскировка проявляется на интервале времени 100… 200 мс после окончания маскирующего сигнала, а предмаскировка – около 10 мс, что определяется особенностями конкретного человека. По этой причине временная маскировка при цифровом кодировании практически не используется. 27

Основные процедуры которые вычислений, выполняются на базе психоакустического анализа, реализованного на основе NMR – модели по принципу аддитивного (взаимонезависимого) действия на орган слуха спектральных компонент, если они воздействуют одновременно. На вход блока психоакустического анализа кодера (слайд 17) подается первичный ИКМ сигнал 28

со скоростью 48*16 = 768 Кбит/с. Выполняются следующие процедуры: Процедура 1. Расчет энергетического спектра выборки входного ЗС и его нормирование. Пример: пусть длина выборки БПФ N=512 (Layer 1) или 1024 отсчета (Layer 2). Обозначим n - номер отсчета сигнала в выборке; k – индекс коэффициента БПФ. 29

На выходе блока БПФ имеем линейчатый спектр X(k) в д. Б, с разрешением по частоте ΔF = fд/N. При fд = 48 к. Гц и N = 1024 получим ΔF = 46, 875 Гц. БПФ выполняется с оконной функцией Hanna для подавления эффекта Гиббса. 30

Вычисленный спектр нормируется, максимальной спектральной компоненте присваивается уровень 92 д. Б. Процедура 2. Вычисление энергии сигнала выборки в субполосах кодирования. Процедура 3. Вычисление локальных максимумов энергетического спектра сигнала выборки. Алгоритм здесь простой: спектральная компонента X(k) будет локальным максимумом, 32

Если она больше предшествующей X(k-1), но не менее следующей X(k+1). Процедура 4. Формирование списка тональных компонент. В этом случае исследуется область частот максимума и около каждого соответствующая локального спектральная составляющая включается в список тональных компонент {X(k)} , если в этой области она 33

превышает любую компоненту (кроме двух соседних, чтобы учесть при расчете уровня их энергии) не менее чем на 7 д. Б. Процедура 5. Формирование списка нетональных (шумоподобных) осуществляется после компонент формирования списка тональных компонент. Для этого из исходного спектра сигнала выборки исключаются тональные и 34

соседние компоненты, учтенные ранее. Данная процедура необходима, чтобы учесть соответствующие коэффициенты маскировки. Процедура 6. Прореживание спектра тональных и нетональных компонент осуществляется с целью маскировки вне критической полоски слуха, которая одинакова и для тональных и для нетональных компонент. 35

После прореживания формируется новая сетка спектральных компонент: в первых трех субполосах (0… 2250 Гц) компоненты, учитываются в все следующих спектральные трех субполосах (2250… 4500 Гц) – каждая вторая, в последующих трех субполосах (4500… 6750 Гц) – каждая четвертая и в оставшихся 20 субполосах – лишь каждая восьмая спектральная компонента. 36

Таким образом, если верхняя частота ЗС 22500 Гц, то после такого прореживания получается спектр из 126 спектральных компонент (исходный спектр имел 512 составляющих). Процедура 7. Расчет коэффициентов маскировки. Процедура 8. Расчет порогов маскировки. 37

Процедура 9. Вычисление кривой глобального порога маскировки. Здесь формируется глобальный порог маскировки для каждой субполосы и определяется допустимое значение уровня шумов для каждого квантования, в частности, строится гистограмма распределения бит при кодировании субполосных отсчетов. 38

4. 1. Звуковая часть стандарта MPEG-1 (ISO/IEC 11172 -3) включает в себя три алгоритма различных уровней сложности: Layer (уровень) I, Layer II и Layer III. Общая структура процесса кодирования одинакова для всех уровней, но они различаются по целевому использованию и внутренним механизмам. Для каждого уровня определен свой цифровой поток, то есть общая 39

ширина потока и свой алгоритм декодирования. Уровни имеют коэффициенте различия сжатия и в обеспечиваемом качестве звучания получаемых потоков. MPEG-1 предназначен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44. 1 и 48 к. Гц. 40

Стандарт MPEG-1 нормирует для всех трех уровней следующие номиналы скоростей цифрового потока: 32, 48, 56, 64, 96, 112, 192, 256, 384 и 448 кбит/с, число уровней квантования входного сигнала – от 16 до 24. 41

Стандартным входным сигналом для кодера MPEG-1 принят цифровой сигнал AES/EBU (двухканальный цифровой звуковой сигнал с разрядностью квантования 20. . . 24 бита на отсчет). Предусматриваются следующие режимы работы звукового кодера: одиночный канал (моно), двойной канал (стерео или два моноканала) и 42

joint stereo (сигнал с частичным разделением правого и левого каналов). Важнейшим свойством MPEG-1 является полная обратная совместимость всех трех уровней. Это означает, что каждый декодер может декодировать сигналы не только своего, но и нижележащих уровней. 43

В основу алгоритма Уровня I положен формат DCC (Digital Compact Cassette), разработанный компанией Philips для записи на компакт-кассеты. Кодирование первого уровня применяется там, где не очень важна степень компрессии и решающими факторами являются сложность и стоимость кодера и декодера. 44

Кодер Уровня I обеспечивает высококачественный цифрового потока звук 384 при скорости кбит/с на стереопрограмму. Уровень II требует более сложного кодера и несколько более сложного декодера, но обеспечивает лучшее сжатие – 45

«прозрачность» канала достигается уже при скорости 256 кбит/с. Он допускает до 8 кодирований/декодирований без заметного ухудшения качества звука. В основу алгоритма Уровня II положен популярный в Европе формат MUSICAM. 46

Самый сложный Уровень III включает все основные инструменты сжатия: полосное кодирование, дополнительное ДКП, энтропийное кодирование, усовершенствованную ПАМ. За счет усложнения кодера и декодера он обеспечивает высокую степень компрессии – считается, что «прозрачный» канал формируется уже на скорости 47

128 кбит/с, хотя высококачественная передача возможна и на более низких скоростях. В стандарте рекомендованы две психоакустические модели: более простая Модель 1 и более сложная, но и более высококачественная Модель 2. Они отличаются алгоритмом обработки отсчетов. Обе модели могут использоваться для всех трех уровней, 48

но Модель 2 имеет специальную модификацию для Уровня III. MPEG-1 оказался первым международным стандартом цифрового сжатия звуковых сигналов и это обусловило его широкое применение во многих областях: 49

вещании, звукозаписи, мультимедийных связи приложениях. и Наиболее широко используется Уровень II, он вошел составной частью в европейские стандарты спутникового, кабельного и наземного цифрового ТВ вещания, в стандарты звукового вещания, записи на DVD, 50

Рекомендации МСЭ BS. 1115 и J. 52. Уровень III (его еще называют МР-3) нашел широкое применение в цифровых сетях с интегральным обслуживанием (ISDN) и в сети Интернет. Подавляющее большинство музыкальных файлов в сети записаны именно в этом стандарте. 51

4. 2. MPEG-2 это расширение MPEG-1 в сторону многоканального звука. MPEG-2 учитывает различия режима передачи многоканального звука, в том числе пятиканальный формат, семиканальный звук 52

с двумя дополнительными громкоговорителями, применяемыми в кинотеатрах с очень широким экраном, расширения этих форматов с низкочастотным каналом. 53

4. 3. При всем множестве новаторских подходов MPEG-4 звуковые разделы стандарта – возможно, наиболее интересная и революционная его часть. Объектный подход к изображениям – новое для телевидения, но в ряде систем анимации он применялся и ранее. 54

По поводу звуковых качество стандарта (т. н. объектного звука), то системы, сопоставимой с MPEG-4 по комплексности подхода, спектру примененных технологий и диапазону применений, просто нет. 55

Принципиальным отличием MPEG-7 является то, что он разрабатывался совсем не для установления каких-либо правил сжатия аудио- и видеоданных или типизацию и характеристику данных какого-то конкретно рода. 56

4. 4. Стандарт MPEG-7 предусмотрен как описательный, предназначенный регламентации характеристик мультимедиа любого типа, для данных вплоть до аналоговых, и записанных в разных форматах (например, с разным пространственным и временным разрешением кадра). 57

Аудиоинформации удается при использовании специальных методов, основанных на анализе структуры данных и последующим сжатием с некоторыми потерями .

Реальная возможность обработки звука, сравнимых по качеству с существующими аналоговыми примерами, появилась только в конце 80-х годов. В 1988 году Международной организацией стандартов ISO (International Standards Organization) был сформирован комитет MPEG (Moving Pictures Expert Group, группа экспертов в области движущихся изображений), основной задачей которого является разработка стандартов кодирования подвижных изображений, звука и их комбинации. За десять лет своего существования комитет выработал ряд стандартов по данному вопросу. В результате обобщив обширные исследования в этой области, был рекомендован ряд специфических форматов для хранения данных, отличных по качеству результатов и скорости потока данных.

В настоящее время наиболлее распространены три стандарта хранения видеоданных: MPEG-1, MPEG-2 и MPEG-4. В рамках первых двух форматов существуют также форматы хранения звуковой информации – Layer-1, Layer-2 и Layer-3. Эти три звуковых формата определены для MPEG-1 и незначительными расширениями используются в MPEG-2. Все три формата похожи друг на друга, но используют различные уровни компромисса между сжатием и сложностью. Уровень Layer-1 - наиболее простой, не требует значительных затрат на сжатие, но и дает незначительную степень сжатия. Уровень Layer-3 – наиболее трудоемкий и обеспечивает самое лучшее сжатие. В последнее время этот формат завоевал огромную популярность. Его часто называют MP3. Такое название связано с расширением звуковых файлов, хранящихся в этом формате.

Основанная идея, на которой основаны все методики сжатия аудио сигнала с потерями , – пренебрежение тонкими деталями звучания оригинала, лежащие вне пределов которые воспринимает человеческое ухо. Здесь можно выделить несколько моментов.

Уровень шума. Звуковое сжатие базируется на простом факте – если человек находиться рядом с громко воющей сиреной, то вряд ли он услышит разговор стоящих неподалеку людей. Причем это происходит не оттого, что человек обращает большое внимание на громкий звук, а в большей степени оттого, что человеческое ухо фактически теряет звуки, лежащие в том же диапазоне частот, что и более громкий звук. Этот эффект носит название маскирующего, он изменяется с различием в громкости и частоте звука.

Вторым моментом является деление полосы звуковых частот на подполосы, каждая из которых далее обрабатывается отдельно. Программа кодирования выделяет самые громкие звуки в каждой полосе и использует эту информацию для определения приемлемого уровня шума для этой полосы. Лучшие программы кодирования учитывают также влияние соседних полос. Очень громкий звук в одной полосе может повлиять на маскирующий эффект и на близлежащие полосы.

Еще одним моментом кодирования является использование психоакустической модели, опирающейся на особенности человеческого восприятия звука. Сжатие с использованием этой модели основано на удалении заведомо неслышимых частот с более тщательным сохранением звуков, хорошо различаемых человеческим ухом. К сожалению, здесь не может быть точных математических формул. Восприятие звука человеком – сложный, до конца не изученный процесс, поэтому выбор методов сжатия выполняется на основе анализирующего прослушивания и сравнения по-разному сжатых звуков группами экспертов. Зато здесь имеются практически неограниченные возможности в сфере улучшения психоакустических моделей. Большинство существующих алгоритмов для кодировки человеческого голоса основано на высокой предсказуемости такого сигнала – универсальные алгоритмы сжатия MPEG с переменным успехом пытаются применить этот прием.

Еще одним приемом сжатия является использование так называемого совмещенного стерео. Известно, что слуховой аппарат человека может определить направление лишь средних частот – высокие и низкие звучат как бы отдельно от источника. Значит, эти фоновые частоты можно кодировать в моно сигнал. Кроме всего этого для сжатия используется различие в сложности потоков в каналах. Например, если в правом канале какое-то время полная тишина, это "зарезервированное" место используется для повышения качества левого канала или туда "впихиваются" необходимые биты, не влезшие в поток чуть раньше. На последней стадии сжатия используется алгоритм сжатия Хаффмана . Этот процесс позволяет улучшить степень сжатия для относительно однородных сигналов, которые плохо сжимаются с помощью описанных выше приемов. На основе описанных идей строятся алгоритмы сжатия, позволяющие достигать степени компрессии 10:1 или выше практически без потери в качестве звучания. При кодировании задают требуемый уровень компрессии, а алгоритмы сжатия добиваются требуемого значения уровня сжатия за счет потери качества. Требуемый уровень сжатия обычно указывают в виде величины потока данных (bit rate), измеряемого в Кбит/сек.

В качестве начального шага обработки изображения форматы сжатия MPEG-1 и MPEG-2 разбивают опорные кадры на несколько равных блоков, над которыми затем производится дискетное косинусное преобразование (DCT). По сравнению с MPEG-1, формат сжатия MPEG-2 обеспечивает лучшее разрешение изображения при более высокой скорости передачи видео данных за счет использования новых алгоритмов сжатия и удаления избыточной информации, а также кодирования выходного потока данных. Также формат сжатия MPEG-2 дает возможность выбора уровня сжатия за счет точности квантования. Для видео с разрешением 352х288 пикселей формат сжатия MPEG-1 обеспечивает скорость передачи 1,2 – 3 Мбит/с, а MPEG-2 – до 4 Мбит/с.

По сравнению с MPEG-1, формат сжатия MPEG-2 обладает следующими преимуществами:

  • MPEG-2 обеспечивает масштабируемость различных уровней качества изображения в одном видеопотоке.
  • В формате сжатия MPEG-2 точность векторов движения увеличена до 1/2 пикселя.
  • Пользователь может выбрать произвольную точность дискретного косинусного преобразования .
  • В формат сжатия MPEG-2 включены дополнительные режимы прогнозирования.

MPEG-4 использует технологию так называемого фрактального сжатия изображений. Фрактальное (контурно-основанное) сжатие подразумевает выделение из изображения контуров и текстур объектов. Контуры представляются в виде т.н. сплайнов (полиномиальных функций) и кодируются опорными точками. Текстуры могут быть представлены в качестве коэффициентов пространственного частотного преобразования (например, дискретного косинусного или вейвлет -преобразования).

Диапазон скоростей передачи данных, который поддерживает формат сжатия видео изображений MPEG 4, гораздо шире, чем в MPEG 1 и MPEG 2 . Дальнейшие разработки специалистов направлены на полную замену методов обработки, используемых форматом MPEG 2. Формат сжатия видео изображений MPEG 4 поддерживает широкий набор стандартов и значений скорости передачи данных. MPEG 4 включает в себя методы прогрессивного и чересстрочного сканирования и поддерживает произвольные значения пространственного разрешения и скорости передачи данных в диапазоне от 5 кбит/с до 10 Мбит/с. В MPEG 4 усовершенствован алгоритм сжатия , качество и эффективность которого повышены при всех поддерживаемых значениях скорости передачи данных.


Назад К cодержанию Вперёд

Цифровой звук, если это не музыка, которую можно закодировать в виде MIDI, столь же неудобен для сжатия, как и картинка. Звуковой сигнал редко обладает избыточностью, т.е. имеет повторяющиеся участки (в основном из-за шумов). А значит, плохо сжимается с использованием алгоритмов компрессии без потерь, аналогичных LZW или методу Хаффмана.

В 1940 г. Харви Флетчер, выдающийся американский физик, отец стереозвука, привлёк для исследований человеческого слуха большое число испытуемых. Он проанализировал зависимость абсолютного порога слышимости от частоты сигнала, т.е. при какой амплитуде звук определённой частоты не слышен для человека. В построенной на основе опытов кривой максимальные значения находятся, как и ожидалось, на границах диапазона слышимости (около 20 Гц и ближе к 20 кГц), а минимум - приблизительно 5 кГц. Но главное, на что он обратил внимание, - это способность слуха адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Иначе говоря, одни звуки способны делать неслышимыми другие, что называют маскированием одного звука другим.

Последнее свойство слуха при компрессии позволяет после громкого звукового сигнала некоторое непродолжительное время вообще не воспроизводить, а значит и не сохранять никакого звука. Например, громкий щелчок продолжительностью в 0,1 с может замаскировать последующие за ним звуки на 0,5 с, которые не надо сохранять. Говорят, что коэффициент компрессии в этом примере достигает , а описанную процедуру сжатия обычно называют маскированием во временной области .

При маскировании в частотной области синусоидальный сигнал маскирует более тихие, близкие по частоте сигналы, в том числе и синусоидальные сигналы много меньшей амплитуды. Удобно использовать разбиение спектра на полосы различной ширины, основываясь на особенностях слуха человека. Обычно выделяют 27 так называемых критических полос (critical band): 0-я от 50 до 95 Гц, 1-я от 95 до 140 Гц, …, 26-я от 20250 Гц и выше.

Для выполнения алгоритма сжатия исходный сигнал разбивается на кадры, которые подвергаются частотному анализу. Алгоритм сжатия выглядит примерно так:

1. При помощи специальных алгоритмов (ими могут быть быстрое преобразование Фурье или аналогичные), сигналы разделяются на 32 равные полосы спектра, при этом в одну получившуюся полосу могут попасть сразу несколько критических полос.

2. Используя так называемую психоакустическую модель (в которую, как правило, и входит частотное маскирование), определяют уровень маскирования полосы соседними.

3. Уровень в полосе, не превышающий вычисленный порог, считается равным нулю и не сохраняется. Наоборот, немаскированный уровень записывается в выходные данные.


В дальнейшем на каждый ненулевой уровень выделяется некоторое число битов, достаточное для его примерного представления. Так, в той части спектра, где человеческое ухо имеет наименьший порог слышимости, информация кодируется шестнадцатью битами, а на краях, там, где ухо менее чувствительно к искажениям, шестью и менее битами. К полученному потоку битов можно, например, применить алгоритм сжатия Хаффмана.

Различаются три версии алгоритма описанного MPEG-сжатием звука. В каждой версии данные разделяются на кадры, т.е. отдельный кадр состоит из 32 полос по 12 значений в каждой.

В MPEG layer1 (дословно "слой 1") в частотном фильтре используются один кадр и алгоритмы, основанные на дискретном косинусе - преобразовании (DCT). Психоакустическая модель задействует только частотное маскирование. Алгоритм позволяет упаковывать при соотношении 1:4 с потоком 384 Кбит/с.

MPEG layer2 использует три кадра в частотном фильтре(предыдущий, текущий и последующий) общий объём 32 полосы по 12 значений в 3 кадрах. Модель использует и временное маскирование. Упаковывает с соотношением от 1:6 до 1:8.

3.2. Mp3 - технология сжатия звуковой информации

Само название МрЗ появилось в результате сокращения аббревиатуры MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) - это группа при Международной организации по стандартизации и Международном электрическом комитете, которая занимается разработкой стандартов для цифрового сжатия видео и аудио информации. А зачем сжимать эту информацию? Во-первых, для экономии экономических и материальных ресурсов при передаче информации на расстояние по каналам связи (в том числе и спутниковым), а во-вторых, для ее хранения.

Официальное одобрение стандарт MPEG-1 получил в 1992 году, однако до недавнего времени открытие не было востребовано в полной мере. Лишь с появлением достаточно мощных процессоров Pentium (с тактовыми частотами от 300 МГц и выше, позволяющих резко снизить время на кодирование/декодирование сигнала) и высокоскоростных модемов стандарт получил широкое признание.

Стандарт MPEG-1 является потоковым форматом и состоит из аудио, видео и системной частей. Последняя часть содержит информацию об объединении и синхронизации двух первых.

Передача данных происходит потоком независимых отдельных блоков данных - фреймов, получаемых при "нарезке" на равные по продолжительности участки, которые кодируются независимо друг от друга.

Всего в настоящее время существует пять видов (номеров) стандартов MPEG:

1) MPEG1 - сжатие аудио и видео с общей скоростью до 150 Кбайт/сек (аудио 38, 44.1, 48 килогерц);

2) MPEG2 - сжатие аудио и видео с общей скоростью до 300 Кбайт/сек (аудио 38, 44.1, 48 килогерц), сжатие аудио ИДЕНТИЧНО MPEG1;

3) MPEG2.5 - сжатие аудио с пониженным разрешением (аудио 16,22.05,24 килогерц). Интересно заметить, что стандарт MPEG2.5 (еще известный как MPEG2 LSF - LOW SAMPLE FREQUENCY - низкая частота сканирования аудио) введен фирмой IIS Fraunhofer (институт информационных технологий имени Фраунхофера из Германии). Этот стандарт является расширением "чистого" аудио MPEG2 (то есть MPEG1!) для частоты сканирования аудио в два раза меньшей, чем обычно;

4) MPEG3 - многоканальный MPEG1+MPEG2. Этот стандарт практически не используется;

5) MPEG4 - новомодный за рубежом стандарт. Его особенность: может держать до 8-и каналов аудио (то есть AC-3 - цифровое расширение системы Surround.

Чем выше индекс уровня тем выше сложность и производительность алгоритма кодирования, соответственно и увеличиваются требования к системным ресурсам.

Здесь под термином "кодирование" понимается процесс, позволяющий получать файл в сжатом виде, который занимает меньше места на диске и соответственно быстрее передается по каналам связи. В сжатой форме файл использоваться не может, соответственно, перед использованием его необходимо декодировать. Сжатие файла происходит не всегда с положительным результатом. Результат напрямую зависит от метода компрессии и от содержимого самого файла.

Принцип кодирования сигнала в MPEG Audio основан на использовании психоакустической модели (Psycho-acoustics), суть которой в следующем.

Существует ряд звуковых частот, которые человеческое ухо не воспринимает. Происходит маскирование одних звуков другими, как с большей амплитудой, так и с близкой частотой. Так, например, если излучается сильный звук частотой 1000 Гц (маскирующий), то более слабый звук частотой 1100 Гц (маскируемый) человеческое ухо не зафиксирует из-за особенностей порога слышимости человеческого уха. Порог слышимости на краях частотного диапазона (16-20 Гц и 16-20 кГц) значительно повышается, т.к. на этих частотах слух имеет значительно меньшую чувствительность по сравнению с областью наибольшей чувствительности слуха (диапазон 1-5 кГц). Также известно, что время восстановления чувствительности слуха после громкого сигнала составляет порядка 100 мс, а время задержки восприятия этого же сигнала составляет порядка 5 мс.

Таким образом, происходит передача только той звуковой информации, которая может быть адекватно воспринята подавляющим большинством слушателей, а вся остальная, увы, безвозвратно теряется.

Как уже упоминалось, все уровни имеют одинаковую базовую структуру, при которой кодер анализирует исходный сигнал, вычисляет для него гребенку фильтров (32 полосы) и применяет психоакустическую модель. С заранее выбранной частотой квантования, величиной потока и маскирования кодер производит квантование и кодирование сигнала.

Сравнительные характеристики способов кодирования для одного канала при частоте квантования в 32 кГц представлены в таблице 2.

Таблица 2.

Способ кодирования Скорость передачи (кбит/с) Коэффициент сжатия
Layer 1 192 1:4
Layer 2 128-96 1:6...8
Layer 3 64-56 1:10...12

Перед кодированием исходный сигнал разбивается на фреймы, каждый из которых кодируется отдельно с разными параметрами и помещается в конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Вся информация о фрейме содержится в его заголовке, а информация о фреймах содержится в заголовке файла. Для информации об артисте, альбоме, названии композиции, жанре и пр. предусмотрен ID3/ID2 tag - заголовок. Подавляющее большинство существующих проигрывателей используют данный заголовок для прокрутки этой информации во время проигрывания музыкального фрагмента.

Между фреймами может содержаться произвольная информация, допустим, авторские права, расположенные ровным слоем по всему файлу. Основное требование к последовательно расположенным фреймам заключается в том, чтобы отсутствовали совпадения с сигнатурой начала фрейма.

Частота следования фреймов называется битрейтом (BIT RATE - битовая скорость, чем она выше, тем ближе будет конечный результат к оригиналу).

Каждый битрейт имеет свою область применения. Для создания качественной копии, соответствующей качеству оригиналу применяются только высокие битрейты порядка 256 кбит/с. При битрейте 128 кбит/с качество конечного продукта кажется вполне нормальным, но заметить разницу между копией и оригиналом способны уже многие. В Интернете чаще всего содержатся как раз МРЗ файлы, закодированные битрейтом 128 кбит/с. Но для создания действительно качественной копии необходимо использовать скорость кодирования в 320 кбит/с, хотя конечный файл получается меньше лишь в 4,3 раза по сравнению с 10,8 раз на 128 кбит/с и 5,4 раза на 256 кбит/с. Поэтому выбирать битрейт необходимо самому, исходя из потребностей.

После фреймовой разметки исходный сигнал с помощью гребенчатых фильтров разделяется на составляющие, представляющие отдельные частотные диапазоны, в сумме дающие обрабатываемый сигнал. Для каждого такого диапазона определяется своя психоакустическая модель и участки фрейма, которые "выпадают" из процесса кодирования. Для оставшихся данных определяется максимально допустимая частота квантования, которая должна обеспечивать потери ниже величины маскирующего эффекта.

После обработки всех фреймов формируется итоговый поток, который дополнительно кодируется по методу Хаффмана. Этот алгоритм также используется в архиваторе ARJ, только с динамической, постоянно изменяющейся таблицей Хаффмана, что требует двух проходов по данным; при фиксированной же таблице Layer 3, сжатие происходит за один проход. Указанный метод позволяет "сжать" до 20 процентов от общего объема. В результате получаем конечный поток кодированных аудиоданных.


При мне" с простым безыскусным напевом Глинки, услышанным от Грибоедова, и более сложное драматическое решение в романсе - восточной поэме Рахманинова, полной элегической тоски и одиночества. Музыкальная пушкиниана ХХ века также весьма обширна и интересна. В числе наиболее значительных произведений - балеты "Медный всадник" Глиэра, одна из главных тем которого поистине стала "гимном великому...

Песен, прибауток, считалок для исполнения на музыкальных инструментах; для нориолизации просодической стороны речи при импровизации мелодичных и ритмических подпевок. В работе с учащимися начальных классов в коррекционно-развивающем обучении могут быть использованы лишь самые простые инструменты. Это музыкальные инструменты ударной группы как чисто ритмические, не обладающие определенной высотой...

Нравственных качеств личности ребенка, закладывает первоначальные основы общей культуры будущего человека. II. Педагогические условия реализации видов деятельности детей в детском саду 2.1 Методы музыкального обучения в детском саду Основной вид музыкальной деятельности, которому принадлежит ведущая роль в реализации познавательной и коммуникативной функции музыки – ее восприятие...

Работы над музыкальным произведением, уровнем эмоционально-поведенческих расстройств. 2. Специфика музыкальной работы в детском доме для умственно отсталых детей-сирот и детей, лишенных попечения родителей Решению задач музыкального образования помогает использование разнообразных форм организации музыкальной деятельности, каждая из которых обладает определенными возможностями (см. схему). ...

1. Очевидной техникой сжатия, которую можно применять к речи, является удаление пауз, ᴛ.ᴇ. вместо того, чтобы использовать 44 100 выборок с нулевым значением для записи каждой секунды тишины (частота дискретизации 44,1 кГц) просто указывается длительность паузы - ϶ᴛᴏ сжатие без потерь.

2. В случае если амплитуда звука не достигает максимального уровня, который можно представить при данном размере выборки, эффективным должна быть кодирование Хаффмана (Хофмана). В этом случае сигнал представляется выборками меньшего размера. Это алгоритм сжатия без потерь – всœего лишь частный случай сжатия.

3. Техника компандирования (расширения) также внесла вклад в технологии сжатия речи. Она основывается на восприятии человеком разных уровней громкости и состоит в использовании нелинœейных уровней квантования. В случае если расстояние между более высокими уровнями больше расстояния между низкими, то тихие звуки представляются детальнее, чем громкие.

4. Другая техника сжатия - ϶ᴛᴏ дифференциальная импульсно-кодовая модуляция. Эта схема связана с межкадровым сжатием и основана на записи разностей последовательных выборок, а не их абсолютных значений.

5. Эффективное сжатие с потерями состоит в определœении данных, не имеющих значения (ᴛ.ᴇ. не влияющих на восприятие сигнала), и их отбрасывании. В случае если аудиосигнал оцифровывается прямолинœейным образом (в ПК), в оцифрованную версию могут включаться данные, соответствующие неслышным звукам. Это объясняется тем, что сигнал записывает всœе физические колебания давления воздуха, являющиеся причиной звука, но за восприятие звука отвечает мозг, который (вместе с ухом) совсœем не так просто реагирует на звуковые волны.

Звук часто используется как часть видео- или анимационной продукции. В этом случае необходима синхронизация звука и изображения. Для решения этой проблемы используется временная шкала, которая позволяет упорядочить аудио- и видео в некоторых приложениях редактирования видео, к примеру, в Final Cut Pro. Изучая сигналы, редактор может определить контрольные точки звуковой дорожки (начало слогов или ударные такты в музыке), по которым выстраиваются подходящие картины.

Существует два способа генерации движущихся изображений в цифровой форме для мультимедийной продукции.

В первую очередь, с помощью видеокамеры можно записать последовательность кадров реального движения в реальном мире.

Во-вторых, можно создать всœе кадры по отдельности либо с помощью ПК, либо записывая по одному неподвижные изображения.

В первом случае мы будем создавать видео , а во втором – анимацию .

Видеоряд состоит из набора кадров, каждый из которых является отдельным изображением.

n Считается, что для адекватной передачи исходного изображения требуется 16 млн. оттенков, в связи с этим используется 24-битовый формат хранения цветной картинки. В случае если размер изображения 640 пикселœей (ширина) на 480 пикселœей (высота) и глубина цвета 24 бита͵ то каждый кадр потребует 640х480х3=900 Кбайт.

n Запись последовательности кадров в цифровом виде требует от компьютера больших объёмов внешней памяти. Одна секунда несжатого видео стандарта NTSC (сев. Америка, Япония) содержит 30 кадров. Каждая секунда видео потребует более 26 Мбайт памяти. А для стандарта видео PAL (Зап. Европа и Австралия, 24 кадра) для записи одной секунды нужен 21 Мбайт памяти, для минуты – 1,25 Гбайт.

n Но последовательность кадров недостаточно только запомнить, ее нужно еще вывести на экран в соответствующем темпе. Подобной скоростью передачи информации - около 30 Мбайт/с - не обладает ни одно из существующих внешних запоминающих устройств. При таких цифрах запись (воспроизведение) видео на CD, DVD и передача по сетям – проблематична. Запись видео возможна для видео- и телœестудий.

n Для уменьшения объёма данных необходимы схемы сжатия для видео, а также использование других методов.

Чтобы выводить на экран компьютера оцифрованное видео, приходится идти на уменьшение объёма передаваемых данных, ĸᴏᴛᴏᴩᴏᴇ достигается при помощи:

n вывода уменьшенного изображения в небольшом окне

n снижения частоты кадровой развертки до 10-15 кадров/с

n уменьшение числа бит/пиксель

Это приводит к ухудшению качества изображения.

Существуют различные форматы видео: WMA, ASF, RM, SWF, DVC, VOB, но используются редко, так как либо имеют серьезные недостатки, либо плохо совместимы с обычными средствами создания мультимедийных приложений (но можно конвертировать в другой формат с помощью любого видеоредактора).

n Самые распространенные форматы –AVI и MPEG.

n Audio Video Interleaved (AVI) – ʼʼроднойʼʼ формат для Windows Media от Microsoft. Система Windows использует запатентованный кодек. При записи в данном формате используются несколько различных алгоритмов сжатия (компрессии) видеоизображения. Среди них: Cinepak, Indeo video, Motion-JPEG (M-JPEG) и др.
Размещено на реф.рф
Но только M-JPEG был признан среди них как

международный стандарт для сжатия видео. Первоначально для захвата и воспроизведения видео использовались возможности программного комплекта Video for Windows, разработанного Microsoft, однако сейчас у пользователя имеется для этого лучшие возможности. Файл формата AVI не может иметь размер больше 2 Гбайт. Понимая это, компания Microsoft объявила о разработке новых форматов, призванных заменить формат AVI:

n ASF (Advanced Screaming Format)

n AAF (Advanced Authoring Format)

Поддержка указанных форматов началась с 1999 ᴦ. При этом старый формат AVI также применяется, существуют средства для преобразования этих форматов.

Формат AVI – не только видео, но и синхронизированный с ним звук. Обычно звуковую составляющую называют звуковой дорожкой или аудиотреком . Для AVI это звук в формате WAV. В любом видеоредакторе можно выделить звуковую дорожку, сохранить в звуковом файле, отредактировать в звуковом редакторе

n Windows Media Video (WMV) – новый формат видео от Microsoft, который приходит на смену формату AVI. В его базе Windows Video Codec, разработанный на базе стандарта MPEG-4.

n Quick Time Movie (MOV) – наиболее распространенный формат для записи и воспроизведения видео, разработанный фирмой Apple для компьютеров Macintosh в рамках технологии QuickTime. Включает поддержку не только видео, но и звука, текста͵ потоков MPEG, расширенного набора команд MIDI, векторной графики, панорам и объектов (QT VR) и трехмерных моделœей . Поддерживает несколько различных форматов сжатия видео, в т.ч. MPEG и Indeo, а также свой собственный метод компрессии.

n MPEG (MPG, MPEG ) – формат для записи и воспроизведения видео, разработанный в 1992 ᴦ. группой экспертов по движущимся изображениям (Moving Pictures Expert Group - MPEG). Предназначен для сжатия звуковых и видеофайлов, для загрузки или пересылки, к примеру, через Интернет.

MPEG-4 – стандарт, описывающий правила кодирования цифровой мультимедийной информации. При разработке данного стандарта основное внимание было сконцентрировано на возможности сжимать видеоданные значительно сильнее, чем предусмотрено, к примеру, стандартом MPEG-2. Это позволяет передавать данные на низких скоростях, менее 1 Мбит/с. Такие скорости характерны для большинства пользователœей Интернет и актуальны для потребителœей мобильных беспроводных устройств. Записи MPEG-4 компактнее и значительно дешевле по сравнению с файлами мультимедийной информации, закодированными с MPEG-2. Также средства кодировки и расшифровки MPEG-4 проще




Top