Московский физико-технический институт
Опубликован: 07.08.2007 | Доступ: свободный | Студентов: 5447 / 1061 | Оценка: 4.28 / 3.93 | Длительность: 45:30:00
ISBN: 978-5-94774-706-5
Лекция 6:

Стандарт mpeg-4, -7, -21

Подробное техническое описание MPEG-4 Аудио

MPEG-4 кодирование аудиообъектов предлагает средства для представления как естественных звуков (таких, как речь и музыка), так и синтетических — базирующихся на структурированных описаниях. Представление для синтетического звука может быть получено из текстовых данных или так называемых инструментальных описаний и параметров кодирования для обеспечения специальных эффектов (например реверберации и объемного звучания). Представления обеспечивают сжатие и другую функциональность — масштабируемость и обработку эффектов.

Средства аудиокодирования MPEG-4, охватывающие диапазон от 6 Кбит/с до 24 Кбит/с, подвергаются верификационным тестированиям для широковещательных приложений цифрового AM-аудио совместно с консорциумом NADIB (Narrow Band Digital Broadcasting). Было обнаружено, что более высокое качество может быть получено для одного и того же частотного диапазона с привлечением цифровых методик и что конфигурации масштабируемого кодировщика могут обеспечить лучшие эксплуатационные характеристики.

Натуральный звук

MPEG-4 стандартизирует кодирование естественного звука при скоростях передачи от 2 Кбит/с до 64 Кбит/с. Когда допускается переменная скорость кодирования, допускается работа и при низких скоростях вплоть до 1,2 Кбит/с. Использование стандарта MPEG-2 AAC в рамках набора средств MPEG-4 гарантирует сжатие аудиоданных при любых скоростях вплоть до самых высоких. Для того чтобы достичь высокого качества аудио во всем диапазоне скоростей передачи и в то же время обеспечить дополнительную функциональность, методики кодирования голоса и общего аудио интегрированы в одну систему.

  • Кодирование голоса при скоростях между 2 и 24 Кбит/с поддерживается системой кодирования HVXC (Harmonic Vector eXcitation Coding) для рекомендуемых скоростей 2-4 Кбит/с, и CELP (Code Excited Linear Predictive) для рабочих скоростей 4-24 Кбит/с. Кроме того, HVXC может работать при скоростях вплоть до 1.2 Кбит/с в режиме с переменной скоростью. При кодировании CELP используются две частоты стробирования 8 и 16 КГц, чтобы поддержать узкополосную и широкополосную передачу голоса соответственно.
  • Для обычного аудиокодирования при скоростях порядка и выше 6 Кбит/с применены методики преобразующего кодирования, в частности, TwinVQ и AAC. Аудиосигналы в этой области обычно стробируются с частотой 8 КГц.

Чтобы оптимально перекрыть весь диапазон скоростей передачи и разрешить масштабируемость скоростей, разработана специальная система, отображенная на рис. 6.14.

Общая блок-схема MPEG-4 Аудио

Рис. 6.14. Общая блок-схема MPEG-4 Аудио

Масштабируемость полосы пропускания является частным случаем масштабируемости скоростей передачи, по этой причине часть потока, соответствующая части спектра полосы пропускания, может быть отброшена при передаче или декодировании.

Масштабируемость сложности кодировщика позволяет кодирующим устройствам различной сложности формировать корректные информационные потоки. Масштабируемость сложности декодера позволяет данному потоку данных быть декодированному устройствами с различной сложностью (и ценой). Качество звука, вообще говоря, связано со сложностью используемого кодировщика и декодера Масштабируемость работает в рамках некоторых средств MPEG-4, но может также быть применена к комбинации методик, например к CELP как к базовому уровню, и AAC.

Уровень систем MPEG-4 позволяет использовать кодеки, следующие, например, стандартам MPEG-2 AAC. Каждый кодировщик MPEG-4 предназначен для работы в автономном режиме (stand-alone) со своим собственным синтаксисом потока данных. Дополнительная функциональность реализуется за счет возможностей кодировщика и посредством дополнительных средств вне его.

Улучшения MPEG-4 Аудио версии 2

Средства обеспечения устойчивости к ошибкам предоставляют улучшенные рабочие характеристики для транспортных каналов, предрасположенных к ошибкам.

Улучшенная устойчивость к ошибкам для AAC обеспечивается набором средств сокрытия ошибок. Эти средства уменьшают воспринимаемое искажение декодированного аудиосигнала, которое вызвано повреждением бит информационного потока. Предлагаются следующие средства для улучшения устойчивости к ошибкам для нескольких частей AAC-кадра:

  • средство виртуального кодового блокнота (VCB11);
  • средство с обращаемыми кодовыми словами переменной длины RVLC (Reversible Variable Length Coding);
  • средство изменения порядка кодовых слов Хаффмана HCR (Huffman Codeword Recordering).

Возможности улучшения устойчивости к ошибкам для всех средств кодирования обеспечиваются с помощью синтаксиса поля данных. Это допускает применение продвинутых методик кодирования, которые могут быть адаптированы к специальным нуждам различных средств кодирования. Данный синтаксис полей данных обязателен для всех объектов версии 2.

Средство защиты от ошибок (EP tool) работает со всеми аудиообъектами MPEG-4 версии 2, предоставляя гибкую возможность конфигурирования для широкого диапазона канальных условий. Главными особенностями средства EP являются следующие:

  • обеспечение набора кодов для коррекции/детектирования ошибок с широким диапазоном масштабируемости по рабочим характеристикам и избыточности;
  • обеспечение системы защиты от ошибок, которая работает с кадрами как фиксированной, так и переменной длины;
  • обеспечение управления конфигурацией защиты UEP (Unequal Error Protection) с низкой избыточностью.

Алгоритмы кодирования MPEG-4 аудио версии 2 предоставляет классификацию всех полей потока согласно их чувствительности к ошибкам. На основе этого поток данных делится на несколько классов, которые могут быть защищены раздельно с помощью инструмента EP, так что более чувствительные к ошибкам части окажутся защищены более тщательно.

В то время как универсальный аудиокодировщик MPEG-4 очень эффективен при кодировании аудиосигналов при низких скоростях передачи, он имеет алгоритмическую задержку кодирования/декодирования, достигающую нескольких сот миллисекунд, и является, таким образом, неподходящим для приложений, требующих малых задержек кодирования, таких как двунаправленные коммуникации реального времени. Для обычного аудиокодировщика, работающего при частоте стробирования 24 КГц и скорости передачи 24 Кбит/с, алгоритмическая задержка кодирования составляет 110 мс плюс до 210 мс дополнительно в случае использования буфера. Чтобы кодировать обычные аудиосигналы с алгоритмической задержкой, не превышающей 20 мс, MPEG-4 версии 2 специфицирует кодировщик, который использует модификацию алгоритма MPEG-2/4 AAC (Advanced Audio Coding). По сравнению со схемами кодирования речи, этот кодировщик позволяет сжимать обычные типы аудиосигналов, включая музыку, при достаточно низких задержках. Он работает вплоть до частот стробирования 48 КГц и использует длину кадров 512 или 480 значений стробирования, по сравнению с 1024 или 960 значений, используемых в стандарте MPEG-2/4 AAC. Размер окна, применяемого при анализе и синтезе блока фильтров, уменьшен в два раза. Чтобы уменьшить артефакты "пред-эхо" в случае переходных сигналов используется переключение размера окна. Для непереходных частей сигнала используется синусоидальное окно, в то время как в случае переходных сигналов применяется так называемое окно с низким перекрытием. Использование буфера битов минимизируется, чтобы сократить задержку. В крайнем случае, такой буфер вообще не используется.

Масштабируемость скорости передачи, известная как встроенное кодирование, является крайне желательной функцией. Обычный аудиокодировщик версии 1 поддерживает масштабируемость с большими шагами, где базовый уровень потока данных может комбинироваться с одним или более улучшенных уровней потока данных, чтобы можно было работать с высокими скоростями и, таким образом, получить лучшее качество звука. В типовой конфигурации может использоваться базовый уровень 24 Кбит/с и два по 16 Кбит/с, позволяя декодирование с полной скоростью 24 Кбит/с (моно), 40 Кбит/с (стерео), и 56 Кбит/с (стерео). Из-за побочной информации передаваемой на каждом уровне, малые уровнидобавки поддерживаются в версии 1 не очень эффективно. Чтобы получить эффективную масштабируемость с малыми шагами для стандартного аудиокодировщика, в версии 2 имеется средство побитового арифметического кодирования BSAC (Bit-Sliced Arithmetic Coding). Это средство используется в комбинации с AAC-кодированием и замещает бесшумное кодирование спектральных данных и масштабных коэффициентов. BSAC предоставляет масштабируемость шагами в 1 Кбит/с на аудиоканал, т.е. шагами по 2 Кбит/с для стереосигнала. Задействуется один базовый поток (уровень) данных и много небольших потоков улучшения. Базовый уровень содержит общую информацию вида, специфическую информацию первого уровня и аудиоданные первого уровня. Потоки улучшения содержат только специфические данные вида и аудиоданные соответствующего слоя. Чтобы получить масштабируемость с небольшими шагами, применяется побитовая схема квантования спектральных данных. Сначала преобразуемые спектральные величины группируются в частотные диапазоны. Каждая из этих групп содержит оцифрованные спектральные величины в двоичном представлении. Затем биты группы обрабатываются порциями согласно их значимости. Таким образом, сначала обрабатываются все наиболее значимые биты (MSB) оцифрованных величин в группе и т.д. Эти группы бит затем кодируются с привлечением арифметической схемы кодирования, чтобы получить энтропийные коды с минимальной избыточностью. Представлены различные модели арифметического кодирования, чтобы перекрыть различные статистические особенности группировок бит.

Верификационные тесты показали, что аспект масштабируемости этого средства ведет себя достаточно хорошо в широком диапазоне скоростей передачи. При высоких скоростях он столь же хорош, как главный профайл AAC, работающий на той же скорости, в то время как при нижних скоростях функция масштабируемости требует скромной избыточности по отношению к основному профайлу AAC, работающему на той же скорости.

Средства параметрического аудиокодирования сочетают в себе низкую скорость кодирования обычных аудиосигналов с возможностью модификации скорости воспроизведения или шага при декодировании без влияния особенностей устройства обработки. В сочетании со средствами кодирования речи и звука версии 1 ожидается улучшенная эффективность кодирования для использования объектов, которые допускает выбор и/или переключение между разными техниками кодирования.

Параметрическое аудиокодирование использует для кодирования общих аудиосигналов технику HILN (Harmonic and Individual Lines plus Noise) при скоростях 4 Кбит/с, а выше применяется параметрическое представление аудиосигналов. Основной идеей этой методики является разложение входного сигнала на аудиообъекты, которые описываются соответствующими моделями источника и представляются модельными параметрами. В кодировщике HILN используются модели объектов для синусоид, гармонических тонов и шума.

Как известно из кодирования речи, где используются специализированные модели источника, основанные на процессе генерации звуков в человеческом голосовом тракте, продвинутые модели источника могут иметь преимущество, в частности, для схем кодирования с очень низкими скоростями передачи.

Из-за очень низкой скорости передачи могут быть переданы только параметры для ограниченного числа объектов. Следовательно, модель восприятия устроена так, чтобы отбирать те объекты, которые наиболее важны для качества приема сигнала.

В HILN параметры частоты и амплитуды оцифровываются с "заметной разницей", известной из психо-акустики. Спектральный конверт шума и гармонический тон описан с применением моделирования LPC. Корреляция между параметрами одного кадра и между последовательными кадрами анализируется методом предсказания параметров. Оцифрованные параметры подвергаются энтропийному кодированию, после чего эти данные вводятся в общий информационный поток.

Очень интересное следствие этой схемы параметрического кодирования проистекает из того факта, что сигнал описан через параметры частоты и амплитуды. Эта презентация сигнала позволяет изменять скорость и высоту звука простой вариацией параметров декодера. Параметрический аудиокодировщик HILN может быть объединен с параметрическим кодировщиком речи MPEG-4 (HVXC), что позволит получить интегрированный параметрический кодировщик, покрывающий широкий диапазон сигналов и скоростей передачи. Этот интегрированный кодировщик поддерживает регулировку скорости и тона. Используя в кодировщике средство классификации речи/музыки, можно автоматически выбрать HVXC для сигналов речи и HILN для музыкальных сигналов. Такое автоматическое переключение HVXC/HILN было успешно продемонстрировано, а средство классификации описано в информативном приложении стандарта версии 2.

Средство "сжатия тишины" уменьшает среднюю скорость передачи благодаря более эффективному сжатию пауз (тишины). В кодировщике детектор активности голоса используется для разделения областей с нормальной голосовой активностью и зон молчания или фонового шума. Во время нормальной голосовой активности используется кодирование CELP, как в версии 1. В противном случае передается дескриптор SID (Silence Insertion Descriptor) при малой скорости передачи. Этот дескриптор SID активирует в декодере генератор CNG (Comfort Noise Generator). Амплитуда и форма спектра этого шума специфицируются энергией и параметрами LPC, как в обычном кадре CELP. Эти параметры являются опционной частью SID и, таким образом, могут модифицироваться.

Объект HVXC, устойчивый к ошибкам (ER), поддерживается средствами параметрического кодирования голоса (ER HVXC), которые предоставляют режимы с фиксированными скоростями обмена (2,0-4,0 Кбит/с) и режим с переменной скоростью передачи (<2,0 Кбит/с, <4,0 Кбит/с) в рамках масштабируемой и не масштабируемой схем. В версии 1 HVXC режимом с переменной скоростью передачи поддерживается максимум 2,0 Кбит/с, а режимом с переменной скоростью передачи в версии ER HVXC 2 дополнительно поддерживается максимум в 4,. Кбит/с. ER HVXC обеспечивает качество передачи голоса международных линий (100-3800 Гц) при частоте стробирования 8 КГц. Когда разрешен режим с переменной скоростью передачи, возможна работа при низкой средней скорости передачи. Речь, кодированная в режиме с переменной скоростью передачи, при среднем потоке 1,5 Кбит/с и типовом среднем значении 3,0 Кбит/ с имеет практически то же качество, что для 2,0 Кбит/с при фиксированной скорости и 4,0 Кбит/с соответственно. Функциональность изменения тона и скорости при декодировании поддерживается для всех режимов. Кодировщик речи ER HVXC ориентирован на приложения мобильной и спутниковой связи, до IP-телефонии и голосовых баз данных.

Средства пространственной характеристики среды позволяют создавать аудиосцены с более естественными источниками звука и моделированием звукового окружения, чем это возможно в версии 1. Поддерживается как физический подход, так и подход восприятия. Физический подход основан на описании акустических свойств среды (например, геометрии комнаты, свойств конструкционных материалов, положения источников звука) и может быть использован в приложениях подобно 3D виртуальной реальности. Подход с позиций восприятия позволяет на высоком уровне описать аудиовосприятие сцены, основанное на параметрах, подобных тем, что используются блоком эффекта реверберации. Таким образом, аудио- и визуальная сцена могут быть сформированы независимо, как это обычно требуется при создании кинофильмов. Хотя пространственные характеристики среды относятся к аудио, они являются частью описания BIFS (BInary Format for Scene) в системах MPEG-4 и называются продвинутым AudioBIFS.

Канал обратной связи (back channel) позволяет передать запрос клиента и/или клиентского терминала серверу. Посредством такого канала может быть реализована интерактивность. В системе MPEG-4 о необходимости канала обратной связи клиентский терминал оповещается с помощью соответствующего дескриптора элементарного потока, характеризующего параметры этого канала. Терминал клиента открывает этот канал так же, как и обычные каналы. Объекты (например медиа- кодировщики или декодеры), которые соединены через канал обратной связи, известны благодаря параметрам, полученным через дескриптор элементарного потока, и за счет ассоциации дескриптора элементарного потока с дескриптором объекта. В MPEG-4 Аудио канал обратной связи служит для настройки скорости передачи, масштабируемости и системы защиты от ошибок.

Транспортный поток MPEG-4 Аудио определяет механизм передачи аудиопотоков MPEG-4 без использования систем MPEG-4 и предназначен исключительно для аудиоприложений. Транспортный механизм использует двухуровневый подход, в частности, уровни мультиплексирования и синхронизации. Уровень мультиплексирования (Low-overhead MPEG-4 Audio Transport Multiplex: LATM) управляет мультиплексированием нескольких информационных полей MPEG-4 аудио и аудиоконфигурационной информации. Уровень синхронизации специфицирует синтаксис транспортного потока MPEG-4 Аудио, который называется LOAS (Low Overhead Audio Stream — аудиопоток с низкой избыточностью). Интерфейсный формат для транспортного уровня зависит от нижележащего коммуникационного уровня.

Синтетический звук

MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов структурированного ввода. Текстовый ввод преобразуется в декодере TTS (Text-To-Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным путем. Синтетическая музыка может транспортироваться при крайне низких потоках данных.

Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1,2 Кбит/с, что позволяет использовать при синтезе речи в качестве входных данных текст или текст с просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие декодеры поддерживают генерацию параметров, которые могут быть использованы для синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы с международными символами фонем. Дополнительная разметка применяется для передачи в тексте управляющей информации, которая переадресуется другим компонентам для обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный интерфейс для работы кодировщика TTS ( TTSI = Text To Speech Interface), но не для стандартного TTS-синтезатора.

Синтез с множественным управлением (Score Driven Synthesis)

Средства структурированного аудио декодируют входные данные и формируют выходной звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4. Этот язык используется для определения "оркестра", созданного из "инструментов" (загруженных в терминал потоком данных), которые формирует и обрабатывает управляющую информацию. Инструмент представляет собой маленькую сеть примитивов обработки сигналов, которые могут эмулировать некоторые специфические звуки настоящих акустических инструментов. Сеть обработки сигналов может быть реализована аппаратно или программно и включать как генерацию, так и обработку звуков, а также манипуляцию записанными ранее звуками.

MPEG-4 не стандартизует единственный метод синтеза, а, скорее, описывает путь описания методов синтеза. Любой сегодняшний или будущий метод синтеза звука может быть описан в SAOL, включая таблицу длин волн, FM, физическое моделирование и гранулярный синтез, а также непараметрические гибриды этих методов.

Управление синтезом выполняется путем включения примитивов (score) или скриптов в поток данных. Примитив представляет собой набор последовательных команд, которые включают различные инструменты в определенное время и добавляют их сигнал в общий музыкальный поток или формируют заданные звуковые эффекты. Описание примитива, записанное на языке SASL (Structured Audio Score Language), может использоваться для генерации новых звуков, а также включать дополнительную управляющую информацию для модификации существующих звуков. Это позволяет композитору осуществлять тонкое управление синтезированными звуками. Для процессов синтеза, которые не требуют такого тонкого контроля для управления оркестром, может также использоваться протокол MIDI.

Тщательный контроль в сочетании с описанием специализированных инструментов позволяет генерировать звуки, начиная с простых аудиоэффектов, таких как звуки шагов или закрытия двери, и кончая естественными звуками, такими как шум дождя или музыка, исполняемая на определенном инструменте, или синтетическая музыка с полным набором разнообразных эффектов.

Для терминалов с меньшей функциональностью и для приложений, которые не требуют такого сложного синтеза, стандартизован также формат волновой таблицы (wavetable bank format). Используя этот формат, можно загрузить звуковые образцы для использования при синтезе, а также выполнить простую обработку — фильтрацию, реверберацию ввод эффекта хора. В этом случае вычислительная сложность необходимого процесса декодирования может быть точно определена из наблюдения потока данных, что невозможно при использовании SAOL.

По инициативе ряда компаний (Philips Business Electronics, Sony и Nokia) была создана экспертная группа по мультимедиа и гипермедиа MHEG (Multimedia Hypermedia Expert Group (ISO/IEC DIS 13522-5, 1995 г.); см. http://www.mheg.org/users/mheg/archives.htm и http://www.mheg.org/users/mheg/archives/doc/dsmcc-mheg.zip), которая определила стандарт для обмена мультимедийными объектами (видео, звук, текст и другие данные) между приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и вещания) с использованием объектных классов MHEG. Этот стандарт позволил программным объектам включать в себя любую систему кодирования, которая определена в базовом приложении. MHEG был принят Советом по цифровому видео и звуку ( DAVICDigital Audio-Visual Council; см. http://www.mheg.org/users/mheg/archives/doc/14B94R10.zip). MHEG-объекты создаются мультимедийными приложениями. MHEG — будущий международный стандарт интерактивного TV.

Стандарты MPEG-6, предназначавшийся для беспроводной передачи данных, и MPEG-8, цель которого — четырехмерное описание объектов, так и не увидели свет.

В рамках MPEG-4 было введено понятие аудио- и видеообъектов. Дальнейшее развитие эта технология нашла в стандарте MPEG-7. Здесь расширяется понятие сцены и ее описания, делаются подходы к решению задачи поиска видео- и аудиообъектов в мультмедийном материале.

Наталья Шульга
Наталья Шульга

Курс "информационная безопасность" .

Можно ли на него записаться на ПЕРЕПОДГОТОВКУ по данному курсу? Выдается ли диплом в бумажном варианте и высылается ли он по почте?

Нияз Сабиров
Нияз Сабиров

Здравствуйте. А уточните, пожалуйста, по какой причине стоимость изменилась? Была стоимость в 1 рубль, стала в 9900 рублей.