Московский физико-технический институт
Опубликован: 07.08.2007 | Доступ: свободный | Студентов: 5447 / 1060 | Оценка: 4.28 / 3.93 | Длительность: 45:30:00
ISBN: 978-5-94774-706-5
Лекция 6:

Стандарт mpeg-4, -7, -21

Аннотация: Объектные подходы и описание сцены. Формирование аудио-визуальных сцен MPEG-4. Описание и синхронизация потоков данных для медийных объектов. Профайлы. Демультиплексирование, синхронизация и описание потоков данных, язык описания определений MPEG-7 (DDL). Альфа-маски.
Ключевые слова: MPEG-4, picture, group, MPEG-1, MPEG-2, CD-ROM, цифровое телевидение, synthetic, VRML, virtual reality, BER, DMIF, elementary stream, transport stream, intellectual property, PSTN, scene, MPEG-J, CELP, TTS, facial animation, audio decoding, анализ потока данных, interlace, QCIF, HDTV, BIF, задержка буферизации, H.245, PDU, PES, DAI, PCS, SNR, широковещание, banding, AAC, OCIS, IPMP, демультиплексор, DNIS, AAL, метки потока, статический атрибут, 'pitch', IPR, intellectual property management, data set, application engineering, менеджер ресурсов, wavelet, DCT, полная модель, INTERPOL, описание тела, линейная форма, affinity, CIFS, VLB, панорама, motion compensation, VLC, HEC, fixed-length code, функциональная методика, harmonic, EP, error protection, MSB, LPC, разделение области, overhead, audio streaming, гипермедиа, hypermedia, DIS, digitized audio, группа, MPEG, интерфейс, multimedia, content, DESCRIPTION, interface, MPEG-7, мультимедиа, приложение, industry, focus group, DAB, VCR, PCM, SMPTE, Dublin Core, EBU, experimental, access unit, парсинг, дескриптор типа, встроенные примитивные типы, temporal, категорирование, speech recognition, ASR, contour, MultiView, емкость памяти, GOPS, нелинейный преобразователь, HSV, histogram, homogeneous, масштабируемость решения, внутреннее описание, FOCS, SIF, сегменты, разделы, статистические функции, DUT, PNM, связанный список, прикладной программный интерфейс, индивидуальный тип, digital, item, объект, определение, пользователь, права, контент, полезная модель, физический ресурс, регистрационный центр, CDI, инкапсуляция данных, data dictionary

MPEG-4 является стандартом ISO/IEC, разработанным комитетом MPEG (Moving Picture Experts Group; см. http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm, а также http://book.itep.ru/2/25/mpeg-4R.htm), который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение. MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира. Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре 1998 г. Международным стандартом он стал в начале 1999 г. Полностью совместимый расширенный вариант MPEG-4 версии 2 был разработан к концу 1999 г. и стал международным стандартом в начале 2000 г. Работы над этим документом продолжаются. MPEG-4 предназначен для решения трех проблем:

  • цифровое телевидение;
  • интерактивные графические приложения (synthetic content);
  • интерактивное мультимедиа World Wide Web.

6.1. Стандарт MPEG-4

Стандарт MPEG-4 предоставляет технологии для нужд разработчиков, сервис-провайдеров и конечных пользователей.

  • Для разработчиков MPEG-4 позволяет создавать объекты, которые обладают большей адаптивностью и гибкостью, чем это возможно сейчас с использованием разнообразных технологий, таких как цифровое телевидение, анимационная графика WWW и их расширения. Новый стандарт дает возможность лучше управлять содержимым и защищать авторские права.
  • Для сетевых провайдеров MPEG-4 предлагает прозрачность данных, которые могут интерпретироваться и преобразовываться в приемлемые сигнальные сообщения для любой сети посредством стандартных процедур. MPEG-4 предлагает индивидуальные QoS-дескрипторы (Quality of Service) для различных сред. Точное преобразование параметров QoS для каждой из сред в сетевые значения QoS находится за пределами регламентаций MPEG-4 (оставлено на усмотрение сетевых провайдеров). Передача QoS-дескрипторов MPEG-4 по схеме точка-точка оптимизирует транспортировку данных в гетерогенных средах.
  • Для конечных пользователей MPEG-4 предлагает более высокий уровень взаимодействия с содержимым объектов. Стандарт для транспортировки мультимедиа через новые сети, включая те, которые имеют низкую пропускную способностью, например мобильные.

Стандарт MPEG-4:

  1. представляет блоки звуковой, визуальной и аудио-визуальной информации, называемые "медийными объектами". Эти медийные объекты могут быть естественного или искусственного происхождения; то есть они могут быть записаны с помощью камеры или микрофона, а могут быть и сформированы посредством ЭВМ;
  2. описывает композицию этих объектов при создании составных медийных объектов, которые образуют аудио-визуальные сцены;
  3. определяет мультиплексирование и синхронизацию данных, ассоциированных с медийными объектами, так, чтобы они могли быть переданы через сетевые каналы, обеспечивая QoS, приемлемое для природы специфических медийных объектов;
  4. определяет взаимодействие с аудио-визуальной сценой, сформированной на принимающей стороне.

Кодированное представление медийных объектов

Аудио-визуальные сцены MPEG-4 формируются из нескольких медийных объектов, организованных иерархически. На периферии иерархии находятся примитивные медийные объекты, такие как:

  • статические изображения (например, фон изображения);
  • видеообъекты (например, говорящее лицо — без фона);
  • аудиообъекты (например, голос данного лица);
  • и т.д.

MPEG-4 стандартизует число таких примитивных медиа-объектов, способных представлять как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-мерными. Кроме медиа-объектов, упомянутых выше и показанных на рис. 3.1, MPEG-4 определяет кодовое представление объектов, такое как:

  • текст и графика;
  • говорящие синтезированные головы и ассоциированный текст, использованный для синтеза речи и анимации головы;
  • синтезированный звук.

Медиа-объект в его кодированной форме состоит из описательных элементов, которые позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо, ассоциировать с ним поток данных. Важно заметить, что кодированная форма каждого медиа-объекта может быть представлена независимо от его окружения или фона.

Кодовое представление медиа-объектов максимально эффективно с точки зрения получения необходимой функциональности. Примерами такой функциональности являются разумная обработка ошибок, легкое извлечение и редактирование объектов и представление объектов в масштабируемой форме.

Состав медийных объектов

На рис. 6.1 объясняется способ описания аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой субдеревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект.

Пример сцены MPEG-4

Рис. 6.1. Пример сцены MPEG-4

Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными или группами таких объектов.

MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:

  • помещать медиа-объекты где угодно в заданной координатной системе;
  • применять преобразования для изменения геометрического или акустического вида медиа-объекта;
  • группировать примитивные медиа-объекты, для того чтобы образовать составные медиа-объекты;
  • использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом);
  • интерактивно изменять точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).

Описание сцены строится во многих отношениях так же, как и в языке моделирования виртуальной реальности VRML (Virtual Reality Modeling Language).

Описание и синхронизация потоков данных для медийных объектов

Медиа-объектам может быть нужен поток данных, который преобразуется в один или несколько элементарных потоков. Дескриптор объекта идентифицирует все потоки, ассоциированные с медиа-объектом. Это позволяет иерархически обрабатывать кодированные данные, а также ассоциированную медиа-информацию о содержимом (называемом "информация содержимого объекта").

Каждый поток характеризуется набором дескрипторов для конфигурирования информации, например, чтобы определить необходимые ресурсы записывающего устройства и точность кодированной временной информации. Более того, дескрипторы могут содержать подсказки относительно QoS, которое необходимо для передачи (например, максимальное число бит/с, BER, приоритет и т.д.)

Синхронизация элементарных потоков осуществляется за счет временных меток блоков данных в пределах элементарных потоков. Уровень синхронизации управляет идентификацией таких блоков данных (модулей доступа) и работой с временными метками. Независимо от типа среды этот слой позволяет идентифицировать тип модуля доступа (например, видео- или аудиокадры, команды описания сцены) в элементарных потоках, восстанавливать временную базу медиа-объекта или описания сцены, и осуществлять их синхронизацию. Синтаксис этого слоя конфигурируется самыми разными способами, обеспечивая работу с широким спектром систем.

Доставка потоков данных

Синхронизованная доставка потока данных отправителя получателю, которая использует различные QoS, доступные в сети, специфицирована в терминах слоя синхронизации и доставки, содержащих двухслойный мультиплексор (см. рис. 6.2).

Первый слой мультиплексирования управляется согласно спецификации DMIF (Delivery Multimedia Integration Framework). Это мультиплексирование может быть реализовано определенным в MPEG мультиплексором FlexMux, который позволяет группировать элементарные потоки ES (Elementary Streams) с низкой избыточностью. Мультиплексирование на этом уровне может использоваться, например, для группирования ES с подобными требованиями по QoS, чтобы уменьшить число сетевых соединений или значения задержек.

Модель системного слоя MPEG-4

Рис. 6.2. Модель системного слоя MPEG-4

Слой TransMux (Transport Multiplexing) на рис. 6.2 моделирует уровень, который предлагает транспортные услуги, удовлетворяющие требованиям QoS. MPEG-4 специфицирует только интерфейс этого слоя, в то время как остальные требования к пакетам данных будут определяться транспортным протоколом. Любой существующий стек транспортных протоколов, например (RTP)/UDP/IP, (AAL5)/ATM или MPEG-2 Transport Stream, поверх подходящего канального уровня может стать частным случаем TransMux. Выбор оставлен за конечным пользователем или сервис-провайдером и позволяет использовать MPEG-4 с широким спектром операционного окружения.

Использование мультиплексора FlexMux является опционным, и, как показано на рис. 6.2, этот слой может быть пустым, если нижележащий TransMux предоставляет все необходимые функции. Слой синхронизации, однако, присутствует всегда. С учетом этого возможно:

  • идентифицировать модули доступа, транспортные временные метки и эталонную временную информацию, а также регистрировать потерю данных;
  • опционно выкладывать данные от различных элементарных потоков в потоки FlexMux;
  • передавать управляющую информацию;
  • индицировать необходимый уровень QoS для каждого элементарного потока и потока FlexMux;
  • транслировать данные требования QoS в действительные сетевые ресурсы;
  • ассоциировать элементарные потоки с медиа-объектами;
  • передавать привязку элементарных потоков к FlexMux- и TransMux-каналам.

Взаимодействие с медийными объектами

Пользователь видит сцену, которая сформирована согласно дизайну разработчика. В зависимости от степени свободы, предоставленной разработчиком, пользователь имеет возможность взаимодействовать со сценой. Пользователю могут быть разрешены следующие операции:

  • изменить точку наблюдения/слушания на сцене;
  • перемещать объекты по сцене;
  • вызывать последовательность событий путем нажатия кнопки мыши на определенных объектах, например, запуская или останавливая поток данных;
  • выбирать предпочтительный язык, когда такой выбор возможен.

Менеджмент и идентификация интеллектуальной собственности

Важно иметь возможность идентифицировать интеллектуальную собственность в MPEG-4 медиа-объектах. Полный перечень требований для идентификации интеллектуальной собственности можно найти на базовой странице MPEG в разделе "Management and Protection of Intellectual Property".

MPEG-4 включает в себя идентификацию интеллектуальной собственности путем запоминания уникальных идентификаторов, которые выданы международными системами нумерации (например ISAN (International Audio-Visual Number), ISRC (International Standard Recording Code) и т.д.). Эти числа могут использоваться для идентификации текущего владельца прав медиа-объекта. Так как не все содержимое идентифицируется этим числом, MPEG-4 версии 1 предлагает возможность идентификации интеллектуальной собственности с помощью пары ключевых значений (например: композитор/John Smith). Кроме того, MPEG-4 предлагает стандартизованный интерфейс, который тесно интегрирован с системным слоем для людей, которые хотят использовать системы, контролирующие доступ к интеллектуальной собственности. С этим интерфейсом системы контроля прав собственности могут легко интегрироваться со стандартизованной частью декодера.

С учетом актуальности проблемы в настоящее время разрабатывается стандарт MPEG-21, который регламентирует отношения пользователей между собой и с цифровыми объектами.

Наталья Шульга
Наталья Шульга

Курс "информационная безопасность" .

Можно ли на него записаться на ПЕРЕПОДГОТОВКУ по данному курсу? Выдается ли диплом в бумажном варианте и высылается ли он по почте?

Нияз Сабиров
Нияз Сабиров

Здравствуйте. А уточните, пожалуйста, по какой причине стоимость изменилась? Была стоимость в 1 рубль, стала в 9900 рублей.