Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)


 

 

 

 



Принципы и форматы упаковки данных аудио- и видеосигналов



 

Всего 15 лет тому назад многоцветные цифровые изображения с высоким разрешением обрабатывались на профессиональных графических станциях, откуда они в таком виде, как правило, не уходили дальше архива на магнитной ленте. Сегодня передача высококачественного изображения на большие расстояния по каналам связи и его хранения в памяти миниатюрной цифровой камеры стали привычным делом. Как многое в технике идея сжатия визуальной информации давно уже реализована матушкой природой в живых существах, населяющих Землю, в том числе и в нас с вами. Ресурсы нашего мозга были бы очень быстро исчерпаны, если бы мы воспринимали изображение просто как совокупность импульсов от сетчатки глаза.

Например, глядя на лес, мы не замечаем очертание каждого дерева, однако впоследствии можно узнать конкретный лес или подробно описать его знакомым. Лес состоит из деревьев, на каждом из которых есть листья. Зная, как выглядит «среднестатистическое дерево» и «среднестатистический» лист, мы строим в своем сознании соответствующую модель «среднестатистического» леса. В качестве информации об определенном лесном массиве мы запоминаем различие между усредненной моделью в нашем представлении и реально наблюдаемым лесом: там листва рано пожелтела, там дерево согнулось, а там необычно высокое дерево. При необходимости по этим данным можно даже по памяти нарисовать картину. Вот это и есть один из видов сжатия графической информации.

Способы представления изображений в компьютере, используемые на практике сегодня, делятся на два основных типа: векторные и растровые.

При векторном представлении изображение передается в виде информации о наборе геометрических фигур, их цвете и взаимном расположении. Описание векторной графики, как правило, очень компактно, но далеко не каждое изображение можно представить набором геометрических фигур. Невозможно представить в векторной форме фотографии с плавным цветовыми переходами. Поэтому фотографии, а также рисунки с нечеткими границами объектов представляют в виде, когда изображение равномерно делится на точки — растр. Недостатком растрового изображения является большой объем информации — здесь-то и требуются высокоэффективные методы сжатия. На практике часто используется комбинированных вариант — растровое изображение входит в состав векторного как один из элементов.

В персональных компьютерах основным стандартом без сжатия является BMP (Bitmap). Для хранения несжатых изображений в таких областях, как компьютерная графика, издательское дело и цифровая фотография, используется один из вариантов формата TIFF (опция «без сжатия»), который наряду с набором чисел, поставленных в соответствие пикселям, содержит дополнительную информацию, необходимую при работе с изображением.

Методы сжатия информации, в том числе графический, делятся на два класса: с потерями и без потерь. В первом случае при упаковке из исходной информации удаляются мелкие и несущественные детали изображения, которые, как правило, не воспроизводятся человеческим глазом. Во втором случае исходные данные можно восстановить в исходном виде (среди таких методов алгоритм RLE, серия алгоритмов LZ).

 

Алгоритмы сжатия

 

Потоки информации, с которыми приходится иметь дело компьютеру, как правило, содержат повторяющиеся цепочки символов. Самый яркий пример — текст, в котором неоднократно употребляются те или иные слова. Если развернуть изображение по строкам, то можно увидеть не только цепочки одинаковых чисел, но и повторяющиеся последовательности. Напрашивается мысль: заменить подобные цепочки одним символом, а в начале файла поместить таблицу замен, по которой можно восстановить информацию. Но если наш мозг позволяет быстро извлечь из текста слова, даже если они не разделены пробелами, то для компьютера эта задача является довольно сложной. И только в 1977 г. два израильских математика, А. Лемпел и Я. Зив, разработали новый класс алгоритмов сжатия без потерь, получивший название метод Лемпела–Зива. Одновременно с публикацией общих идей исследователи обнародовали и основанный на этих идеях алгоритм LZ77. Через год алгоритм был усовершенствован, новый вариант стал известен как LZ78. на основе этих разработок впоследствии было создано множество методов сжатия информации, получивших по первым буквам фамилий создателей общее название LZ — алгоритмы. Примерами реализации LZ — алгоритмов являются Zip — архиваторы и протокол V.42bis.

Недостатком классического варианта алгоритма LZ является то, что он эффективен лишь для повторяющихся цепочек длиной не менее 5 байт. При сжатии текстов это приемлемо, но при сжатии изображения глубиной цвета 8 бит классический LZ становится неэффективным. В 1983 г. сотрудник компании Unisys Т. Уэлч нашел способ усовершенствовать классический LZ таким образом, что становится выгодным работать с повторяющимися цепочками, начиная с 2 байт — этот вариант алгоритма получил название Лемпела–Зива–Уэлча (LZW). Представим, что найдена цепочка символов А, которая содержит уже найденную цепочку В и больше ее всего на один символ С. В классическом алгоритме LZ цепочки А и В будут записаны и обрабатываться отдельно или же будет взята большая из них, т.е. А. В алгоритме LZW последовательность А будет записана как «С, ссылка на В». Таким образом, не только уменьшается объем сохраняемой в файле информации, но и значительно повышается быстродействие. В отличие от классического LZ, который стал общедоступен, алгоритм LZW был запатентован компанией Unysys.

Алгоритм LZW появился очень своевременно и сразу же стал применяться в самых разнообразных целях, но особенно удачным оказалось его использование для сжатия изображений, передаваемых по компьютерным сетям. На основе LZW в компании CompuServe, которая владела одной из крупнейших компьютерных сетей США, в 1987 г. был создан графический формат Graphics Interchange Format (GIF). Среди преимуществ GIF — поддержка т.н. чересстрочной развертки, благодаря чему в процессе загрузки можно увидеть изображение в полном размере, но с пониженной четкостью и принять решение, стоит ли загружать его дальше. По мере загрузки новых данных четкость изображения повышается.

Формат GIF быстро завоевал популярность среди пользователей CompuServe, в 1989 г. была принята его новая версия.

8.1.1 PNG

 

За разработку нового формата, который был бы не хуже, чем GIF, но при этом не требовал лицензионных отчислений, интернетовская общественность взялась всем миром. Точкой отсчета истории PNG можно считать 4 января 1995 г., когда Т. Боутелл послал в ряд конференций Usenet свои предложения о графическом формате Portable Bitmap Format (PBF).

Первый вариант нового формата был, как GIF, 256- цветным и еще не был привязан к определенному методу сжатия, но уже содержал некоторые черты современного PNG. События развивались стремительно. 23 января 1995 г. новый формат получил современное название Portable Network Graphics (PNG), что в переводе на русский язык означает «переносимый графический формат». Темпы, которыми шла разработка формата, иллюстрирует следующий факт: к моменту переименования, т.е. менее, чем через три недели после размещения описания алгоритма в Usenet, было разработано уже четыре его версии.

В основе PNG лежит LZ-алгоритм, который, обладая преимуществами LZW, является лицензионно чистым. Графический формат PNG поддерживает глубину цвета до 48 бит, но в отличие от большинства графических форматов в PNG нет четкого деления между типами изображений по глубине цвета. В графический файл формата PNG записывается описание всей палитры цветов, используемой в изображении, что позволяет гибко подстраиваться под реальное число цветов в изображении и обеспечивает более высокую степень сжатия, чем GIF. Как и GIF, формат PNG поддерживает возможность чересстрочной развертки, причем в PNG она является двумерной. Среди других приятных особенностей формата PNG — возможность выбора компрессии либо по критерию быстроты распаковки изображения, либо по максимально высокому коэффициенту сжатия.

Формат PNG поддерживается Netscape Communicator, начиная с версии 4.0, Microsoft Internet Explorer начиная с версии 4.01 — всеми версиями браузера Opera, а также почти всеми современными графическими редакторами. Однако встретить изображение в формате PNG на Web-страницах до сих пор практически невозможно. Причина в том, что формат GIF со сжатием без потерь используется на WEB-страницах главным образом для мелких элементов навигации и управления. В формате PNG размер файла не может быть меньше 1 Кбайт, поскольку именно столько занимает описание палитры. Таким образом, для маленьких изображений размер файла в формате PNG может быть больше, чем у GIF, а иногда больше, чем у BMP.

 

8.1.2 JPEG

 

Методы сжатия с потерями применяются для изображения с глубиной цвета 24 бита. Возможен вариант их использования для изображения с 256 оттенками серого. С одной стороны, именно для полноцветных изображений нужны эффективные методы сжатия: изображение 800×600 точек с глубиной цвета 24 бита в формате BMP занимает 1,4 Мбайт! С другой стороны, при глубине 8 бит изменение цвета хотя бы на один бит в младшем разряде хорошо заметно глазу, а ведь при сжатии с потерями искажения непременно возникают. Если глубина цвета 24 бита, то ошибка в одном-двух младших битах будет малозаметна.

Формат JPEG (Joint Photographic Expert Group) был разработан в 1991 г. одноименным подразделением в рамках ISO — международной организации по стандартизации. Суть его заключается в следующем. Изображение делится на участки размером 8х8 точек. В пределах каждого участка над массивом точек осуществляется дискретное преобразование Фурье. В полученном спектре более высоким частотам будут соответствовать более мелкие детали. Как правило, чем выше частота, тем меньше амплитуда (частота и амплитуда являются более общими понятиями, применимыми и к изображению). В зависимости от требуемой степени сжатия записываются коэффициенты для частот от нуля до определенного значения. Интересно, что по своему принципу работы JPEG отдаленно напоминает алгоритм сжатия звуковой информации МР3, что еще раз свидетельствует о единстве законов природы.

Искажения изображения при использовании алгоритма JPEG проявляются в размывании резких цветовых границ и исчезновений мелких деталей. При очень сильном сжатии изображение начинает выглядеть как мозаика, каждый элемент которой имеет размер 8х8 точек. При сжатии задается показатель качества, выраженный в процентах, — чем он больше, тем меньше степень сжатия. Для хорошего качества сжатие фотографического изображения по сравнению с BMP составляет 10–20 раз.

Алгоритм JPEG положен в основу одноименного формата, поддерживающего прогрессивную развертку (в отличие от телевидения и компьютерных мониторов, где термины «чересстрочная развертка» и «прогрессивная развертка» имеют прямо противоположное значение, в данном случае они близки по смыслу; прогрессивная развертка, также как и чересстрочная, обеспечивает постепенную прорисовку изображения), а также используется в форматах TIFF и QuickTime.

 

8.1.3 Фрактальные методы

 

Топологической размерностью множества в линейном пространстве называют число линейно независимых координат, которыми описывают его точки. Например, окружность имеет топологическую размерность 1, круг (т.е. часть плоскости, лежащая внутри окружности), сфера — 2, а шар (как часть объема, ограниченная сферой) —3. Фрактальной размерностью множества называется размерность пространства, которое полностью заполняется множеством. Фракталом называют множество, для которого фрактальная размерность не совпадает с топологической. Например, фракталом может быть линия бесконечной длины, ограничивающая конечную по площади часть плоскости.

Картинку, нарисованную человеком, можно представить в виде комбинаций геометрических фигур, в результате получится векторное изображение. Такие геометрические фигуры, как линия, прямоугольник, треугольник, круг, эллипс, дуга и т.п., можно описать формулами и несложными алгоритмами построения. Пейзаж или портрет описать набором таких элементарных фигур очень сложно, вот почему мы не можем представить фотографию в векторной форме. В 70-е годы 20 века математики стали проявлять интерес к новому классу геометрических фигур, фракталам. Уже первые исследования показали, что фракталы удивительно похожи на природные объекты: листья, соцветия, капли и т.п. В 1977 г. бельгийский математик Б. Мандельброт высказал смелое предположение, что это не просто совпадение, а действительно те очертания природных объектов, которые мы привыкли называть нечеткими или расплывчатыми, на самом деле представляют собой фракталы. Пока что биология не подтвердила эту гипотезу, однако существуют результаты вычислительных экспериментов, подтверждающие целесообразность использования данной идеи в практических целях. Фрактальное преобразование описывает обработку форм различных размеров, похожих между собой по структуре (пример таких объектов — чипсы). При этом изображение можно масштабировать в широких пределах — ведь картина рисуется кривыми, только более сложными, чем в векторной графике. Теоретически это позволяет сжимать графическую информацию до 10 тыс. раз, причем появляющиеся при этом искажения будут гораздо менее заметны человеческому глазу по сравнению с результатами применения алгоритма JPEG.

В 1981 г. Д. Хатчинсон предложил метод системы итерируемых (IFS, Iterated Function System) функций для фрактального сжатия изображений. В 1987 г. американец М. Барнсли основал компанию Iterated Systems, основной деятельностью которой является создание новых алгоритмов и ПО с использованием фракталов. Первая практическая реализация метода IFS в виде компьютерного алгоритма появилась только в 1990 г. Фрактал представляется в виде набора рекурсивных преобразований, коэффициенты в которых и являются описанием изображения. В процессе сжатия информации происходит определение этих коэффициентов.

Практическим результатом работы компании Iterated Systems стал графический формат FIF, использующий принцип фрактального сжатия. Для создания FIF-файлов существует специальная программа, а также plugin к редактору Adobe Photoshop. Однако, несмотря на всю свою привлекательность, FIF пока что не стал таким же общедоступным форматом для Web, как GIF или JPEG.

Фрактальное сжатие изображений является сейчас важной темой для многих серьезных исследований. Конечно, 10000-крат-ной компрессии фрактальными методами пока еще достичь не удалось, но сжатие изображения в 50 раз так, что искажения практически не заметны, — уже реальный результат. Однако при всех своих преимуществах фрактальные алгоритмы сжатия, даже уже довольно известный IFS, пока не нашли широкого применения. Причина в том, что схожесть очертаний любых природных объектов с фракталами пока что не доказана, а лишь подтверждена эмпирическим путем на ограниченном наборе фотографий. А это значит, что при коммерческом применении фирма, использующая в свох продуктах фрактальные методы, пока не может гарантировать своим пользователям жестко определенные показатели качества работы.

Сфера применения описанных методов и алгоритмов сжатия не ограничивается упаковкой графических файлов. С тем же успехом их можно использовать и для обработки мультимедиа-файлов, к которым, помимо графики, относятся аудио- и видеоролики.

 

8.1.4 Вэйвлеты (Wavelets)

 

Основной идеей сжатия c использованием простейшего вэйвлет-преобразования является то, что сжать вдвое уменьшенную картинку и ее отличия от оригинальной можно гораздо компактнее, чем саму картинку. Таким образом, получается следующий алгоритм сжатия (в простейшем случае): строим уменьшенную вдвое копию исходной картинки (четыре точки приводим к одной, по цвету берем минимум из 4-х), и записываем отличия исходной от уменьшенной (которую для этого придется временно увеличить). Отличия всегда невелики по модулю, и поэтому эффективно сжимаются (большие по модулю отличия будем заменять на «максимально разрешенные» — это и будет единственным источником потерь качества). Дальше можно принять вдвое уменьшенную картинку за исходную — и повторять процедуру пока не останется картинка 1х1. При распаковке считываем из входного файла очередную табличку значений, «размножаем» пиксели и прибавляем к ним соответствующие значение «отличий».

 

Стандарты MPEG

 

В 1988 г. начала работу по созданию серии стандартов сжатия цифрового видео группа экспертов MPEG (Motion Pictures Expert Group). Часто аббревиатуру MPEG используют для ссылки на стандарты, разработанные этой группой.

 

8.2.1 Стандарт MPEG-1

 

Исходно этот стандарт предназначался для записи синхронизированных между собой видеоизображения и звукового сопровождения на существовавших в то время цифровых носителях, таких как CD-ROM диски, DAT-кассеты и т.д., с максимальной скоростью передачи данных порядка 1,5 Мбит/с. Кроме этого, новый стандарт должен был обеспечивать произвольный доступ к информации и возможность ее просмотра в обоих направлениях. В дальнейшем MPEG-1 получил достаточно широкое распространение во многом благодаря дискам VideoCD.

Первый вариант спецификации MPEG-1 был опубликован в январе 1992 года, а в 1993 году MPEG-1 был принят в качестве стандарта ISO/IEC 11172-2. Несколько позже были разработаны и стандартизированы сопутствующие спецификации для аудиоданных — MPEG-1 Audio Layer I, Layer II и Layer III (ISO/IEC 11172-3). Последним шагом здесь была разработка протокола синхронизации и пакетирования аудио и видеоданных в формате MPEG-1.

В связи с жестким ограничением максимальной скорости цифрового потока, типовым видеоформатом для MPEG-1 явился Common Intermediate Format (CIF), содержащий 240 строк по 352 точки в строке при 30 кадрах в секунду, или 288 строк и 352 точки в строке — при 25 кадрах. Подобное изображение приблизительно соответствует качеству картинки бытовой видеозаписи формата VHS и имеет разрешение в четыре раза ниже стандартного изображения вещательного телевидения. Для согласования размеров изображения со стандартным, алгоритм сжатия MPEG-1 предусматривает процедуру «прореживания» исходного телевизионного сигнала по вертикали и горизонтали, при которой исключается каждая вторая строка и каждый второй отсчет в оставшихся строках. При декомпрессии отброшенные значения восстанавливаются путем интерполяции.

Алгоритм сжатия изображений в MPEG-1 разрабатывался ориентированным на обработку последовательностей кадров и использование высокой избыточности информации (до 95 % и более), содержащейся в реальных изображениях, разделенных малыми временными интервалами. Действительно, фон между смежными кадрами обычно меняется мало, а все действие связано со смещениями относительно небольших фрагментов изображения. По этой причине необходимость передачи полной информации о кадре изображения возникает только при смене сюжета, а в остальное время можно ограничиваться выделением и передачей разностной информации, характеризующей направления и величины смещения элементов изображения, появление новых объектов или исчезновение старых. Причем такие различия могут выделяться как относительно предыдущих, так и относительно последующих кадров.

Несмотря на свою эффективность, стандарт MPEG-1 не лишен недостатков. Например, также как и в JPEG, на однотонном фоне фактически всегда заметна блочная структура. Аналогичная структура проявляется и на быстро меняющихся сценах.

Алгоритм MPEG-1 допускает использование кадров не только формата CIF, но и с другими разрешениями, вплоть до 4095x4095 пикселей. Однако субъективная оценка качества получаемого изображения показывает, что стандарт MPEG-1 можно эффективно использовать только приблизительно на интервале удвоения разрешения и формирования потока видеоданных со скоростями до 3,5 Мбит/с. Дальнейшее повышение качества изображения достигается уже только при кодировании по стандарту MPEG-2.

Для сжатия звука в стандарте MPEG-1 также была выбрана технология с потерей данных и, соответственно, некоторым ухудшением качества по сравнению с исходным.

Основу созданного алгоритма составила так называемая «психоакустическая модель», представляющая собой изученные свойства восприятия звуковых сигналов слуховым аппаратом человека. При этом для сжатия используется методика «кодирования воспринимаемого» (perceptual coding), при которой из исходного звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества.

Основные приемы удаления части информации базируются на особенностях человеческого слуха, называемой «маскированием»: при наличии в спектре звука ярко выраженных пиков (преобладающих гармоник) более слабые частотные составляющие, лежащие в непосредственной близости от них, слухом практически не воспринимаются. Также ослабляется чувствительность человеческого уха и на периоды в 100 мс после и 5 мс до возникновения сильных (особенно шумовых) звуков. Кроме этого, ухо не способно различать и сигналы, по мощности лежащие ниже определенного уровня, (разного для разных частотных диапазонов). Учет этих особенностей при кодировании позволяет существенно экономить на наименее значимых, с точки зрения восприятия человеком, деталях звучания.

Технически процесс сжатия включает несколько этапов. Первоначально входной цифровой поток звукового сигнала очищается от заведомо неслышных составляющих (слабые звуки, низкочастотные шумы, наивысшие гармоники) и разбивается на мелкие кадры, каждый из которых затем преобразуется в спектральное представление и делится на ряд частотных полос. Внутри каждой из таких полос производится описанное выделение и удаление маскируемых звуков, обеспечивающее общее сокращение объема данных сразу более чем два раза. Далее каждый кадр подвергается адаптивному кодированию прямо в спектральной форме.

При декодировании серия сжатых мгновенных спектров сигнала преобразуется обратно в обычную цифровую волновую форму.

Стандартом MPEG-1 предусматривается три уровня сжатия моно и стерео звуковых сигналов: Layer I, II и III. Эти уровни различаются достигаемой степенью сжатия и качеством звучания получаемых цифровых потоков. Layer I обеспечивает наименьшую степень сжатия (1:4) при потоке данных 192 Кбит/с на канал. Более эффективный Layer II дает сжатие до 6–8 раз и поток — 96–128 Кбит/с на канал. Layer III (более известный как формат MP3) обеспечивает вполне приемлемое звучание уже при скорости 56–64 Кбит/с на канал, что соответствует сжатию в 10–12 раз.

 

8.2.2 MPEG-2

 

Успехи, достигнутые в создании стандарта MPEG-1, стимулировали его разработчиков уже в 1991 году на начало работ над стандартом MPEG-2. Спецификации первых трех подстандартов MPEG-2 (Audio, Video и Systems) были закончены в 1994 году, а в 1996 г. они были стандартизированы как ISO/IEC 13818-1, -2 и -3.

В отличие от своего предшественника, MPEG-2 задумывался как стандарт для передачи цифрового телевизионного изображения вещательного качества, что определило и многочисленные его технические отличия.

Структурно стандарт MPEG-2 состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или несколько потоков, пригодных для хранения или передачи.

Видеочасть стандарта описывает кодированный битовый поток для высококачественного (максимальное разрешение до 16383х16383) цифрового видео. MPEG-2 является совместимым расширением MPEG-1 и предназначен для обработки телевизионных изображений с соотношениями сторон 3:4 и 9:16 и прогрессивным и чересстрочным разложением.

Отличается MPEG-2 и более широкими функциональными возможностями. Так, например, в MPEG-2 имеется возможность разделить результирующий передаваемый видеосигнал на несколько независимых потоков, содержащих сигналы различного качества. Такая функция может быть использована для одновременной трансляции стандартного цифрового телевизионного сигнала и сигнала HDTV. В этом случае разные телевизоры будут принимать одну и ту же программу, но с разным качеством картинки.

Звуковая часть стандарта MPEG-2 использует те же принципы полосного кодирования и психоакустического анализа сигналов, что и MPEG-1 Layer II, базирующийся на технологии MUSICAM, разработанной специалистами Corporate Computer Systems, Inc. (США). Однако MPEG-2 имеет и существенные отличия, и главное из них — поддержка кодирования многоканального звука по алгоритму Advanced Audio Coding (AAC) — прогрессивное кодирование звука. В нем предусмотрено наличие до пяти полных широкополосных каналов звука плюс дополнительный низкочастотный канал или до семи многоязычных комментаторских каналов. Возможны и другие варианты.

Стандарт MPEG-2 AAC был создан совместными усилиями специалистов института Fraunhofer и компаний Sony, NEC, Dolby и по сравнению с MPEG-1 имеет множество дополнений, направленных на улучшение качества выходного звукового сигнала (используется другой тип преобразований, улучшена обработка шумов и др.). Кроме того, AAC позволяет хранить в закодированном аудиосигнале информацию об авторских правах — так называемые «водяные знаки» (watermarks). Эта информация встраивается в формируемый цифровой поток таким образом, что уничтожить ее, не разрушив целостность аудиоданных, просто невозможно.

Несмотря на то, что MPEG-2 AAC представляет собой развитие звуковой части MPEG-1, он не является с ним обратно совместимым (звуковой декодер MPEG-1 не гарантирует обработку MPEG-2 AAC в полном объеме).

MPEG-2 AAC предусматривает три различных профиля (технологии) кодирования: Main, LC (Low Complexity) и SSR (Scaleable Sampling Rate), определяющих разное качество получаемого звука. Наивысшее качество обеспечивает профиль Main, содержащий наиболее развитый алгоритм анализа и обработки входного потока. Профили LC и SSR представляют собой упрощенные варианты технологии Main.

В настоящее время MPEG-2 применяется в компакт-дисках формата DVD (Digital Versatile Disk), спутниковом и наземном цифровом телевещании. Вообще надо отметить, что широкое распространение стандарта MPEG-2 приведет просто к цифровой революции в области видео. Так, например, применение стандарта MPEG-2, значительно снижающего скорость передачи видео- и звуковых данных, в вещательном телевидении позволяет осуществлять передачу сразу до пяти (и даже 10!) цифровых программ в стандартной полосе частот одного радиоканала эфирного, кабельного или спутникового телевидения.

 

8.2.3 MPEG-4

 

Работы над стандартом MPEG-4 были начаты еще в первой половине 90-х годов. Отправной точкой для его создания стала задача кодирования минимально необходимых объемов аудио- и видеоданных (картинка с разрешением в четверть формата CIF при 15 кадрах в секунду) для их передачи по каналам с очень низкой пропускной способностью — 4,8–64 Кбит/с. Однако новый стандарт очень быстро вышел за эти рамки.

В октябре 1998 года была выпущена первая версия MPEG-4, а декабре 1999 г. — вторая, получившая официальный статус международного стандарта ISO/IEC 14496.

В отличие от своих предшественников, MPEG-4 не является просто технологией сжатия, хранения и передачи видео- или аудиоинформации. MPEG-4 — это, по сути, принципиально новый способ представления информации: объектно-ориентированное отображение цифровых медиаданных для трех областей: интерактивного мультимедиа, графических приложений и цифрового телевидения. Если стандарты MPEG-1 и MPEG-2 описывают работу с уже готовыми видеокадрами, то MPEG-4 фактически задает правила организации объектно-ориентированной среды. Он имеет дело не просто с цифровыми потоками и массивами данных, а с медиа-объектами, и его основой является формирование на приемном конце и в реальном масштабе времени итогового изображения и звука из имеющихся в наличии отдельных объектов, основываясь на так называемом «схематическом описании события» (scene description information). Основными шагами при этом являются:

- разделение исходной картинки на различные элементы — «медиа объекты» (media objects);

- описание структуры и взаимосвязей этих объектов, позволяющее затем собрать их в единую видеозвуковую сцену;

- возможность для конечного пользователя внесения интерактивных изменений в сцену.

Для достижения такого уровня гибкости представления все медиа объекты организуются в единую иерархическую структуру, включающую:

- неподвижные изображения (например, фон);

- натуральные видеообъекты (например, человек);

- аудиообъекты (голос, связанный с этим человеком);

- текст, связанный с данной сценой;

- синтетические объекты, которых изначально в записываемой сцене не было, но они добавляются при демонстрации пользователю (например, синтезированная средствами компьютерной графики «говорящая голова»);

- текст, связанный с синтетическим объектом, и преобразуемый в голос.

Такой метод представления данных позволяет помещать и перемещать медиа объекты в любое место сцены, трансформировать объекты и изменять их геометрические размеры, собирать из отдельных объектов составные объекты и проводить с ними различные операции, изменять вид объектов (например, их цвет, текстуру) и манипулировать объектами (перемещать, разворачивать и т.д.), изменять композицию сцены и отображать ее под разными ракурсами.

Для характеристики MPEG-4 с технических позиций, следует отметить, что стандарт содержит весь арсенал методов кодирования и компрессии пикселей изображения, используемых в MPEG-1 и MPEG-2. Кардинальным нововведением при компрессии видео в MPEG-4 является переход от деления изображения на квадратные блоки к операциям с объектами произвольной формы. К примеру, человек, двигающийся в кадре, будет восприниматься и обрабатываться как единый отдельный объект, перемещающийся относительно неподвижного объекта — заднего плана.

При кодировании неподвижных изображений и текстур в MPEG-4 применяется очень эффективный алгоритм на основе вейвлет-преобразований, обеспечивающий кодирование объектов произвольной формы, ряд уровней масштабируемости по разрешению и плавную масштабируемость по качеству картинки. Результирующий закодированный поток представляет собой «пирамиду» различных разрешений, и в приемнике картинка со временем «проявляется», улучшаясь настолько, насколько позволяет используемый канал передачи.

Кроме того, как уже было отмечено, MPEG-4 позволяет работать с 2D или 3D синтетическими объектами произвольной формы. Для этого используется их представление в виде сетки с треугольными сегментами. Отдельно передается информация о текстуре объекта.

Новые способы сжатия видео, в сочетании с масштабируемостью, позволяют передавать его со скоростями от 10 кбит/с, и на сегодня алгоритмы кодирования MPEG-4 оптимизированы для трех диапазонов скоростей цифровых потоков: до 64 Кбит/с, 64–384 Кбит/с и 384–4096 Кбит/с. Однако в MPEG-4 предусмотрена возможность создания и высокоскоростных видеопотоков — до 38,4 Мбит/с, а в студийных условиях — до 1,2 Гбит/с.

В качестве средств сжатия аудио в MPEG-4 используется комплекс из нескольких стандартов аудиокодирования. Общие аудиокодеры формируют потоки от 6 Кбит/с до 64 Кбит/с для монозвука и до 128 Кбит/с и выше для стерео и многоканальной передачи. Для наиболее качественного кодирования аудио в MPEG-4 используется тот же алгоритм AAC, что и в MPEG-2. Другой возможный алгоритм кодирования живого звука — TwinVQ.

Для передачи речи в стандарте использованы технологии голосовых синтезаторов — вокодеров с алгоритмами: HVXC (Harmonic Vector eXcitation Coding) — для скоростей потока 2–4 Кбит/с и CELP (Code Excited Linear Predictive) — для скоростей 4–24 Кбит/с.

Синтезированная речь передается текстом, дополняемым характеристиками голоса — тембром, ударениями, изменениями высоты тона, скорости произнесения фонем, полом и возрастом говорящего, акцентом и т.д. Параллельно с голосом может генерироваться и поток параметров для анимации лица, определяющий его выражение, движения губ и др.

Синтез произвольных звуков и музыки в MPEG-4 осуществляется с помощью технологии «Структурированного звука» (Structured Audio — SA), разработанной в MIT Media Lab. Для этого используются два языка: SAOL (Structured Audio Orchestra Language) и SASL (Structured Audio Score Language). Первый характеризует «оркестр» и используется для описания способов синтеза сигналов различных «инструментов», которыми могут быть: скрипка, рояль, пожарная сирена, звук падающей воды и т.п. Второй язык — «структурированный партитурный» — предназначен для составления партитуры всех инструментов, формирующих аудиообъекты. Для декодирования аудиосоставляющих сцены в приемное оборудование сначала загружаются параметры инструментов, а затем цифровым потоком передается партитура. Таким способом обеспечивается идентичность звучания во всех декодерах при очень низком входном потоке и высокой точности воспроизведения. Стандартом также поддерживается механизм привязки звука к расположению объекта в виртуальном пространстве и его изменения при перемещении объекта. Кроме того, имеются механизмы изменения звука и в зависимости от акустических свойств изображаемой среды.

Важность появления стандарта MPEG-4 трудно переоценить, он гораздо больше, чем просто описание определенных правил кодирования. По существу он претендует стать единым концептуальным способом описания, представления и обработки мультимедиа-данных на ближайшее десятилетие. В нем разработчики собрали и обобщили очень многое из того, что было наработано за последние десять лет в ранее мало пересекавшихся областях и технологиях компьютерной графики и телевидения, и сумели объединить все это в новое качество.

 

MPEG-7

 

Работы над MPEG-7 начались в октябре 1996 года, а форму стандарта он обрел в сентябре 2001 года. Его официальное название: Multimedia Content Description Interface — Интерфейс описания мультимедиа данных.

Принципиальным отличием MPEG-7 является то, что он разрабатывался совсем не для установления каких-либо правил на передачу аудио- и видеоданных или типизацию и характеристику данных какого-то конкретно рода. Стандарт предусмотрен как описательный, предназначенный для регламентации характеристик мультимедиа данных любого типа, вплоть до аналоговых, и записанных в разных форматах (например, с разным пространственным и временным разрешением кадра). Среда хранения и передачи описания тоже может быть произвольной, и оно может храниться и передаваться отдельно от самого материала. Стандарт также включает механизмы преобразования описаний из одной формы представления в другую. Например, речь может преобразовываться в текст, изображение в речь, живое видео в анимацию и т.д. Это обеспечит универсальность создаваемых описаний, то есть позволит разным базам описаний взаимодействовать с разными поисковыми машинами, а также передавать описательную информацию по любым каналам связи. Другими словами MPEG-7 можно охарактеризовать как стандарт работы с мультимедиа информацией, предназначенный для обработки, фильтрации и управления мультимедиа информацией.

В качестве одной из основных целей применения MPEG-7 планируется обеспечение быстрого поиска необходимой мультимедиа информации в наиболее естественной форме — по мультимедийным ключам: фрагментам мелодий, фотографиям и т.д. Вариантами здесь могут быть:

- музыка: набрав на клавиатуре несколько нот — получим список музыкальных произведений, содержащих такую последовательность;

- графика: в ответ на изображение на экране нескольких линий будет выдан набор рисунков, содержащих подобный фрагмент;

- картины: определение объекта (его формой, цветом, текстурой) даст список картин, где он содержится;

- видео: на задание объекта и его движения будет выдан соответствующий набор видео или анимации;

- голос: предъявив фрагмент записи певца, получим набор песен и видеороликов с его участием и т.п.

Для реализации указанных свойств MPEG-7 содержит наборы дискриптеров (описателей) для различных типов мультимедиа информации, способы их определения и взаимосвязи между ними. Описание содержимого осуществляется с использованием нескольких уровней. Так, высший уровень используется для описания файла, в нем указывается название, автор, дата создания и т.п. Уровнем ниже — описываются структурные особенности аудиовизуального содержания, такие как цвет, текстура, тон, темп и т.п.

Актуальность создания подобных поисковых систем, например для сети Интернет или интерактивных систем телевизионного вещания не вызывает сомнений. А в качестве возможных областей их применения можно указать медицину и дистанционные исследования окружающей среды, архивирование и редактирование аудио- видеоматериалов, обучение, видеонаблюдение и многое другое.

 

 


Список литературы

 

1. Microsoft Corporation Компьютерные сети. Учебный курс: Пер. с англ. — М.: Издательский отдел «Русская редакция» ТОО «Channel Trading Ltd.», 1997. — 696 c.

2. Рудометов Е., Рудометов В. Аппаратные средства и мультимедиа. — СПб.: Питер, 1999. — 352 с.: ил.

3. Семенов Ю.А. Протоколы и ресурсы Internet. — М.: Радио и связь, 1996. — 320 с.: ил.

4. Семенов Ю.А. Сети Интернет: Архитектура и протоколы. — М.: Блик плюс, 1998. — 424 с.

5. Бэрри Н. Компьютерные сети: Пер. с англ. — М.: БИНОМ, 1996. — 400 с.: ил.

6. Олифер В.Г., Олифер Н.А. Компьютерные сети. — СПб.: Изд-во «Питер», 1999. — 672 с.: ил.

7. Шатт С. Мир компьютерных сетей: Пер. с англ. — Киев: BHV, 1996. — 288 с.

8. Лоу Д. Компьютерные сети для «чайников» / Предисл. П. Меренблума: Пер. с англ. — Киев: Диалектика, 1997. — 288 с.: ил.

9. Якубайтис Э.А. Информационные сети и системы. — М. Финансы и статистика, 1996. — 368 с.: ил.

10. Гук М. Локальные сети Novell. — СПб.: Питер, 1996. — 288 с.: ил.

11. Дунаев С.Б. INTRANETтехнологии. — М.: Диалог-МИФИ, 1997. — 288 с.

12. Слепов Н.И. Синхронные цифровые сети SDN. — М.: Экспо-трендз,1998.

13. Назаров А.Н. Симонов М.В. АТМ: технология высокоскоростных сетей. — М.: Экспо-трендз, 1998.

14. Перкинс Ч., Стриб М. NT Workstation. Учебное руководство для специалистов MCSE: Пер. с англ. — М.: Лори, 1998.—436 с.: ил.

15. Дайсон П. UNIX настольный справочник: Пер. с англ. — М.: Лори, 1997. — 400 с.

16. Робачевский А.М. Операционная система UNIX. — СПб.: BHV-Санкт-Петербург, 1997. — 528 с.: ил.

17. Веттинг Д. Novell NetWare. — Киев-М.: BHV; Бином, 1994. — 480 с.: ил.

18. Линдберг Дж.П. Руководство Novell: Настольная книга администратора Netware 4.1: Пер. с англ. — М.: Лори, 1997. — 582 с.; ил.

19. Фролов А.В. Фролов Г.В. Библиотека системного программиста. Е.9: Локальные сети персональных компьютеров. — М.: Диалог-МИФИ, 1993. — 314 с.

20. Кульгин М. Технология корпоративных сетей. Энциклопедия. — СПб.: «Питер» 1999. — 703 с.

 

 

Список терминов

Термин Расшифровка
Any LAN Любые сети
ARPANET Advanced research projects agency network
CatnIP Common Architecture for the Internet
CIDR Class-less InterDomain Routing, бесклассовая междоменная маршрутизация
DIB Directory information base
DIT Directory Information Tree, информационное дерево каталога
Ethernet Сеть с множественным доступом, контролем несущей и обнаружением коллизий
FAT File allocation table
FTAM File Transfer Access and Management
Host Главные системы
IAB Internet Activities Board, орган по управлению сетью INTERNET
IANA Internet Assigned Numbers Authority, комиссия по стандартным числам в Интернет
IEEE Институт инженеров по электротехнике и радиоэлектронике
IETF Internet Engineering Task Force, подкомитет законодательный
IRTF Internet Research Task Force, подкомитет исследовательский
LLC Logical link control
MAC Media access control
MII Media Independent Interface, независимый от среды интерфейс
MTU Maximum transfer unit,
NETBIOS Network Basic Input/Output System
NIC, ЦСИ Network Information Center, центр сетевой информации
NVT Network virtual terminal, сетевой виртуальный терминал
Optical bypass switches Оптический обходной переключатель
OSI Семиуровневая модель
Reconciliation sublayer Уровень согласования
RTT Round Trip Time, время двойного прохода
RUIP Remote User Information Program, удаленная информационная программа пользователя
SAP Service-access points
SPX Sequenced Packet Exchange, последовательный обмен пакетами
TUBA TCP and UDP with Bigger Addresses
XNS Xerox network system
XNS Xerox network system
Алгоритм AAC Advanced audio coding
Алгоритм CELP Code excited linear predictive
Алгоритм HVXC Harmonic Vector excitation Coding
Алгоритм NLSP Netware Link Services Protocol
Алгоритм OSPF Open shortest path first
Алгоритм RIP Routing Information Protocol, дистанционно-векторные алгоритмы маршрутизации
Алгоритм STA Spanning tree algorithm
АО Адрес отправителя
АП Адрес получателя
База данных RIB Routing information base
ГВМ Главная вычислительная машина
ГВС Глобальные вычислительные сети
Документ DTD Document type definition
Драйвер MLID Multiple link interface driver
ИВС Информационно-вычислительные сети
Интерфейс IPX Internet Packet Exchange, интерфейс, соответствующий сетевому уровню, но включающий ряд функций канального протокола
Интерфейс ODI Open Data-Link Interface, интерфейс, включающий аппаратно-программные драйверы для различных сетей
Интерфейс SPX Sequenced Packet Exchange, интерфейс по своим функциям и интерфейсам соответствующий транспортному уровню
Интерфейс TLI Transport Layer Interface, унифицированный транспортный интерфейс API
Интерфейс NDIS Network Driver Interface Specification, интерфейс для сетевых плат Microsoft
КВМ Коммутационная вычислительная машина
КО Конечный ограничитель
КПК Контрольная последовательность кадра
ЛВС Локальные вычислительные сети
Метод ARQ Automatic ReQuest, метод автоматического запроса при ошибке
Метод CSMA/CA Carrier Sence MultipleAccess/Collision Avoidence, метод с обнаружением несущей и избежанием конфликтов
Метод МДКН/ОС Метод множественного доступа с контролем несущей частоты и обнаружением столкновений
Протокол ADSP AppleTalk Data Stream Protocol, протокол транспортного уровня
Протокол AFP AppleTalk Filling Protocol, протокол удаленного доступа к файлам фирмы Apple
Протокол Apple Talk и Apple Share Набор сетевых протоколов фирмы Apple
Протокол ARP Address resolution protocol
Протокол ASP AppleTalk Session Protocol, протокол транспортного уровня
Протокол ATP AppleTalk Transaction Protocol, протокол транспортного уровня
Протокол DDP Datagram Delivery Protocol, протокол транспортного уровня
Протокол FTP File Transfer Protocol, обмен файлами между компьютерами
Протокол IGMP Internet group management protocol
Протокол IP Internet protocol
Протокол IPX/SPX Internetwork packet exchange/sequenced packet exchange
Протокол LAT Local area transport
Протокол LCP Link control protocol
Протокол LLC Протокол Logical Link Control
Протокол NBP Name Binding Protocol, протокол транспортного уровня
Протокол NCP NetWare Core Protocol, протокол, охватывающий функции сеансового и представительского уровня от фирмы Novell
Протокол NNTP Network News Transfer Protocol, сетевой протокол передачи новостей
Протокол OSPF Open shortest pass first
Протокол PAP Printer Access Protocol, протокол транспортного уровня
Протокол RARP Reverse address resolution protocol
Протокол RIP Routing Information Protocol, протокол маршрутизации информации
Протокол RTMP Routing Table Maintenence Protocol, протокол транспортного уровня
Протокол SAP Service Advertisement Protocol, протокол объявления об услугах
Протокол SIPP Simple internet protocol plus
Протокол SLIP Serial line ip
Протокол SMT Station Management, протокол управления станцией
Протокол SMTP Simple Mail Transfer Protocol, протокол Интернета для обмена электронной почтой
Протокол SNMP Simple Network Management Protocol, протокол Интернета для мониторинга сети и сетевых компонентов
Протокол SPX Sequenced Packet Exchange, протокол последовательного обмена пакетами
Протокол TCP/IP Transmission control protocol/internet protocol
Протокол Telnet Протокол Интернета для регистрации на удаленных хостах и обработки данных на них
Протокол UDP User datagram protocol
Протокол ZIP Zone Information Protocol, протокол транспортного уровня
Протокол АЕР AppleTalk Echo Protocol, протокол транспортного уровня
Протокол РРР Point to Point Protocol
Разъем MIC Media interface connector
РВС Региональные вычислительные сети
РЦОИ Региональные центры обработки информации
сеть MAN Metropolitan area network
Сеть SNA Systems Network Architecture фирмы IBM
Система NetBIOS Network Basic Input/Output System, сетевая базовая система ввода/вывода
Система RDF Resource Description Framework, модель описания метаданных
СК Состояние кадра
СПД Сеть передачи данных
Спецификация NDIS Microsoft network device interface specification
Станция DAC Dual Attachment Concentrator, концентратор с двойным подключением
Станция DAS Dual Attachment Station, конечная станция с двойным подключением
Станция SAC Single Attachment Concentrator, концентратор с одиночным подключением
Станция SAS Single Attachment Station, конечная станция с одиночным подключением
ТВМ Терминальная вычислительная машина
Технология LC Low Complexity, технология кодирования
Технология SSR Scaleable Sampling Rate, технология кодирования
УД Управление доступом к передающей среде
УМПД Удаленный мультиплексор передачи данных
Уровень LSL Link Suppirt Layer, уровень стека протоколов
Уровень MLI Multiple Link Interface, уровень стека протоколов
Уровень MPI Multiple Protocol Interface, уровень стека протоколов
Уровень PHY Physical layer device, независимый от среды физический уровень
Уровень PMD Physical Media Dependent, зависимый от среды физический уровень
Уровень PMD Physical Medium Dependent, независимый от среды уровень
Уровень PMI Physical Medium Independent, независимый от среды уровень
УС Узел связи
Формат CIF Видеоформат Common Intermediate Format
Формат GIF Формат Graphics Interchange Format
Формат JPEG Формат joint photographic expert group
Формат PBF Формат Portable Bitmap Format
Формат PNG Формат Portable Network Graphics
Функция TOS Type of service
Язык HTML Hypertext Markup Language
Язык SAOL Structured audio orchestra language
Язык SASL Structured audio score language
Язык SGML Standard generalized markup language
Язык XML Extensible markup language

 

 



Просмотров 823

Эта страница нарушает авторские права




allrefrs.su - 2025 год. Все права принадлежат их авторам!