Современные форматы видео

Оборудование цифровых форматов видеозаписи позволяет получать материалы высокого качества и обладает стабильностью функционирования, большой надежностью и эффективностью. Еще одно немаловажное преимущество цифровой видеозаписи - это возможность многократной перезаписи без потери качества изображения.

3.2.1. Video CD

Стандарт записи видео в формате MPEG-1 на обычный Compact Disk (диаметр 120 мм, толщина 1.2 мм, одна информационная сторона).

Один диск обычно позволяет хранить до 74 минут видео, качество соизмеримо с VHS стандартом. Для воспроизведения достаточно односкоростного CD-ROM.

3.2.2. DVD

Формат DVD-диска принят 8 декабря 1995 года. Первоначально аббревиатура DVD расшифровывалась, как Digital Video Disc (цифровой видеодиск), несколько позже появилась расшифровка аббревиатуры DVD, как Digital Versatile Disc (универсальный цифровой диск).

Особенности dvd-видео

- Около 2 часов высококачественного цифрового видео (более 8 на двухстороннем, двухслойном диске).

- Поддержка для широкоэкранных фильмов и телефильмов на стандартных или широкоэкранных телевизорах (4:3 и 16:9 коэффициенты сжатия).

- До 8 звуковых дорожек на разных языках, до 8 каналов каждая.

- До 32 дорожек субтитров/караоке.

- "Бесшовное видео"

- До 9 углов камеры (различные точки зрения могут быть выбраны в течение воспроизведения).

- Меню и простые интерактивные возможности (для игр, quizzes, и т.д.).

- Многоязычный текст идентификации для имени заголовка, имени альбома, имени песни, и т.д.

- "Мгновенная" перемотка и быстрая перемотка вперед, включая поиск по заголовку, главе, дорожке, и коду времени.

- Долговечность (никакого износа от использования, только от физического повреждения).

- Не восприимчив к магнитным полям. Устойчив к нагреву.

- Небольшой размер.

- Noncomedogenic.

Качество dvd-видео

Качество DVD значительно лучше видеозаписи и даже лучше, чем laserdisc. Однако качество зависит от многих промышленных факторов. Так как большие количества видео уже были закодированы для Видео CD, с использованием MPEG-1, некоторые низкобюджетные DVD использует этот формат (который - не лучше, чем VHS), вместо более высококачественного MPEG-2.

DVD-Video упаковывается с цифровой мастер-ленты на студии в формат MPEG-2. Это сжатие с потерями удаляет избыточную информацию (например, области изображения, которые не изменяются) так, что это трудно заметно для человеческого глаза. Возникающее в результате видео, особенно, когда оно сложно или быстро изменяется, может содержать "артефакты" (местные искажения) типа blockiness, fuzziness, и видеошума, в зависимости от качества обработки и степени сжатия. При средней пропускной способности 3.5 Mbps, искажения сжатия могут быть иногда заметны. Более высокие пропускные способности данных могут почти исключить появление искажений, при первоначальной пропускной способности мастер-ленты в 6 Mbps. Так как MPEG технология сжатия улучшается, более высокое качество достигается при более низких пропускных способностях.

Термин "артефакт" относится к тому, что первоначально не было представлено в изображении. Артефакты иногда вызываются недостаточным кодированием MPEG, но чаще артефакты вызываются плохо настроенными телеприемниками, плохими кабелями, электрическими помехами, недостаточной передачей film-to-video, зерном пленки, неисправностью воспроизводящего устройства, ошибками чтения диска, и т.д.

3.2.3. DivX

Формат Divx (Digital video express) был разработан компанией Circuit City как альтернатива DVD. В результате получилась своеобразная система, в чем-то напоминающая прокат. В основе концепции лежала идея о том, что кодированный видеоформат может предотвратить нелегальное копирование оригинала. Покупая фильм в формате DivX за 4,5 долл., можно было смотреть его в течение двух суток, продлить лицензию для повторного просмотра за 2,5 долл. или приобрести годичную лицензию дополнительно за 15-25 долл.

Идея проката фильмов на дисках в формате DivX была поддержана некоторыми большими голливудскими компаниями. В список компаний, входят такие, как Disney, Dreamworks SKG, Paramount и Universal. Для просмотра фильмов в формате DivX был нужен специальный проигрыватель, который также может воспроизводить и обычные DVD-диски. В проигрывателе DivX также присутствовал модем, играющий важную роль во всей этой системе. С его помощью происходило соединение со специальной системой для составления счетов, а также обновления информации в модуле памяти проигрывателя. После оплаты дальнейшего использования диска, сигнал об этом поступал с сервера на проигрыватель и диск можно было просматривать после двухдневного срока. Необходимо было хотя бы раз в месяц делать запрос на сервер, в противном случае система блокировалась.

Система не прижилась, фирма-разработчик понесла убытки, а название перекочевало в новую технологию. Позднее форматом DivX стали называть несколько усовершенствованный формат MPEG4 (которым он по существу и является).

3.2.4. DV (miniDV)

DV - это бытовой формат цифровой компонентной видеозаписи с обработкой по стандарту 4:2:0 (PAL) и 4:1:1 (NTSC) на 1/4-дюймовую (6.35 мм) ленту с напылением металла. Этот формат разработан консорциумом DV, объединившим основных производителей бытовой аппаратуры. Каждый кадр располагается на 12-ти наклонных дорожках шириной 10 мкм. На наклонные дорожки записывается видео / аудиоданные, субкод, служебные данные (ITI - Insert and Track Information). Продольных дорожек нет. Применяется алгоритм внутрикадрового сжатия, использующий метод DCT. Коэффициент компрессии - 5:1. Обеспечивается разрешение по горизонтали - 500 твл. В DV предусмотрена специальная схема исправления и маскирования ошибок. Кассеты, записанные в формате DV, могут воспроизводиться на некоторых моделях аппаратов форматов DVCPRO и DVCAM. Для передачи данных в оборудовании этого формата предусмотрен универсальный последовательный интерфейс IEEE-1394, позволяющий переносить цифровые файлы напрямую на жесткий диск компьютера.

3.2.5. SVCD, ASF, RM

Стандарт Super VideoCD (SVCD) установлен Китайским Национальным Комитетом Стандартизации совместно с Philis, Sony, Matsushita и JVC. Он базирован на технологии сжатия MPEG-2 с переменным потоком (VBR). SVCD может обеспечить в два раза более четкое видео, чем предыдущий формат VideoCD, разрешение 480x576 более чем в четыре раза превышает ограничения MPEG-1.

SVCD обратно совместим с VCD 1.1, 2.0 и Interactive VCD 3.0. Более того, тогда как VCD требует встраивания текста в видео, SVCD использует отдельный поток данных для интеграции субтитров (вернее до 4-х таких потоков). Так как это не текст, а графические изображения, в субтитрах могут использоваться символы любых языков и шрифтов, а также графические изображения. При этом субтитры не имеют артефактов сжатия алгоритмом MPEG.

ASF - формат Windows Media. Основан на MPEG-4, оптимизирован для передачи видео с низким и средним битрейтом в интернет. Воспроизводится только на компьютере с Windows Media Player.

RM - RealVideo. Предназначен для низкоскоростной передачи видео в интернет в реальном времени. Небольшое разрешение, низкое качество. Воспроизводится только на компьютере. Требует специального программного декодера.

3.2.6. Digital Betacam

Digital Betacam - этот цифровой формат видеозаписи был разработан фирмой Sony. Для записи используется та же полудюймовая лента, что и в аппаратах Betacam SP. Имеются продольные дорожки управления, режиссерская и временного кода. Все видео- и аудиосигналы записываются сегментным наклонно-строчным способом. Каждое телевизионное поле записывается на 6-ти наклонных дорожках. Соседние дорожки записываются с азимутальным разворотом рабочих зазоров видеоголовок на +/- 15 градусов. Записываемый цифровой поток составляет 125.58 Мбит/с. Digital Betacam обеспечивает запись 10-битного компонентного цифрового сигнала с соотношением частот дискретизации 4:2:2 для сигналов яркости и цветности. Поддерживаются 4 канала звукового сопровождения, частота дискретизации аудиосигнала 48 кГц при 20-битном квантовании. Миникассеты Digital Betacam обеспечивают 40 минут цифровой записи, а большие - более 2-х часов.

В системе Digital Betacam используется очень эффективный способ обработки информации - BRR (уменьшение скорости потока данных). Благодаря этому одно и тоже количество видеоинформации может быть представлено меньшим объемом данных, чем раньше. Способ компрессии сигнала внутриполевой (intraframe) с использованием дискретного косинусного преобразования (DCT), коэффициент компрессии сигнала - 2:1. Имеется мощная система коррекции и маскирования ошибок.

3.2.7. Betacam SX

Betacam SX - видеоформат фирмы Sony, который обеспечивает запись 8-битных компонентных цифровых видеосигналов с соотношением частот дискретизации 4:2:2 для сигналов яркости и цветности. Поддерживает 4 канала цифрового звука (16 бит/48 кГц). Схема сжатия, используемая в Betacam SX, основана на алгоритме 4:2:2 P@ML стандарта MPEG2 с коэффициентом компрессии 10:1. Поток видеоданных составляет 18 Мбит/с. Запись производится на полудюймовую (12.65 мм) металлопорошковую ленту. Максимальное время записи - 184 минуты на кассету типа L и 60 минут на кассету типа S.

Формат Betacam SX обеспечивает вещательное качество изображения от съемки до компоновки программ. Оборудование этого формата позволяет монтировать материал прямо на месте и передавать его с высокой скоростью без потери качества. При переносе видеоматериалов между аппаратами формата Betacam SX используется последовательный цифровой интерфейс SDDI (последовательный цифровой интерфейс передачи данных), обеспечивающий четырехкратную скорость передачи, с аппаратурой цифровых форматов используется интерфейс SDI (последовательный цифровой интерфейс). Оборудование Betacam SX совместимо с аналоговой аппаратурой форматов Betacam, Betacam SP.

3.2.8. HDV

Стандарт HD ( High Definition - Высокое разрешение ) - это новый улучшенный стандарт видео. Существует много форматов, но основных стандартов установлено два: 1080i и 720p . Оба эти стандарта значительно превосходят стандарт SD в цвете и разрешающей способности (резкость изображения и детали). Почти всё HD оборудование изначально рассчитано на 'широкоформатное' изображение 16:9.

Стандарт HD в любом проявлении намного лучше 'традиционных' систем. Появившийся стандарт HDV (High Definition Video - Видео высокого разрешения) - это попытка дать возможность записи видео высокого разрешения, при скорости передачи 25 Мбит/с на существующие устройства MiniDV , используя сжатие MPEG2. Многие производители уже являются приверженцами стандартов HDV . Стоит отметить, что любая домашняя запись, сделанная в HDV, будет превосходить общепринятые на сегодняшний день SD DV записи, обладающие, к сожалению, ограниченными способностями.

3.2.9. ProHD

DVCProHD - формат записи на магнитную ленту фирмы Panasonic, являющийся дальнейшим развитием DVCPro. В связи с необходимостью записи более высокого цифрового потока, скорость ленты увеличена в четыре раза. Как и для всех версий формата DVCpro, компрессия DVCproHD основана на алгоритме DV. Несжатые HD-сигналы распределяются по четырем устройствам сжатия DV, работающим параллельно, которые все вместе сжимают сигнал с коэффициентом 1:6.7. Результирующий поток данных составляет 100 Мбит/с.

3.2.10. D-VHS

Полностью цифровой формат D-VHS (Digital VHS) позволяет вести запись цифрового видео максимально возможного качества (поток видеоданных до 14,1 Мбит/с), длительностью до 8 часов в режиме STD (Standard), или 21 час, на скорости в три раза меньшей (LS3) - с качеством DVD-видео ( 4,7 Мбит/с). Данные записываются в том виде, в котором они поступают на вход видеомагнитофона, без восстановления сжатых данных.

Привлекательность формата заключается в его востребованности, ведь до сих пор не существовало перезаписываемого бытового цифрового видеоносителя достаточной емкости с качеством не только равным, но даже превосходящем DVD.

Для оценки потенциальных возможностей D-VHS достаточно сказать, что если скорость цифрового потока (битрейт) в DVD-формате достигает только 10 мегабит/сек. (обычно она не превышает 4-6 мегабит/сек.), и емкость диска составляет максимум 18 гигабайт (2 стороны/2 слоя), то в D-VHS ее максимальное значение составляет 28,2 мегабит/сек. при емкости кассеты до 44 гигабайт. Формат D-VHS дает возможность записывать даже HDTV-программы (т.е. ТВ повышенной четкости). Понятно, DVD со своим максимально достижимым разрешением в 540 ТВ-линий значительно уступает 1080 линиям в HDTV.

Поэтому если HD-телевидение станет широко распространенным, то запись такой программы на D-VHS-магнитофон обеспечит несравненно лучшее качество, чем DVD-плейер. Более того, такой битрейт и емкость видеокассеты позволяет в LS-режиме хранить до 14 часов видео с качеством, не уступающим обычному DVD, а с качеством, сравнимым с VHS - до 21 часа.

3.2.11. MicroMV

MicroMV - первый, разработанный фирмой Sony, формат записи для любительских видеокамер, использующий стандарт сжатия MPEG2. MPEG является открытым промышленным стандартом видео- и компьютерной индустрии и используется как новый формат, естественный преемник DV, поскольку обеспечивает высокое качество изображения и звука, а также открывает новые возможности дизайна видеокамер, благодаря компактному размеру носителя. Размер новой кассеты составляет 30 процентов от размера кассеты miniDV. Кассета оснащена модулем памяти. Скорость передачи данных нового формата составляет 12 Мбит/с, что в два раза ниже, чем в формате miniDV.

3.2.12. Digital8

С появлением цифровых видеокамер формата miniDV оказалось, что видеолюбители, стремящиеся к повышению качества изображения, должны отказаться от старых, накопленных годами архивов, записанных на кассетах Hi8. Компания Sony пошла навстречу требованиям рынка и выпустила промежуточный вариант цифровой видеозаписи на кассетах формата Hi8 (возможно, хотя и не рекомендуется использовать кассеты Video8). Правда пришлось поступиться временем записи (на кассете Hi8 можно записать видео в стандарте D8 на треть меньше по времени). Оправдывается это значительным улучшением качества изображения (оно приближается к вещательному) и различными преимуществами, такими как цифровые эффекты, цифровой порт по стандарту IEEE 1394 и др. Режим LP в этих камерах не предусмотрен. Естественно, что камера D8 может использоваться для просмотра старых кассет Hi8 и Video8. При этом, стоимость такой камеры несколько дешевле чем камер miniDV.

3.2.13. D1, D2, D3, D5, D6

D1 - цифровой формат, разработанный фирмой Sony. Запись осуществляется на магнитную ленту шириной 19,01 мм в соответствии со стандартом CCIR601 в варианте 4:2:2. Запись видео- и аудиосигналов сегментная, четырехканальная; скорость движения ленты - 286,9 мм/с. Одно телевизионное поле записывается на 12 наклонных дорожках шириной 30 мкм. Кроме наклонных дорожек имеются 3 продольные - монтажная звуковая дорожка, дорожка управления и дорожка временного кода. В центре наклонных дорожек для записи видеоданных размещены 4 сектора с сигналами звука. Запись производится на кассеты трех размеров, которые обеспечивают 11, 34, 76 минут непрерывной записи при толщине ленты 16 мкм. При меньшей толщине ленты длительность записи, соответственно, увеличивается.

Этот формат один из наилучших для студийной работы, так как используется компонентный сигнал, сохраняется полная полоса частот сигналов, которая позволяет делать высококачественные плавные переходы в рир-проекции, обеспечивается высокое качество при копировании и монтаже. Оборудование формата D1 можно подсоединять без дополнительного транскодирования почти ко всем системам цифровых видеоэффектов, кинотелепреобразователям, дисковым запоминающим устройствам и т.п.

Формат D2 был предложен фирмами Ampex и Sony для обработки, записи и воспроизведения композитного сигнала стандартов PAL и NTSC. Запись сигнала производится на 19,01 мм металлопорошковую ленту, упакованную в кассеты трех видов: малые, средние и большие. Способ записи наклонно-строчный сегментированный. Одно телевизионное поле записывается на 8-ми дорожках шириной 35 мкм. Уровневое квантование - 8 бит. Частота дискретизации аудиосигнала - 48 кГц, квантование - 20 бит. Записываемый цифровой поток достигает 154 Мбит/с. Кроме наклонных дорожек имеются 3 продольные - управления, монтажная звуковая, дорожка временного кода. Звуковые сектора располагаются в начале и конце программных строчек. D2 характеризуется более низкой стоимостью оборудования по сравнению с аппаратурой формата D1, способностью воспроизведения изображения в широком интервале скоростей и его просмотре в цвете при 60-кратном превышении номинальной скорости и возможностью многократной перезаписи с минимальными потерями качества.

Формат D3 цифровой видеозаписи на полудюймовую ленту разработан мощной вещательной корпорацией NHK в 1991 году, и его аппаратурная реализация стали значительным достижением фирмы Panasonic. Оборудование D3 работает с композитными 8-битовыми видеосигналами стандартов PAL и NTSC. Видеофонограмма примерно такая же, как и у формата D2, разница только в числовых характеристиках. Так ширина наклонных дорожек составляет 18 мкм, общая длина программной дорожки - 117.71 мм, а видеосектора - 108.9 мм, угол наклона дорожек - 4.9 градуса. Дорожка временного кода примыкает к нижнему краю наклонных дорожек. Длительность записи на одну кассету D3 - от 50 до 245 минут. Характеристики оборудования в целом такие же, как в D2. Благодаря использованию полудюймовой ленты создана полная линейка оборудования формата D3, обеспечивающая студийное и внестудийное производство, репортажные съемки, запись, монтаж и выдачу программ в эфир, все этапы которых выполняются в едином стандарте. При этом расход ленты оказался в два раза меньше, чем у 19 мм композитных форматов. Плотность записи - 13.7 Мбит на квадратный сантиметр. При заметно более низкой стоимости и массе аппаратура формата D3 не уступает по функциональным возможностям, качеству сигнала и защите от ошибок аппаратам форматов D1 и D2. Впервые стал возможен режим предварительного чтения (Pre-read), при котором один и тот же аппарат используется и как источник сигнала, и как мастер, т.е. можно проводить на 2-х аппаратах монтаж, рассчитанный на 3 аппарата.

Оборудование компонентного формата D5 использует те же кассеты, что и D3, но составляющие цветового сигнала снимаются с изображения в соответствии с рекомендациями для 10-битовой записи, изложенными в документе CCIR601, который распространяется на цветоразностные цифровые и RGB-сигналы, определяет уровни и частоты квантования, матрицирование RGB/Y, R-Y, B-Y и характеристики фильтров. Видеофонограмма такая же, как и у D3, только видеодорожки сдвоенные, т.к. сигнал в D5 компонентный. Записываемый цифровой поток составляет 270 Мбит/с. Используется металлопорошковая лента шириной 12.65 мм в такой же кассете, как и у D3. Продолжительность записи в зависимости от величины кассеты составляет - 32, 62, 132 минуты.

Видеомагнитофоны D5 имеют встроенные декодеры и могут воспроизводить запись с ленты формата D3, а также выдавать на линейный выход составляющие цвета. Они обладают возможностью формировать изображение как в формате растра 4:3, так и в широкоэкранном формате 16:9. Поскольку цифровая запись ведется без компрессии сигнала, формат D5 обладает всеми преимуществами D1 и дает абсолютное качество изображения. Такая техника пригодна и для высококачественного компоновочного монтажа, и для более простых операций. В дополнение к требованиям телевизионных систем на 625 и 525 строк данный формат пригоден и для ТВЧ (телевидение высокой четкости) с компрессией сигнала 4:1. Формат D5 обеспечивает "прозрачную запись" (отсутствие искажений от входа до выхода) сигнала в цифровом стандарте 4:2:2 при 8 и 10-битовом квантовании при его многоступенчатой обработке, особенно в отношении активной части изображения, что делает оборудование формата D5 очень привлекательным для потребителя, особенно в профессиональном видеопроизводстве. И не случайно видеомагнитофоны D5 фирмы Panasonic установлены во многих известных телестудиях по всему миру.

Цифровой широкополосный формат D6 разработан фирмами Toshiba и BTS в 1993 году специально для записи цифровых сигналов ТВЧ с соотношением сторон изображения 16:9. Он рассчитан на исключительно высокую пропускную способность до 1,2 Гбит/с. Первый видеомагнитофон формата D6 - DCR 6000 фирма BTS выпустила в 1994 году. Он позволяет записывать цифровые сигналы ТВЧ обоих стандартов 1250/50/2:1 и 1125/60/2:1 на кассету с 19,01мм лентой наклонно-строчным способом в виде блоков цифровых данных. В каждом блоке находятся данные о видеосигнале и звуке, вспомогательной и служебной информации, а также содержится запись параметров и местоположения специальных зазоров, облегчающих монтажные операции. Запись производится на металлопорошковую ленту улучшенного качества толщиной 11мкм. Шаг дорожки записи - 21 мкм, угол наклона дорожек - +/-15 градусов. Продолжительность записи в зависимости от величины кассеты составляет 8, 28, 64 минуты. Отличительной чертой аппаратуры D6 является невероятно эффективная встроенная система коррекции ошибок. При вероятности появления сбоев на ленте (обусловленных системой лента-головка) не более 4х10-4, выходной сигнал с аппаратуры D6 может содержать битовые ошибки, но их вероятность появления не превышает 10-11.

3.2.14. S(X)VCD

Формат SVCD расшифровывается как Super Video CD. На таком компакт-диске можно разместить вдвое больше информации чем на обычном Video CD. До сих пор эти диски наиболее широко распространены в Китае.

Стандарт SVCD был разработан в Китае в конце 1998 года и в настоящее время проходит процедуру регистрации как международный. Проигрыватели и диски SVCD сейчас довольно активно продаются в Китае, Гонк-Конге, Тайване, Малайзии, Сингапуре и Индии. Для воспроизведения таких дисков используются специальные SVCD проигрыватели, поддерживающие также VCD 3.0, VCD 2.0, CD-DA и иногда MP3 форматы. Некоторые проигрыватели DVD также могут воспроизводить SuperVCD, даже если об этом не сказано в инструкции, другие требуют лишь модификации внутренней программы (замены или пере-программирования одной микросхемы - некоторые модели JVC, Philips, Pioneer, Samsung). И конечно такие диски могут воспроизводиться на компьютере с 2х скоростным или более быстрым дисководом CD-ROM и аппаратным или программным (Pentium-II 350 МГц или лучше) декодером MPEG2.

Формат XVCD уступает SVCD по таким показателям, как поток данных и разрешение.

3.3. Сравнение форматов записи

Глава 4. Методы сжатия

Цифровые технологии обеспечивают неоспоримые преимущества по сравнению с аналоговыми. Преобразованный в цифровую форму сигнал может сохранять всю информацию, заложенную в аналоговой форме. Современные технологии передачи, записи и хранения цифровых данных практически не подвергают сигнал искажениям.

Одно из неоспоримых преимуществ цифровых технологий - возможность применения к оцифрованному сигналу мощного математического аппарата сжатия видео и аудио информации. В отличие от "аналога", "цифра" в любой момент может быть воспроизведена со 100%-ной повторяемостью. Соответственно, для оцифрованного сигнала открываются удобные возможности последующей обработки, анализа и моделирования.

Основные методы сжатия видео сводятся к компрессии данных внутри отдельного кадра и оптимизации в передаче изменений между кадрами. Даже при рассмотрении статичного изображения видно, что в нем много однотипной и дублирующейся информации. Например, интенсивность фона чаще всего имеет постоянное значение; многие отдельные участки изображения, занимающие значительные размеры кадра, тоже имеют одинаковый уровень цифрового сигнала. Естественно, передавать всю эту информацию без компрессии не имеет смысла. С применением специализированных методов сжатия видео, плавно меняющегося по кадрам, возможно еще больше снизить результирующую плотность передачи информации по сети.

В отличие от универсальных архиваторов (вроде WinRar или WinZip), сжатие видео может происходить с некоторыми потерями, величина которых зависит от выбранного кодека. Современные алгоритмы сжатия прибегают к всестороннему логическому анализу видеоролика с целью извлечь повторяющиеся куски между кадрами и уменьшить размер конечного файла. При воспроизведении сжатая информация «раскрывается», и уже после этого демонстрируется пользователю. Раскрытие изображений, сжатых некоторыми кодеками, может потребовать большого времени от маломощного компьютера.

4.1. Технологии сжатия цифрового видео

Существует множество технологий сжатия цифрового видео. Некоторые из рассматриваемых компрессоров используют не одну технологию сжатия, а некоторую их совокупность. Например, и Indeo 3.2, и Cinepak используют векторную квантизацию. Международные стандарты MPEG-1, MPEG-2, MPEG-4, H.261 и H.263 используют комбинированную технологию БДКП и компенсацию движения. Некоторые современные алгоритмы используют технологию ДВП (Discrete Wavelet Transform, или DWT). Другие технологии включают Фрактальное сжатие изображений (Fractal Image Compression).

Сжатие без потерь качества

Сжатие изображений может осуществляться без потерь качества лишь в том случае, если в процессе сжатия не было потерь данных. В результате полученное после декомпрессии изображение будет в точности (побитно) совпадать с оригиналом. Примером такого сжатия может служить формат GIF для статической графики и GIF89a для видео.

Сжатие с потерями качества

Сжатие может происходить с потерями качества, если в процессе сжатия информация была потеряна. Однако с точки зрения человеческого восприятия сжатием с потерями следует считать лишь такое сжатие, при котором возможно на глаз отличить результат сжатия от оригинала. Таким образом, несмотря на то что два изображения - оригинал и результат сжатия с использованием того или иного компрессора - побитно могут не совпадать, тем не менее разница между ними может быть совсем незаметной. Примером может служить алгоритм JPEG для сжатия статической графики и алгоритм M-JPEG для сжатия видео.

Сжатие без потерь с точки зрения восприятия

Формально являясь сжатием с потерями качества, схема сжатия может в то же время казаться сжатием без потерь с точки зрения восприятия ее человеком. Большинство технологий сжатия с формальной потерей качества имеют так называемый Фактор Качества Сжатия (ФКС), характеризующий именно воспринимаемую сторону качества и варьирующийся в пределах от 0 до 100. При факторе качества сжатия равном 100 воспринимаемые характеристики качества сжатого видео неотличимы от оригинала.

Сжатие с естественной потерей качества

JPEG и MPEG и другие технологии сжатия с потерей качества иногда сжимают, без потерь переступая за грань сжатия с точки зрения восприятия видеоинформации. Тем не менее сжатые видео и статические изображения вполне приемлемы для адекватного восприятия их человеком. Иными словами, в данном случае наблюдается так называемая естественная деградация изображения, при которой теряются некоторые мелкие детали сцены. Похожее может происходить и в естественных условиях, например при дожде или тумане. Изображение в таких условиях, как правило, различимо, однако детализация его уменьшается.

Сжатие с неестественными потерями качества

Низкое качество сжатия, в значительной степени искажающее изображение и вносящее в него искусственные (не существующие в оригинале) детали сцены, называется неестественным сжатием с потерей качества. Примером тому может служить некоторая «блочность» в сильно сжатом MPEG-е и в других компрессорах, использующих технологию БДКП. Неестественность заключается в первую очередь в нарушении самых важных с точки зрения восприятия человеком характеристик изображения - контуров. Опыт показывает, что именно контуры позволяют воспринимающему аппарату человека правильно идентифицировать тот или иной визуальный объект.

Все широко используемые видеокомпрессоры используют технологии сжатия с потерями качества. При достаточно высоких коэффициентах сжатия все они будут сжимать с неестественной потерей качества.

Таким образом, выбирая тот или иной компрессор для сжатия цифрового видео, необходимо достичь сжатия, по крайней мере с естественными потерями качества.

Для сжатия видео используют различные кодеки

4.2. Технологии и алгоритмы сжатия видео

Run Length Encoding

Компрессорами, использующими технологию RLE, являются:

Microsoft RLE (MRLE) RLE используется также для кодирования коэффициентов в БДКП, применяющемся в MPEG-1234, H.261, H.263 и JPEG.

Достоинства и недостатки

1. Работает исключительно с 8-битовыми изображениями.

2. Не подходит для сжатия полноцветного видео.

Обзор

RLE кодирует последовательность повторяющихся элементов изображения или одноцветных элементов одним кодовым словом. Например, последовательность элементов изображения 77 77 77 77 77 77 77 может быть закодирована как 7 77 (для семи 77-рок). RLE хорошо сжимает изображения, в которых наблюдается повторение контуров или цветов отдельных элементов. В полноцветных изображениях повторений цвета значительно меньше, поэтому сжатие полноцветного видео с использованием технологии RLE лишено всякого смысла.

Векторная квантизация (Vector Quantization,VQ)

Компрессорами, использующими технологию VQ, являются Indeo 3.2 и Cinepak. Оба они применяют цветовую схему YUV (а не RGB).

Достоинства и недостатки

1. Процесс кодирования очень трудоемок и практически неосуществим без специального дополнительного оборудования.

2. Процесс декодирования очень быстр.

3. Блоковые искажения при высоких коэффициентах сжатия.

4. Технологии, использующие алгоритмы БДКП, ДВП могут достигать более высоких уровней сжатия.

Обзор

Основная идея векторной квантизации заключается в разбиении изображения на блоки (размером 4x4 пиксела в цветовой схеме YUV для компрессоров Indeo и Cinepak). Как правило, некоторые блоки оказываются похожими друг на друга. В этом случае компрессор идентифицирует класс похожих блоков и заменяет их одним общим блоком. Кроме того, генерируется двоичная таблица (карта) таких общих блоков из самых коротких кодовых слов. VQ-декодер затем, используя таблицу, собирает изображение поблочно из общих блоков. Ясно, что данный способ кодирования с потерями качества, так как, строго говоря, схожесть блоков весьма относительна. Здесь допускается аппроксимация реальных блоков изображения к общему, их объединяющему. Процесс кодирования длителен и трудоемок, так как кодеру необходимо выявлять принадлежность каждого блока изображения к какому-нибудь общему блоку. Однако задача декодирования в этом случае сводится к задаче построения изображения по заданной карте из общих блоков и не занимает много аппаратных и временных ресурсов. Таблицу или карту также называют еще и кодовой книгой, а двоичные коды, входящие в нее, - кодовыми словами, соответственно. Наибольшее сжатие с использованием алгоритма VQ достигается путем уменьшения числа классов общих блоков, то есть предположением о схожести относительно большего числа блоков изображения, и, как следствие, уменьшением кодовой книги. По мере уменьшения размеров кодовой книги качество воспроизводимого видео ухудшается. В результате на изображении появляется искусственная «блочность».

Простой пример: сравним три следующих блока 4 x 4.

(Блок 1)

128 128 128 128

(Блок 2)

128 127 128 128

128 128 128 128

128 128 127 128

128 128 128 128

(Блок 3)

128 127 126 128

128 128 128 128

127 128 128 128

128 128 128 128

Эти три блока для человеческого глаза неотличимы. Таким образом, 2-ой и 3-ий блоки можно спокойно заменить первым. Тогда кодовая книга будет иметь следующий вид:

Кодовая Книга[1] = 128 128 128 128

128 128 128 128

Важной особенностью технологии VQ является то, что при сжатии видео одна и та же кодовая книга может использоваться для нескольких кадров изображения.

Дискретное Косинусное Преобразование (ДКП)

Компрессоры, использующие ДКП: Motion JPEG; Editable MPEG; MPEG-1; MPEG-2; MPEG-4.

Достоинства и недостатки

1. «Блочность» при высокой компрессии.

2. Закругление острых углов изображения. Случайное «размывание» острых краев изображений.

3. Кодирование очень трудоемко. Только в последнее время удалось осуществить процесс кодирования программно, а не аппаратно.

Обзор

ДКП является широко используемым при сжатии изображений преобразованием. Стандарт сжатия статической графики JPEG, используемый в видеоконференциях стандарт H.263, цифровые видеостандарты MPEG (MPEG-1, MPEG-2 и MPEG-4) -- все они используют ДКП. В этих стандартах используется, в частности, 2-мерное ДКП, применяемое последовательно к блокам изображения размерностью 8 x 8 пикселов. ДКП вычисляет 64 (8x8 = 64) коэффициента, которые затем квантизуются, обеспечивая тем самым реально сжатие. В большинстве изображений большинство ДКП-коэффициентов в силу своей малости после квантизации обнуляется. Это свойство ДКП и лежит в основе множества алгоритмов сжатия, использующих ДКП.

Вдобавок известно, что человеческий глаз гораздо менее чувствителен к высокочастотным компонентам изображения, представляемым большими коэффициентами ДКП. К этим большим значениям коэффициентов может быть применен (и, как правило, применяется) больший фактор квантизации. В частности, матрица 64 факторов квантизации для каждого из 64 коэффициентов ДКП, применяемая в алгоритме JPEG, имеет большие факторы квантизации для коэффициентов ДКП, соответственно, большей частоты. После квантизации коэффициенты подвергаются алгоритму RLE. Далее для частых комбинаций используются короткие кодовые слова, для более редких - относительно длинные. Осуществляется вероятностное кодирование.

ДКП, в свою очередь, лучше всего объяснять на примере одномерного ДКП. Двухмерное ДКП представляет собой одномерное ДКП, применяемое последовательно для каждого ряда (строки) блока пикселов и каждой колонки блока пикселов, полученного от одномерного ДКП строк. Одномерное ДКП, применяемое к N выборкам (пикселам в изображении или выборкам в звуковом файле). ДКП есть матрица размерности NxN, строки которой представляют собой косинусные функции:

ДКП(m,n) = sqrt( (1 - delta(m,1) ) / N ) * cos( (pi/N) * (n - 1/2) * (m-1) )

, где

ДКП (m,n) есть одномерная матрица ДКП

m, n = 1,...,N

pi = 3.14159267...

N = число выборок в блоке

delta(m,1) = 1 если m = 1 и 0 в противном случае

cos(x) = косинус x, измеряемый в радианах.

Естественно, применение ДКП на блоке из N выборок потребует N*N операций умножения и суммирования. Однако благодаря рекурсивной структуре матрицы ДКП реально потребуется гораздо меньшее количество математических операций, а именно N log(N). Это свойство делает ДКП реально применимым на современных математических процессорах персональных ЭВМ.

Дискретное Wavelet-преобразование (DWT)

Компрессоры, использующие DWT (Discrete Wavelet Transform): Intel Indeo 5.x; Intel Indeo 4.x

Достоинства и недостатки

1. Большинство как статических, так и динамических изображений, сжатых при помощи алгоритма DWT, не имеет характерной для алгоритма ДКП блочной структуры.

2. Относительное качество изображений, сжатых с использованием DWT, превосходит качество изображений, сжатых при помощи ДКП, при тех же коэффициентах сжатия.

3. DWT несколько размазывает, закругляет острые контуры изображения. Так называемый контурный шум или эффект Гиббса.

Обзор

DWT-алгоритм основан на передаче сигнала, например изображения, через пару фильтров: низкочастотный и высокочастотный. Низкочастотный фильтр выдает грубую форму исходного сигнала. Высокочастотный фильтр выдает сигнал разности или дополнительной детализации.

В свою очередь, результат на выходе высокочастотного фильтра (добавочный сигнал детализации) может быть подвернут той же процедуре и так далее.

Простым примером DWT является DWT Хара:

Входной сигнал x[n] есть множество выборок с индексом n. Низкочастотный фильтр Хара (Haar Low Pass Filter) есть арифметическое среднее двух удачных выборок:

g[n] = 1/2 * ( x[n] + x[n+1] )

Высокочастотный фильтр Хара (Haar High Pass Filter) есть средняя разность двух удачных выборок:

h[n] = 1/2 * ( x[n+1] - x[n] )

Заметьте, что:

x[n] = g[n] - h[n] x[n+1] = g[n] + h[n]

Выходные последовательности g[n] и h[n] содержат избыточную информацию. Таким образом, ясно, что для воспроизведения исходного сигнала x[n] достаточно взять только четные или только нечетные его выборки. Как правило, берутся четные выборки. Таким образом, исходный сигнал x[n] получается только из: g[0], g[2], g[4], .... h[0], h[2], h[4], .....

x[0] = g[0] - h[0]

x[1] = g[0] + h[0] x[2] = g[2] - h[2] x[3] = g[2] + h[2] и так далее...

Выход низкочастотного фильтра представляет собой грубую аналогию исходного сигнала. Если исходным сигналом является изображение, то на выходе низкочастотного фильтра получится расплывчатое, размытое изображение с низким разрешением. Выход высокочастотного сигнала добавляет детали к изображению. В сочетании с выходом низкочастотного фильтра может быть воспроизведено, таким образом, исходное изображение. Грубая форма исходного сигнала (сигнал на выходе низкочастотного фильтра) иногда называют основным уровнем (base layer), а дополнительный сигнал детализации - уровнем улучшения (enhancement layer). Сигнал на выходе высокочастотного фильтра h[n] может быть пропущен снова через пару фильтров, и процесс, таким образом, может быть повторен, пока не будет достигнута достаточная степень детализации исходного сигнала x[n]. Однако ясно, что никакого сжатия здесь не достигается. Преобразование попросту воспроизводит то же количество битов, которое было в исходном сигнале. Выходные значения называются коэффициентами преобразования, или коэффициентами wavelet-преобразования.

Преобразование Хара используется в основном в области сжатия изображений. Для других целей используются более сложные фильтры преобразований. Сжатие же достигается в основном за счет применения некоторой формы квантизации (скалярной или векторной) к добавочному сигналу детализации. Далее к полученным коэффициентам преобразования применяется техника вероятностного (энтропийного) кодирования.

Допустим, что в приведенном выше примере входной сигнал x[n] представляет собой последовательность 8-битных выборок растра полутонового изображения. Для выхода низкочастотного фильтра g[n] теперь можно использовать те же 8 бит, а для высокочастотного h[n] -- уже меньше, например 4. Это, по сути, скалярная квантизация. Далее выход высокочастотного фильтра будет стремиться к нулю, так как коэффициенты преобразования будут убывать по мере применения алгоритма. Таким образом, возможно применить вероятностное кодирование к сигналу детализации h[n].

На самом деле для большинства реальных изображений сигнал g[n] на выходе низкочастотного фильтра будет похож на предыдущие g[n-1] выборок за исключением граней контуров. g[n] будет стремиться, таким образом, к g[n-1], вследствие того, что реальные объекты имеют относительно постоянный коэффициент отражения поверхностей.

Разница кадров

Компрессорами, использующими технологию разницы кадров, являются: Cinepak

Достоинства и недостатки

1. В целом может обеспечивать сжатие, лучшее, чем независимое сжатие отдельных кадров.

2. Возникающие в ходе кодирования ошибки накапливаясь, требуют наличия дополнительного ключевого кадра.

Обзор

Алгоритм разницы кадров использует то обстоятельство, что во многих видео изображение от кадра к кадру мало чем различается. По мере применения алгоритма векторной квантизации для кодирования каждого следующего кадра и получения при этом малых коэффициентов, которые трудно кодируются, в кадры постепенно вкрадывается ошибка. Это требует включения в видеоряд так называемых ключевых кадров, которые кодируются без учета предыдущих и являются так называемыми «опорными точками» в видео.

Компенсация движения

Компрессорами, использующими технологию компенсации движения, являются: MPEG-1,2 и 4.

Достоинства и недостатки

1. По сравнению с механизмом разницы кадров механизм компенсации движения позволяет достигать большей степени сжатия.

2. Кодирование весьма трудоемко и требует специальной аппаратуры.

3. Технология компенсации движения используется в таких международных стандартах сжатия цифрового видео, как: MPEG, H.261 и H.263.

4. Наибольшее сжатие достигается в сценах с пониженным движением.

Обзор

Компенсация движения основана на использовании ряда сложных алгоритмов. Сфера, где данная технология сжатия эффективна, как правило, сводится к видеоряду, в котором объект изменяет свое местоположение относительно неподвижного фона. Объекты, изменяющиеся по форме, приближающиеся или удаляющиеся (движущаяся камера), не подлежат эффективному сжатию посредством алгоритма компенсации движения. Сжатие возможно заданием вектора смешения элементов изображения вместо хранения больших значений новых координат данных элементов изображения. Основным блоком (относительно которого задается вектор смещения остальных блоков) может являться любой блок изображения размером 16x16 пикселов, максимально похожий на кодируемый (предсказываемый) блок. Ясно, что кадр, на который ссылаются таким образом другие кадры, должен быть декодирован ранее. Однако совсем не обязательно, чтобы опорный кадр предшествовал предсказываемому кадру. MPEG позволяет производить предсказание в обоих направлениях путем введения так называемых B- (bi-directionally predicted) кадров.

4.3. MPEG (MPEG-1, MPEG-2, MPEG-3, MPEG-4)

MPEG - это аббревиатура от Moving Picture Experts Group. Эта экспертная группа работает под совместным руководством двух организаций - ISO (Организация по международным стандартам) и IEC (Международная электротехническая комиссия). Официальное название группы - ISO/IEC JTC1 SC29 WG11. Ее задача - разработка единых норм кодирования аудио- и видеосигналов. Стандарты MPEG используются в технологиях CD-i и CD-Video, являются частью стандарта DVD, активно применяются в цифровом радиовещании, в кабельном и спутниковом ТВ, Интернет-радио, мультимедийных компьютерных продуктах, в коммуникациях по каналам ISDN и многих других электронных информационных системах.

MPEG-1

Очень популярный формат во всём мире, с основой, взятой от кодека JPG. Сжатие в нем производится сериями по три кадра. Это один из самых старых кодеков, так что, практически на любых, даже самых «слабых» машинах можно просмотреть видео со стереозвуком в этом формате. Однако и качество изображения невысокое: оно сравнимо с привычным аналоговым форматом VHS. Картинка имеет разрешение 352х288 точек, да и качество ее оставляет желать лучшего. И хотя MPEG-1 не требователен к ресурсам, его судьба предрешена: с развитием ёмкости и скорости передачи данных в компьютерах и интернете формат будет постепенно забываться.

Как происходит сжатие информации в этом формате? Предположим, что у нас есть следующая сцена: автомобиль движется из пункта "А" в пункт "Б". Перемещение машины можно описать двумя параметрами: вектором перемещения из точки "А" в точку "Б" и углом поворота вокруг своей оси. Задний план при этом остается неизменным или почти неизменным - зритель вряд ли обратит внимание на колебания мелких веток у дальних деревьев. Следовательно, можно разбить кадр на две составные части - задний план, который сохраняется один раз, а затем подставляется при воспроизведении всех кадров, и область, где движется машина, - ее придется записывать отдельно для каждого кадра.

В формате MPEG-1 все кадры видеоролика подразделяются на три типа: I-, P- и B-кадры. К первому типу (I-кадры, Intra Frames) относятся опорные кадры. Их изображения сохраняются в полном объеме в формате JPEG. Для P-кадров (Predicted Frames) записываются только отличия от предыдущего i-кадра, что требует намного меньше дискового пространства. Для B-кадров (Bi-DirectiOnally Interpolated Frames) сохраняются отличия от предыдущего и следующего I- или P-кадра.

В итоге размер сжатого файла составляет примерно 1/35 от исходного. Это значит, что полуторачасовой фильм с качеством, эквивалентным аналоговой записи на кассете VHS, в формате MPEG-1 поместится на два компакт-диска. Для передачи через Internet или в сетях спутникового вещания этот стандарт, конечно же, не подходит.

MPEG-2

MPEG-2 представляет собой дальнейшее расширение MPEG-1. В нем увеличен рекомендуемый размер кадра - теперь он составляет 1920 x 1080 точек, добавлена поддержка шестиканального звука. Однако для воспроизведения видео в этом формате требуется более высокая вычислительная мощность компьютера.

Следует отметить, что велась работа над созданием стандарта MPEG-3 (не нужно путать с популярным форматом сжатия звука - MPEG-1 Audio Layer 3). Он должен был стать базовым для систем цифрового телевидения высокой четкости HDTV. Но работа над ним была прервана, поскольку нужные для HDTV требования удалось реализовать в виде небольших расширений к MPEG-2.

Доминирующий формат на сегодня это MPEG-2 с разрешением 720х576 точек. Все DVD-video диски работают в формате MPEG-2. Трансляции со спутников в несколько каналов на одной частоте, эфирная трансляция, в том числе ТВ высокой четкости, разнообразные плееры DVD, microMV-видеокамеры используют этот формат сжатия. И это не удивительно. После триумфального успеха MPEG-1, новый формат, обеспечивающий практически профессиональное качество картинки, утверждался довольно долго, и получился очень удачным. MPEG-2 подходит для записи полуторачасового фильма отличного качества на стандартный диск DVD (4,7 Гб). Кроме того, в этом формате можно записывать на двойные DVD (9 Гб) фильмы повышенного качества с использованием нескольких разных дорожек звука (дубляж), разных форматов многоканального звучания, субтитров, разных углов обзора видеоматериала (несколько синхронных дорожек видео) и других цифровых новшеств. Среди них, например, присутствует произвольный мгновенный доступ к любой части видеоматериала на диске и отсутствие перемотки при достижении конца видеоматериала, что раньше являлось довольно большой проблемой.

Страницы: 1, 2, 3