Все алгоритмы сжатия видео работают с оцифрованным видео, состоящим из последовательности растровых изображений. Существует два подхода к сжатию этой последовательности: по отдельности сжимать каждое неподвижное изображение, используя технологии, и записывать отличие ряда последовательных кадров. Эти два подхода обычно называются соответственно пространственным и временным сжатием, хотя используются и более точные названия − внутрикадровое (intra-frame) и межкадровое (inter-frame) сжатие. Отметим, что вполне естественно использовать оба подхода одновременно.
Поскольку пространственное сжатие в действительности представляет собой всего лишь сжатие изображений, применённое к последовательности картинок, имеет смысл отличать методы сжатия без потерь и методы сжатия с потерями.
Одним из преимуществ цифрового видео является отсутствие потерь при копировании, в отличие от аналогового видео, в котором материал ухудшается при каждом копировании пленки, в том числе при редактировании и подготовке материала для распространения. Цифровые данные можно копировать бесконечно без ухудшения качества, причём получаемые копии являются точными.
Принцип действия алгоритмов временного сжатия
Выделяется несколько кадров последовательности, которые называются ключевыми. Часто ключевые кадры выбираются с постоянным интервалом (например, каждый шестой кадр), причём соответствующее решение принимается при активизации схемы сжатия (компрессора). Данные ключевые кадры либо не сжимаются вообще, либо подвергаются только пространственному сжатию. Все кадры между парой ключевых заменяются разносными кадрами, на которых записывается разница между кадрами (ранее находившимся на этом месте и предыдущим кадром или предыдущим ключевым кадром). Для большинства последовательностей разности будут ненулевыми на маленькой части изображения.
Пример. Изображение диктора выпуска новостей. Большую часть времени двигаться будет только лицо говорящего человека. Фон и, возможно, туловище человека будут статичными, так что пиксели, соответствующие этим элементам, будут иметь одинаковые значения на всех кадрах. Следовательно, все разностные кадры будут содержать намного меньше информации, чем полный кадр. Значит, данную информацию можно представить гораздо компактнее, чем информацию обо всём кадре.