НОУ ИНТУИТ | Методы сжатия изображений. Лекция 1: Методы сжатия без потерь

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Московский государственный университет имени М.В.Ломоносова

Опубликован: 10.10.2007 | Доступ: свободный | Студентов: 1478 / 158 | Оценка: 4.36 / 4.18 | Длительность: 14:22:00

Темы: Компьютерная графика, Алгоритмы и дискретные структуры

Специальности: Программист

|

Вам нравится? Нравится 25 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Интервальное кодирование

В отличие от классического алгоритма, интервальное кодирование предполагает, что мы имеем дело с целыми дискретными величинами, которые могут принимать ограниченное число значений. Как уже было отмечено, начальный интервал в целочисленной арифметике записывается в виде [0,N) или [0,N-1] , где - число возможных значений переменной, используемой для хранения границ интервала.

Чтобы наиболее эффективно сжать данные, мы должны закодировать каждый символ посредством $- \log _2 (f_s )$ битов, где f_s - частота символа . Конечно, на практике такая точность недостижима, но мы можем для каждого символа отвести в интервале диапазон значений [N(F_s ),N(F_s + f_s )) , где F_s - накопленная частота символов, предшествующих символу в алфавите, N(f) - значение, соответствующее частоте в интервале из возможных значений. И, чем больше будет N(f_s ) , тем точнее будет представлен символ в интервале. Следует отметить, что для всех символов алфавита должно соблюдаться неравенство f_s > 0 .

Задачу увеличения размера интервала выполняет процедура, называемая нормализацией. Практика показывает, что можно отложить выполнение нормализации на некоторое время, пока размер интервала обеспечивает приемлемую точность. Микаэль Шиндлер (Michael Schindler) предложил в работе [1.3] рассматривать выходной поток как последовательность байтов, а не битов, что избавило от битовых операций и позволило производить нормализацию заметно реже. И чаще всего нормализация обходится без выполнения переноса, возникающего при сложении значений нижней границы интервала и размера интервала. В результате скорость кодирования возросла в полтора раза при крайне незначительной потери в степени сжатия (размер сжатого файла обычно увеличивается лишь на сотые доли процента).

Выходные данные арифметического кодера можно представить в виде четырех составляющих:

Составляющая, записанная в выходной файл, которая уже не может измениться.
Один элемент (бит или байт), который может быть изменен переносом, если последний возникнет при сложении значений нижней границы интервала и размера интервала.
Блок элементов, имеющих максимальное значение, через которые по цепочке может пройти перенос.
Текущее состояние кодера, представленное нижней границей интервала.

Пример представлен в табл. 1.4

Таблица 1.4.
Составляющая, записанная в файл	Элемент, который может быть изменен переносом	Блок элементов, имеющих максимальное значение	Нижняя граница интервала
D7 03 56 E4	3A	FF FF	35 38 B1
			+
Размер интервала			EA 12 1A
			=
Перенос	3B	00 00	1F 4A CB

При выполнении нормализации возможны следующие действия:

Если интервал имеет приемлемый для обеспечения заданной точности размер, нормализация не нужна.
Если при сложении значений нижней границы интервала и размера интервала не возникает переноса, составляющие 2 и 3 могут быть записаны в выходной файл без изменений.
В случае возникновения переноса он выполняется в составляющих 2 и 3, после чего они также записываются в выходной файл.
Если элемент, претендующий на запись в выходной файл, имеет максимальное значение (в случае бита - 1, в случае байта - 0xFF), то он может повлиять на предыдущий при возникновении переноса. Поэтому этот элемент записывается в блок, соответствующий третьей составляющей.

Ниже приведен исходный текст алгоритма, реализующего нормализацию для интервального кодирования [1.3].

// Максимальное значение, которое может принимать 
// переменная. Для 32-разрядной арифметики 
// CODEBITS = 31. Один бит отводится для 
// определения факта переноса.
#define TOP (1<<CODEBITS)

// Минимальное значение, которое может принимать
// размер интервала. Если значение меньше,
// требуется нормализация
#define BOTTOM (TOP>>8)

// На сколько битов надо сдвинуть значение нижней
// границы интервала, чтобы остался один байт
#define SHIFTBITS (CODEBITS-8)

// Если для хранения значений используется 31 бит,
// каждый символ сдвинут на 1 байт вправо 
// в выходном потоке, и при декодировании приходится
// его считывать в 2 этапа.
#define EXTRABITS ((CODEBITS-1)%8+1)

// Используемые глобальные переменные:
// next_char  - символ, который может быть изменен
// переносом (составляющая 2).
// carry_counter - число символов, через которые 
// может пройти перенос до символа next_char 
// (составляющая 3).
// low - значение нижней границы интервала, 
// начальное значение равно нулю.
// range - размер интервала,
// начальное значение равно TOP.

void encode_normalize( void ) {
  while( range <= BOTTOM ) {

    // перенос невозможен, поэтому возможна
    // запись в выходной файл (ситуация 2)
    if( low < 0xFF << SHIFTBITS ) {
      output_byte( next_char );
      for(;carry_counter;carry_counter--) 
        output_byte(0xFF);
      next_char = low >> SHIFTBITS;

    // возник перенос (ситуация 3)
    } else if( low >= TOP ) {
      output_byte( next_char+1 );
      for(;carry_counter;carry_counter--) 
        output_byte(0x0);
      next_char = low >> SHIFTBITS;

    // элемент, который может повлиять на перенос
    // (ситуация 4)
    } else {
      carry_counter++;
    }
    range <<= 8;
    low = (low << 8) & (TOP-1);
  }
}

void decode_normalize( void ) {
  while( range <= BOTTOM ) {
    range <<= 1;
    low = low<<8 | 
          ((next_char<<EXTRABITS) & 0xFF);
    next_char = input_byte();
    low |= next_char >> (8-EXTRABITS);
    range <<= 8;
  }
}

Пример 1.1.

Для сравнения приведем текст функции, оперирующей с битами, из работы [1.2]:

#define HALF (1<<(CODEBITS-1))
#define QUARTER (HALF>>1)

void bit_plus_follow( int bit ) {
  output_bit( bit );
  for(;carry_counter;carry_counter--) 
    output_bit(!bit);
}

void encode_normalize( void ) {
  while( range <= QUARTER ) {
    if( low >= HALF ) {
      bit_plus_follow(1);
      low -= HALF;
    } else if( low + range <= HALF ) {
      bit_plus_follow(0);
    } else {
      carry_counter++;
      low -= QUARTER;
    }
    low   <<= 1;
    range <<= 1;
  }
}

void decode_normalize( void ) {
  while( range <= QUARTER ) {
    range <<= 1;
    low = low<<1 |input_bit();
  }
}

Процедура интервального кодирования очередного символа выглядит следующим образом:

void encode( 
    int symbol_freq, // частота кодируемого символа
    int prev_freq,   // накопленная частота символов,
                     // предшествующих кодируемому 
                     // в алфавите
    int total_freq   // частота всех символов
  ) {
  int r = range / total_freq;
  low += r*prev_freq;
  range = r*symbol_freq;
  encode_normalize();
}

Упражнение: Написать процедуру интервального декодирования, использующую приведенные выше функции нормализации.

Рассмотрим пример интервального кодирования строки "КОВ.КОРОВА". Частоты символов представлены в табл. 1.5

Таблица 1.5.
Индекс	Символ	Symbol_freq	Prev_freq
0	О	3	0
1	К	2	3
2	В	2	5
3	Р	1	7
4	А	1	8
5	""	1	9
Total_freq		10

Для кодирования строки будем использовать функцию compress:

void compress(
DATAFILE *DataFile // файл исходных данных
) {
  low = 0;
  range = TOP;
  next_char = 0;
  carry_counter = 0;
  while( !DataFile.EOF ()) {
    c = DataFile.ReadSymbol()  // очередной символ
    encode( Symbol_freq[c], Prev_freq[c], 10 );
  }
}

В табл. 1.6 представлен результаты процесса кодирования функцией compress:

Таблица 1.6.
символ	symbol_freq	prev_freq	low	range	результат
			0	0x7FFFFFFF
K	2	3	0x26666664	0x19999998
О	3	0	0x26666664	0x051EB850
В	2	5	0x28F5C28A	0x010624DC
.	1	9	0x29E1B07C	0x001A36E2
нормализация			0x61B07C00	0x1A36E200	0x53
К	2	3	0x698DC232	0x053E2ECC	0x53
О	3	0	0x698DC232	0x0192A7A3	0x53
Р	1	7	0x6AA79DEC	0x002843F6	0x53
нормализация			0x279DEC00	0x2843F600	0x53D5
О	3	0	0x279DEC00	0x0C146364	0x53D5
В	2	5	0x2DA81DAF	0x026A7A46	0x53D5
А	1	8	0x2F96E5E7	0x003DD907	0x53D5
нормализация			0x16E5E700	0x3DD90700	0x53D55F

Как уже было отмечено, чаще всего при нормализации не происходит переноса. Исходя из этого, Дмитрий Субботин^{1Dmitry Subbotin. русский народный
rangecoder// Сообщение в эхо-конференции FIDO RU.COMPRESS. 1 мая 1999} предложил отказаться от переноса вовсе. Оказалось, что потери в сжатии совсем незначительны, порядка нескольких байт. Впрочем, выигрыш по скорости тоже оказался не очень заметен. Главное достоинство такого подхода - в простоте и компактности кода. Вот как выглядит функция нормализации для 32-разрядной арифметики:

#define CODEBITS 24
#define TOP (1<<CODEBITS)
#define BOTTOM (TOP>>8)
#define BIGBYTE (0xFF<<(CODEBITS-8))

void encode_normalize( void ) {
  while( range < 	BOTTOM ) {
    if( low & BIGBYTE == BIGBYTE &&
        range + (low & BOTTOM-1) >= BOTTOM )
      range = BOTTOM - (low & BOTTOM-1);
    output_byte(low>>24); 
    range<<=8; 
    low<<=8;
  }
}

Можно заметить, что избежать переноса нам позволяет своевременное принудительное уменьшение значение размера интервала. Оно происходит тогда, когда второй по старшинству байт low принимает значение 0xFF, а при добавлении к low значения размера интервала range возникает перенос. Так выглядит оптимизированная процедура нормализации:

void encode_normalize( void ) {
  while((low ^ low+range)<TOP || 
         range < BOTTOM && 
       ((range = -low & BOTTOM-1),1)) {
    output_byte(low>>24); 
    range<<=8; 
    low<<=8;
  }
}

void decode_normalize( void ) {
  while((low ^ low+range)<TOP || 
         range<BOTTOM && 
       ((range= -low & BOTTOM-1),1)) {
    low = low<<8 | input_byte();
    range<<=8; 
  }
}

Упражнение: Применить интервальное кодирование без переноса для строки 'КОВ.КОРОВА'.

Дальше >>

Авторизоваться

Методы сжатия изображений

Методы сжатия без потерь

Интервальное кодирование

Вопросы и ответы