Это не официальный сайт wikipedia.org 01.01.2023

Теорема Шеннона об источнике шифрования — Википедия

Теорема Шеннона об источнике шифрования

В теории информации теорема Шеннона об источнике шифрования (или теорема бесшумного шифрования) устанавливает предел максимального сжатия данных и числовое значение энтропии Шеннона.

Теорема показывает, что (когда в потоке независимо и одинаково распределённых (НОР) случайных переменных количество данных стремится к бесконечности) невозможно сжать данные настолько, что оценка кода (среднее число бит на символ) меньше, чем энтропия Шеннона исходных данных, без потери точности информации. Тем не менее, можно получить код, близкий к энтропии Шеннона без значительных потерь.

Теорема об источнике шифрования для кодов символов приводит верхнюю и нижнюю границу к минимально возможной длине зашифрованных слов как функция энтропии от входного слова (которое представлено как случайная переменная) и от размера требуемой азбуки.

УтверждениеПравить

Исходный код — это отображение (последовательность) из хранилища информации в последовательность алфавитных символов (обычно битов) таких что исходный символ может быть однозначно получен из двоичных разрядов (беспотерьный источник кодирования) или получен с некоторым различием (источник кодирования с потерями). Это идея сжатия данных.

Источник шифрования для кодов символовПравить

В информатике теорема об источнике шифрования (Шеннон 1948) утверждает, что:

«N случайная переменная с энтропией H(X) может быть сжата в более чем NH(X) битов с незначительным риском потери данных, если N стремится к бесконечности, но если сжатие происходит менее в чем NH(X) бит, то данные скорее всего будут потеряны. (MacKay 2003).»

Теорема об источнике шифрования для кодов символовПравить

Пусть Σ 1  , Σ 2   значат два конечных алфавита и пусть Σ 1   и Σ 2   означают набор всех конечных слов из этих алфавитов (упорядоченных).

Предположим что X — случайная переменная, которая принимает значение из Σ 1  , а f — поддающийся расшифровке код из Σ 1   в Σ 2  , где | Σ 2 | = a  . Пусть S представляет случайную переменную, заданную длиной слова f(X).

Если f является оптимальным в смысле, что она имеет минимальную длину слова для X, тогда

H ( X ) log 2 a E S < H ( X ) log 2 a + 1  

(Shannon 1948).

Доказательство теоремы об источнике шифрованияПравить

Задано X   являющееся НОР, его временной ряд X1, …, Xn также НОР с энтропией H(X) в случае дискретных значений, и с дифференциальной энтропией в случае непрерывных значений. Теорема об источнике шифрования утверждает, что для каждого ϵ > 0   для каждой оценки большей, чем энтропия ресурса, существует достаточно большое n и шифрователь, который принимает n НОР копий ресурса , X 1 : n  , , и отображает его в n . ( H ( X ) + ϵ )   двоичных бит таким способом, что исходный символ X 1 : n   может быть восстановлен из двоичных бит, X вероятностью не менее чем 1 ϵ  .

Доказательство

Возьмем некоторое ϵ > 0  . формула для, A n ϵ  , выглядит следующим образом:

A n ϵ = { x 1 n : | 1 n log p ( X 1 , X 2 , . . . , X n ) H n ( X ) | < ϵ }  

AEP показывает что для достаточно больших n, последовательность сгенерированная из источника недостоверна в типичном случае — A n ϵ  , сходящаяся. В случае для достаточно больших: n, P ( A n ϵ ) > 1 ϵ   (см AEP)

Определение типичных наборов подразумевает, что те последовательности, которые лежат в типичном наборе, удовлетворяют:

2 n ( H ( X ) + ϵ ) p ( x 1 , x 2 , . . . , x n ) 2 n ( H ( X ) ϵ )  

Заметьте, что:

  • Вероятность того, что последовательность была получена из X  

A ϵ ( n )   больше чем 1 ϵ  

  • | A ϵ ( n ) | 2 n ( H ( X ) + ϵ )   начиная с вероятности полной совокупности A ϵ ( n )   является наиболее большим.
  • | A ϵ ( n ) | ( 1 ϵ ) 2 n ( H ( X ) ϵ )  . Fдля доказательства используйте верхнюю границу вероятности для каждого терма в типичном случае, и нижнюю границу для общего случая A ϵ ( n )  .

Начиная с | A ϵ ( n ) | 2 n ( H ( X ) + ϵ ) , n . ( H ( X ) + ϵ )   битов достаточно, чтобы отличить любую строку

Алгоритм шифрования: шифратор проверяет является ли ложной входящая последовательность, если да, то возвращает индекс входящей частоты в последовательности, если нет, то возвращает случайное n . ( H ( X ) + ϵ )   digit number. численное значение. В случае если входящая вероятность неверна в последовательности (с частотой примерно 1 ϵ  ), то шифратор не выдает ошибку. То есть вероятность ошибки составляет выше чем ϵ  

Доказательство обратимости Доказательство обратимости базируется на том, что требуется показать что для любой последовательности размером меньше чем A n ϵ   (в смысле экспоненты) будет покрывать частоту последовательности, ограниченную 1.

Доказательство теоремы об источнике шифрования для кодов символовПравить

Пусть s i   длина слова для каждого возможного x i   ( i = 1 , , n  ). Определим q i = a s i / C  , где С выбирается таким образом, что: q i = 1  .

Тогда

H ( X ) = i = 1 n p i log 2 p i i = 1 n p i log 2 q i = = i = 1 n p i log 2 a s i + i = 1 n p i log 2 C = = i = 1 n p i log 2 a s i + log 2 C i = 1 n s i p i log 2 a E S log 2 a ,  

где вторая строка является неравенством Гиббса, а пятая строка является неравенством Крафта C = i = 1 n a s i 1  , log C 0  .

для второго неравенства мы можем установить

s i = log a p i ,  

и так

log a p i s i < log a p i + 1 ,  

а затем

a s i p i  

и

a s i p i = 1.  

Таким образом, минимальное S удовлетворяет

E S = p i s i < < p i ( log a p i + 1 ) = = p i log 2 p i log 2 a + 1 = = H ( X ) log 2 a + 1.  

ПримечанияПравить