Расстояние Кульбака — Лейблера

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy)^[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений^[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Определение и интерпретацииПравить

Расхождение Кульбака — Лейблера распределения $\text{[math]}$ $\text{[math]}$ $Q$ относительно $\text{[math]}$ $\text{[math]}$ $P$ (или, условно говоря, «расстояние от $\text{[math]}$ $\text{[math]}$ $P$ до $\text{[math]}$ $\text{[math]}$ $Q$ ») обозначается $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)$ . Первый аргумент функционала (распределение $\text{[math]}$ $\text{[math]}$ $P$ ) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение $\text{[math]}$ $\text{[math]}$ $Q$ ) — как предполагаемое (проверяемое). Распределение $\text{[math]}$ $\text{[math]}$ $Q$ часто служит приближением распределения $\text{[math]}$ $\text{[math]}$ $P$ . Значение функционала можно понимать как количество неучтённой информации распределения $\text{[math]}$ $\text{[math]}$ $P$ , если $\text{[math]}$ $\text{[math]}$ $Q$ было использовано для приближения $\text{[math]}$ $\text{[math]}$ $P$ . Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения $\text{[math]}$ $\text{[math]}$ $P$ на распределение $\text{[math]}$ $\text{[math]}$ $Q$ .

В общем случае, если $\text{[math]}$ $\text{[math]}$ $\mu$ — любая мера на $\text{[math]}$ $\text{[math]}$ $X$ , для которой существуют абсолютно непрерывные относительно $\text{[math]}$ $\text{[math]}$ $\mu$ функции $\text{[math]}$ $\text{[math]}$ $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ и $\text{[math]}$ $\text{[math]}$ $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ , тогда расхождение Кульбака — Лейблера распределения $\text{[math]}$ $\text{[math]}$ $Q$ относительно $\text{[math]}$ $\text{[math]}$ $P$ определяется как

\text{[math]}

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}p\,\log {\frac {p}{q}}\,{\rm {d}}\mu

.

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ . Тем не менее, его инфинитезимальная форма, особенно его гессиан, даёт метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брэгмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика»^[1].

Расстояние Кульбака — Лейблера $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)$ иногда также интерпретируют как информационный выигрыш, достигнутый, если $\text{[math]}$ $\text{[math]}$ $P$ использовано вместо $\text{[math]}$ $\text{[math]}$ $Q$ . Иногда для РКЛ используют вносящие путаницу названия относительная энтропия $\text{[math]}$ $\text{[math]}$ $P$ относительно $\text{[math]}$ $\text{[math]}$ $Q$ (обозначается $\text{[math]}$ $\text{[math]}$ $H(P\mid Q)$ ) или перекрёстная энтропия.

Существуют различные соглашения относительно того, как читать обозначение $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)$ . Часто его называют просто расхождением или расстоянием между $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ , однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда говорят «расхождение $\text{[math]}$ $\text{[math]}$ $P$ из (относительно) $\text{[math]}$ $\text{[math]}$ $Q$ » или, условно говоря, «расстояние из $\text{[math]}$ $\text{[math]}$ $Q$ в $\text{[math]}$ $\text{[math]}$ $P$ » (обычно в контексте относительной энтропии или информационного выигрыша). При этом распределение $\text{[math]}$ $\text{[math]}$ $Q$ интерпретируется как истинное.

Частные определения и определения через производную Радона—НикодимаПравить

Для дискретных вероятностных распределений $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ с числом элементарных событий $\text{[math]}$ $\text{[math]}$ $n$ расхождение Кульбака — Лейблера распределения $\text{[math]}$ $\text{[math]}$ $Q$ относительно распределения $\text{[math]}$ $\text{[math]}$ $P$ (или «расстояние от $\text{[math]}$ $\text{[math]}$ $P$ до $\text{[math]}$ $\text{[math]}$ $Q$ ») определяется^[3] как:

\text{[math]}

D_{KL}(P\parallel Q)=\sum \limits _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

.

Другими словами, это математическое ожидание логарифмической разности между вероятностями $\text{[math]}$ $\text{[math]}$ $p$ и $\text{[math]}$ $\text{[math]}$ $q$ , где математическое ожидание берётся по распределению $\text{[math]}$ $\text{[math]}$ $P$ . РКЛ определено, только если $\text{[math]}$ $\text{[math]}$ $q_{i}=0\Rightarrow p_{i}=0$ , для всех $\text{[math]}$ $\text{[math]}$ $i=1,...,n$ (абсолютная непрерывность). Всякий раз, когда $\text{[math]}$ $\text{[math]}$ $p_{i}=0$ , вклад $\text{[math]}$ $\text{[math]}$ $i$ -го члена интерпретируется как ноль, потому что $\text{[math]}$ $\text{[math]}$ $\lim _{x\to 0}x\log(x)=0$ .

Для $\text{[math]}$ $\text{[math]}$ $k$ -мерных абсолютно непрерывных распределений $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ расстояние Кульбака — Лейблера задаётся выражением^[4]

\text{[math]}

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\,p(x)\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x

,

где $\text{[math]}$ $\text{[math]}$ $p(x)$ и $\text{[math]}$ $\text{[math]}$ $q(x)$ — функции плотности распределений $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ соответственно, определённые на интервале $\text{[math]}$ $\text{[math]}$ $X\subseteq R^{k}$ .

В более общем смысле, если $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ — вероятностные меры на множестве $\text{[math]}$ $\text{[math]}$ $X$ , и $\text{[math]}$ $\text{[math]}$ $P$ абсолютно непрерывна относительно $\text{[math]}$ $\text{[math]}$ $Q$ , тогда РКЛ от $\text{[math]}$ $\text{[math]}$ $P$ до $\text{[math]}$ $\text{[math]}$ $Q$ определено как

\text{[math]}

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P

,

где $\text{[math]}$ $\text{[math]}$ ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ — это производная Радона — Никодима $\text{[math]}$ $\text{[math]}$ $P$ относительно $\text{[math]}$ $\text{[math]}$ $Q$ , и при условии, что выражение справа существует. Эквивалентно это может быть записано как

\text{[math]}

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log \!\left({\frac {{\rm {d}}P}{{\rm {d}}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q

.

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

ХарактеризацияПравить

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяет некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии^[5]. Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера^[6].

МотивацияПравить

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения $\text{[math]}$ $\text{[math]}$ $x_{i}\subset X$ , можно рассматривать как представление неявного распределения вероятностей $\text{[math]}$ $\text{[math]}$ $q(x_{i})=2^{-I_{i}}$ над $\text{[math]}$ $\text{[math]}$ $X$ , где $\text{[math]}$ $\text{[math]}$ $I_{i}$ — длина кода для $\text{[math]}$ $\text{[math]}$ $x_{i}$ в битах. Поэтому РКЛ может быть интерпретировано как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения $\text{[math]}$ $\text{[math]}$ $Q$ , используется по сравнению с использованием кода на основе истинного распределения $\text{[math]}$ $\text{[math]}$ $P$ .

$\text{[math]}$ $\text{[math]}$ ${\textstyle {\begin{matrix}D_{\mathrm {KL} }(P\parallel Q)=-\sum _{x}p(x)\log q(x)+\sum _{x}p(x)\log p(x)=H(P,Q)-H(P)\,\!\end{matrix}}}$ , где $\text{[math]}$ $\text{[math]}$ $H(P,Q)$ — перекрестная энтропия $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ , $\text{[math]}$ $\text{[math]}$ $H(P)$ — энтропия $\text{[math]}$ $\text{[math]}$ $P$ .

Также можно отметить, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений^[7]^[8].

СвойстваПравить

Расстояние Кульбака — Лейблера всегда неотрицательно, $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)\geq 0,$ — это результат, который известен как неравенство Гиббса, $\text{[math]}$ $\text{[math]}$ $D_{KL}(P\parallel Q)=0\iff P=Q$ почти всюду. Энтропия $\text{[math]}$ $\text{[math]}$ $H(P)$ , таким образом, задаёт минимальное значение перекрестной энтропии $\text{[math]}$ $\text{[math]}$ $H(P,Q)$ , ожидаемое число дополнительных битов, требуемых, когда используется код, основанный на $\text{[math]}$ $\text{[math]}$ $Q$ , а не на $\text{[math]}$ $\text{[math]}$ $P$ . Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение $\text{[math]}$ $\text{[math]}$ $x\subset X$ , если используется код, соответствующий распределению вероятностей $\text{[math]}$ $\text{[math]}$ $Q$ , а не «истинному» распределению $\text{[math]}$ $\text{[math]}$ $P$ .
Расстояние Кульбака — Лейблера не симметрично: $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ .
Расстояние Кульбака — Лейблера остается строго определённым для непрерывных распределений и, кроме того, инвариантно относительно замены переменных. Например, если сделана замена переменной $\text{[math]}$ $\text{[math]}$ $x$ на переменную $\text{[math]}$ $\text{[math]}$ $y(x)$ , тогда, поскольку $\text{[math]}$ $\text{[math]}$ $P(x)dx=P(y)dy$ и $\text{[math]}$ $\text{[math]}$ $Q(x)dx=Q(y)$ , РКЛ может быть переписано в виде:

\text{[math]}

{\textstyle D_{\mathrm {KL} }(P\parallel Q)=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)dy/dx}{Q(y)dy/dx}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy}

,

где

\text{[math]}

y_{a}=y(x_{a})

и

\text{[math]}

y_{b}=y(x_{b})

. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если

\text{[math]}

x

— размерная переменная, то

\text{[math]}

P(x)

и

\text{[math]}

Q(x)

также имеют размерность, так как

\text{[math]}

P(x)dx

является безразмерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации^[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.

РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если $\text{[math]}$ $\text{[math]}$ $P_{1},P_{2}$ являются независимыми распределениями с совместным распределением $\text{[math]}$ $\text{[math]}$ $P(x,y)=P_{1}(x)P_{2}(y)$ и, аналогично, $\text{[math]}$ $\text{[math]}$ $Q(x,y)=Q_{1}(x)Q_{2}(y)$ , то $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)=D_{\mathrm {KL} }(P_{1}\parallel Q_{1})+D_{\mathrm {KL} }(P_{2}\parallel Q_{2}).$

Расстояние Кульбака — Лейблера для многомерного нормального распределенияПравить

Допустим, что мы имеем два многомерных нормальных распределения, со средними $\text{[math]}$ $\text{[math]}$ $\mu _{0},\mu _{1}$ и с (обратимыми) матрицами ковариаций $\text{[math]}$ $\text{[math]}$ $\Sigma _{0},\Sigma _{1}$ . Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее^[10]:

$\text{[math]}$ $\text{[math]}$ $D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left(\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{0}}\right)\right).$

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в натах. Целиком разделив это выражение на log_e2, получим распределение в битах.

Отношение к метрикамПравить

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ , и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если $\text{[math]}$ $\text{[math]}$ $\{P_{1},P_{2},\cdots \}$ - это последовательность распределений такая, что $\text{[math]}$ $\text{[math]}$ $\lim _{n\rightarrow \infty }D_{\mathrm {KL} }(P_{n}\parallel Q)=0$ , тогда говорят, что $\text{[math]}$ $\text{[math]}$ $P_{n}{\xrightarrow {D}}Q$ . Из неравенства Пинскера следует, что — $\text{[math]}$ $\text{[math]}$ $P_{n}{\xrightarrow {\mathrm {D} }}P\Rightarrow P_{n}{\xrightarrow {\mathrm {TV} }}P$ , где последнее нужно для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).^[11]^[12]

Информационная метрика ФишераПравить

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром $\text{[math]}$ $\text{[math]}$ $\theta$ . Рассмотрим теперь два близких значения $\text{[math]}$ $\text{[math]}$ $P=P(\theta )$ и $\text{[math]}$ $\text{[math]}$ $Q=P(\theta _{0})$ , таких что параметр $\text{[math]}$ $\text{[math]}$ $\theta$ отличается только на небольшое число от параметра $\text{[math]}$ $\text{[math]}$ $\theta _{0}$ . А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

$\text{[math]}$ $\text{[math]}$ $P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots$ ,

где $\text{[math]}$ $\text{[math]}$ $\Delta \theta ^{j}=(\theta -\theta _{0})^{j}$ — малое изменение $\text{[math]}$ $\text{[math]}$ $\theta$ в j-м направлении, а $\text{[math]}$ $\text{[math]}$ $P_{j}(\theta _{0})={\frac {\partial P}{\partial \theta ^{j}}}(\theta _{0})$ соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть $\text{[math]}$ $\text{[math]}$ $\theta =\theta _{0}$ то РКЛ имеет второй порядок малости по параметрам $\text{[math]}$ $\text{[math]}$ $\Delta \theta ^{j}$ . Более формально, как и для любого минимума, первая производная расхождения обращается в ноль $\text{[math]}$ $\text{[math]}$ $\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\parallel P(\theta _{0}))=0,$

и разложение Тейлора начинается со второго порядка малости

$\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots$ ,

где Гессиан $\text{[math]}$ $\text{[math]}$ $g_{jk}(\theta )$ должен быть неотрицательным. Если позволить $\text{[math]}$ $\text{[math]}$ $\theta _{0}$ изменяться (и опуская подиндекс 0), то Гессиан $\text{[math]}$ $\text{[math]}$ $g_{jk}(\theta )$ определяет (возможно, вырожденную) метрику Римана в пространстве параметра $\text{[math]}$ $\text{[math]}$ $\theta$ , называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теорииПравить

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(\delta _{im}\parallel \{p_{i}\})$ является РКЛ вероятностного распределения $\text{[math]}$ $\text{[math]}$ $P(i)$ из символа Кронекера, представляющего определённость в том, что $\text{[math]}$ $\text{[math]}$ $i=m$ — то есть число дополнительных бит, которые должны быть переданы для определения $\text{[math]}$ $\text{[math]}$ $i$ , если только вероятностное распределение $\text{[math]}$ $\text{[math]}$ $P(i)$ доступно для получателя, не факт, что $\text{[math]}$ $\text{[math]}$ $i=m$ .

Взаимная информация -

$\text{[math]}$ $\text{[math]}$ ${\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\mathrm {KL} }(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\mathrm {KL} }(P(X\mid Y)\parallel P(X))\}\end{aligned}}$

является РКЛ произведения $\text{[math]}$ $\text{[math]}$ $P(X)P(Y)$ двух маргинальных вероятностных распределений из совместного вероятностного распределения $\text{[math]}$ $\text{[math]}$ $P(X,Y)$ — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить $\text{[math]}$ $\text{[math]}$ $X$ и $\text{[math]}$ $\text{[math]}$ $Y$ , если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность $\text{[math]}$ $\text{[math]}$ $P(X,Y)$ известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения $\text{[math]}$ $\text{[math]}$ $Y$ , если значение $\text{[math]}$ $\text{[math]}$ $X$ уже не известны получателю.

Энтропия Шеннона -

$\text{[math]}$ $\text{[math]}$ ${\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{\text{KL}}(P(X)\parallel P_{U}(X))\end{aligned}}$

это число битов, которые должны быть переданы для идентификации $\text{[math]}$ $\text{[math]}$ $X$ из $\text{[math]}$ $\text{[math]}$ $N$ одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения $\text{[math]}$ $\text{[math]}$ $P_{U}(X)$ из истинного распределения $\text{[math]}$ $\text{[math]}$ $P(X)$ — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение $\text{[math]}$ $\text{[math]}$ $X$ закодировано согласно с равномерным распределением $\text{[math]}$ $\text{[math]}$ $P_{U}(X)$ , а не истинным распределение $\text{[math]}$ $\text{[math]}$ $P(X)$ .

Условная энтропия -

$\text{[math]}$ $\text{[math]}$ ${\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\&=\log(N)-\operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{aligned}}$

это число битов, которые должны быть переданы для идентификации $\text{[math]}$ $\text{[math]}$ $X$ из $\text{[math]}$ $\text{[math]}$ $N$ одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений $\text{[math]}$ $\text{[math]}$ $P_{U}(X)$ из истинного совместного распределения $\text{[math]}$ $\text{[math]}$ $P(X,Y)$ — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение $\text{[math]}$ $\text{[math]}$ $X$ закодировано согласно с равномерным распределением $\text{[math]}$ $\text{[math]}$ $P_{U}(X)$ , а не с условным распределением $\text{[math]}$ $\text{[math]}$ $P(X\mid Y)$ данных $\text{[math]}$ $\text{[math]}$ $X$ и $\text{[math]}$ $\text{[math]}$ $Y$ .

Перекрестная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности $\text{[math]}$ $\text{[math]}$ $Q$ , а не «истинного» распределения $\text{[math]}$ $\text{[math]}$ $P$ . Перекрестная энтропия для двух распределений $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ над тем же вероятностным пространством определяется так: $\text{[math]}$ $\text{[math]}$ $H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\parallel q).$

Расстояние Кульбака — Лейблера и Байесовская модификацияПравить

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт $\text{[math]}$ $\text{[math]}$ $Y=y$ , оно может быть использовано для модификации (априорного) распределения вероятностей $\text{[math]}$ $\text{[math]}$ $p(x\mid I)$ для $\text{[math]}$ $\text{[math]}$ $X$ в новое (апостериорное) распределение вероятностей $\text{[math]}$ $\text{[math]}$ $p(x\mid y,I)$ используя Теорему Байеса:

\text{[math]}

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}.

Это распределение имеет новую энтропию

\text{[math]}

H{\big (}p(\cdot \mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

которая может быть меньше или больше, чем изначальная энтропия $\text{[math]}$ $\text{[math]}$ $H{\big (}p(\cdot \mid I){\big )}$ . Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на $\text{[math]}$ $\text{[math]}$ $p(x\mid I)$ вместо нового кода, основанного на $\text{[math]}$ $\text{[math]}$ $p(x\mid y,I)$ , добавило бы ожидаемое число битов — $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }{\big (}p(\cdot \mid y,I)\mid p(\cdot \mid I){\big )}=\sum _{x}p(x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)}}$ к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно $\text{[math]}$ $\text{[math]}$ $X$ , которое было получено при обнаружении, что $\text{[math]}$ $\text{[math]}$ $Y=y$ .

Если впоследствии приходит еще один фрагмент данных, $\text{[math]}$ $\text{[math]}$ $Y_{2}=y_{2}$ , то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение $\text{[math]}$ $\text{[math]}$ $p(x\mid y_{1},y_{2},I)$ . Если исследовать заново информационный выигрыш для использования $\text{[math]}$ $\text{[math]}$ $p(x\mid y_{1},I)$ , а не $\text{[math]}$ $\text{[math]}$ $p(x\mid I)$ , оказывается, что это может быть больше или меньше, чем предполагалось ранее: $\text{[math]}$ $\text{[math]}$ $\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}$ , может быть $\text{[math]}$ $\text{[math]}$ $\leq$ или $\text{[math]}$ $\text{[math]}$ $>$ , чем $\text{[math]}$ $\text{[math]}$ $\displaystyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I)}}$ , и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

$\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid I){\big )}$ , может быть больше, меньше или равно $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid y_{1},I){\big )}+D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},I)\parallel p(x\mid I){\big )}.$

Все, что можно сказать, что в среднем, беря среднее, используя $\text{[math]}$ $\text{[math]}$ $p(y_{2}\mid y_{1},x,I)$ , обе стороны будут давать среднее значение.

Экспериментальная модель БайесаПравить

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.^[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информацияПравить

Расстояние Кульбака — Лейблера $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))$ может также быть интерпретировано как ожидаемая различающая информация для $\text{[math]}$ $\text{[math]}$ $H_{1}$ над $\text{[math]}$ $\text{[math]}$ $H_{0}$ : средняя информация на одну выборку для различия в пользу гипотезы $\text{[math]}$ $\text{[math]}$ $H_{1}$ , против гипотезы $\text{[math]}$ $\text{[math]}$ $H_{0}$ , когда гипотеза $\text{[math]}$ $\text{[math]}$ $H_{1}$ верна^[14]. Еще одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для $\text{[math]}$ $\text{[math]}$ $H_{1}$ над $\text{[math]}$ $\text{[math]}$ $H_{0}$ , ожидаемая из каждой выборки.

Ожидаемая масса доказательства для $\text{[math]}$ $\text{[math]}$ $H_{1}$ над $\text{[math]}$ $\text{[math]}$ $H_{0}$ это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\mathrm {KL} }(p(H\mid x)\parallel p(H\mid I)).$ .

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределенности обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.

Принцип минимальной различающей информацииПравить

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (англ. Minimum Discrimination Information, MDI): учитывая новые факты, новое распределение $\text{[math]}$ $\text{[math]}$ $f$ следует выбрать, из тех, которые трудно отличить от первоначального распределения $\text{[math]}$ $\text{[math]}$ $f_{0}$ ; потому что новые данные производят так мало информационного выигрыша $\text{[math]}$ $\text{[math]}$ $D_{KL}(f\parallel f_{0})$ как только возможно.

Например, если мы имеем априорное распределение $\text{[math]}$ $\text{[math]}$ $p(x,a)$ над $\text{[math]}$ $\text{[math]}$ $x$ и $\text{[math]}$ $\text{[math]}$ $a$ , и потом изучим истинное распределение $\text{[math]}$ $\text{[math]}$ $a$ и $\text{[math]}$ $\text{[math]}$ $u(a)$ . РКЛ между новым совместным распределением для $\text{[math]}$ $\text{[math]}$ $x$ и $\text{[math]}$ $\text{[math]}$ $a$ , $\text{[math]}$ $\text{[math]}$ $q(x\mid a)u(a)$ , и прежнего априорного распределения было бы: $\text{[math]}$ $\text{[math]}$ $D_{\mathrm {KL} }(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\{D_{\mathrm {KL} }(q(x\mid a)\parallel p(x\mid a))\}+D_{\mathrm {KL} }(u(a)\parallel p(a)),$

то есть сумма РКЛ $\text{[math]}$ $\text{[math]}$ $p(a)$ априорного распределения для $\text{[math]}$ $\text{[math]}$ $a$ из обновленного распределения $\text{[math]}$ $\text{[math]}$ $u(a)$ , плюс ожидаемое значение (используемое вероятностное распределение $\text{[math]}$ $\text{[math]}$ $u(a)$ ) РКЛ априорного условного распределения $\text{[math]}$ $\text{[math]}$ $p(x\mid a)$ из нового распределения $\text{[math]}$ $\text{[math]}$ $p(x\mid a)$ . (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается $\text{[math]}$ $\text{[math]}$ $D_{KL}(q(x\mid a)\parallel p(x\mid a))$ ^[15]. Это минимизирует, если $\text{[math]}$ $\text{[math]}$ $q(x\mid a)=p(x\mid a)$ над общим содержанием $\text{[math]}$ $\text{[math]}$ $u(a)$ . И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение $\text{[math]}$ $\text{[math]}$ $u(a)$ это по факту функция, уверенно представляющая, что $\text{[math]}$ $\text{[math]}$ $a$ имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона становится не очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрестной энтропии. Минимизация РКЛ $\text{[math]}$ $\text{[math]}$ $m$ из $\text{[math]}$ $\text{[math]}$ $p$ в отношении $\text{[math]}$ $\text{[math]}$ $m$ эквивалентна минимизации перекрестной энтропии $\text{[math]}$ $\text{[math]}$ $p$ и $\text{[math]}$ $\text{[math]}$ $m$ , так $\text{[math]}$ $\text{[math]}$ $H(p,m)=H(p)+D_{\mathrm {KL} }(p\parallel m),$ который подходит, если попытаться выбрать точное приближенное значение до $\text{[math]}$ $\text{[math]}$ $p$ .

Пример использованияПравить

Пусть по выборке $\text{[math]}$ $\text{[math]}$ $x_{1},x_{2},\dotsc ,x_{n}$ из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства $\text{[math]}$ $\text{[math]}$ $f(x,\theta )$ , где $\text{[math]}$ $\text{[math]}$ $x\in X\subseteq R$ — аргумент функции, $\text{[math]}$ $\text{[math]}$ $\theta$ — неизвестный параметр. Оценка параметра $\text{[math]}$ $\text{[math]}$ $\theta$ может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью $\text{[math]}$ $\text{[math]}$ $f(x,\theta )$ и эмпирической плотностью распределения, считающейся «истинной»,

\text{[math]}

{\hat {f}}(x)={\frac {1}{n}}\sum \limits _{i=1}^{n}\mathbf {\delta } (x-x_{i})

,

где $\text{[math]}$ $\text{[math]}$ $\delta$ — функция Дирака:

\text{[math]}

{\hat {\theta }}=\operatorname {arg} {\underset {\theta }{\operatorname {min} }}D_{KL}({\hat {f}}(x),f(x,\theta ))=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\int \limits _{X}^{}{\hat {f}}(x)\ln f(x,\theta )\,dx=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\sum \limits _{i=1}^{n}\mathbf {\ln } f(x_{i},\theta )

.

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра $\text{[math]}$ $\text{[math]}$ $\theta$ . В случае если фактическая плотность распределения случайной величины не принадлежит семейству $\text{[math]}$ $\text{[math]}$ $f(x,\theta )$ , найденная оценка $\text{[math]}$ $\text{[math]}$ ${\hat {\theta }}$ параметра $\text{[math]}$ $\text{[math]}$ $\theta$ называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями $\text{[math]}$ $\text{[math]}$ $f(x,\theta )$ с точки зрения расстояния Кульбака — Лейблера.

ПримечанияПравить

↑ ¹ ² Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.
↑ Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
↑ MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.
↑ Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.
↑ Hobson, Arthur. Concepts in statistical mechanics. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.
↑ Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..
↑ И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.
↑ Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.
↑ Relative Entropy (неопр.). videolectures.net. Дата обращения: 14 июня 2016. Архивировано 25 декабря 2018 года.
↑ Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.
↑ Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..
↑ Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.
↑ Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.
↑ Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .
↑ Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.

[:0-1] ¹ ² Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.

[2] Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.

[3] MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.

[4] Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.

[5] Hobson, Arthur. Concepts in statistical mechanics. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.

[6] Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..

[7] И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.

[8] Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.

[9] Relative Entropy (неопр.). videolectures.net. Дата обращения: 14 июня 2016. Архивировано 25 декабря 2018 года.

[10] Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.

[11] Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..

[12] Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.

[13] Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.

[14] Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .

[15] Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]