Это не официальный сайт wikipedia.org 01.01.2023

Расстояние Кульбака — Лейблера — Википедия

Расстояние Кульбака — Лейблера

(перенаправлено с «Расстояние Кульбака-Лейблера»)

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy)[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Определение и интерпретацииПравить

Расхождение Кульбака — Лейблера распределения Q   относительно P   (или, условно говоря, «расстояние от P   до Q  ») обозначается D K L ( P Q )  . Первый аргумент функционала (распределение P  ) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение Q  ) — как предполагаемое (проверяемое). Распределение Q   часто служит приближением распределения P  . Значение функционала можно понимать как количество неучтённой информации распределения P  , если Q   было использовано для приближения P  . Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения P   на распределение Q  .

В общем случае, если μ   — любая мера на X  , для которой существуют абсолютно непрерывные относительно μ   функции p = d P d μ   и q = d Q d μ  , тогда расхождение Кульбака — Лейблера распределения Q   относительно P   определяется как

D K L ( P Q ) = X p log p q d μ  .

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: D K L ( P Q ) D K L ( Q P )  . Тем не менее, его инфинитезимальная форма, особенно его гессиан, даёт метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брэгмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика»[1].

Расстояние Кульбака — Лейблера D K L ( P Q )   иногда также интерпретируют как информационный выигрыш, достигнутый, если P   использовано вместо Q  . Иногда для РКЛ используют вносящие путаницу названия относительная энтропия P   относительно Q   (обозначается H ( P Q )  ) или перекрёстная энтропия.

Существуют различные соглашения относительно того, как читать обозначение D K L ( P Q )  . Часто его называют просто расхождением или расстоянием между P   и Q  , однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда говорят «расхождение P   из (относительно) Q  » или, условно говоря, «расстояние из Q   в P  » (обычно в контексте относительной энтропии или информационного выигрыша). При этом распределение Q   интерпретируется как истинное.

Частные определения и определения через производную Радона—НикодимаПравить

Для дискретных вероятностных распределений P   и Q   с числом элементарных событий n   расхождение Кульбака — Лейблера распределения Q   относительно распределения P   (или «расстояние от P   до Q  ») определяется[3] как:

D K L ( P Q ) = i = 1 n p i log p i q i  .

Другими словами, это математическое ожидание логарифмической разности между вероятностями p   и q  , где математическое ожидание берётся по распределению P  . РКЛ определено, только если q i = 0 p i = 0  , для всех i = 1 , . . . , n   (абсолютная непрерывность). Всякий раз, когда p i = 0  , вклад i  -го члена интерпретируется как ноль, потому что lim x 0 x log ( x ) = 0  .

Для k  -мерных абсолютно непрерывных распределений P   и Q   расстояние Кульбака — Лейблера задаётся выражением[4]

D K L ( P Q ) = X p ( x ) log p ( x ) q ( x ) d x  ,

где p ( x )   и q ( x )   — функции плотности распределений P   и Q   соответственно, определённые на интервале X R k  .

В более общем смысле, если P   и Q   — вероятностные меры на множестве X  , и P   абсолютно непрерывна относительно Q  , тогда РКЛ от P   до Q   определено как

D K L ( P Q ) = X log d P d Q d P  ,

где d P d Q   — это производная Радона — Никодима P   относительно Q  , и при условии, что выражение справа существует. Эквивалентно это может быть записано как

D K L ( P Q ) = X log ( d P d Q ) d P d Q d Q  .

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

ХарактеризацияПравить

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяет некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии[5]. Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера[6].

МотивацияПравить

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения x i X  , можно рассматривать как представление неявного распределения вероятностей q ( x i ) = 2 I i   над X  , где I i   — длина кода для x i   в битах. Поэтому РКЛ может быть интерпретировано как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения Q  , используется по сравнению с использованием кода на основе истинного распределения P  .

D K L ( P Q ) = x p ( x ) log q ( x ) + x p ( x ) log p ( x ) = H ( P , Q ) H ( P )  , где H ( P , Q )   — перекрестная энтропия P   и Q  , H ( P )   — энтропия P  .

Также можно отметить, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений[7][8].

СвойстваПравить

  • Расстояние Кульбака — Лейблера всегда неотрицательно, D K L ( P Q ) 0 ,   — это результат, который известен как неравенство Гиббса, D K L ( P Q ) = 0 P = Q   почти всюду. Энтропия H ( P )  , таким образом, задаёт минимальное значение перекрестной энтропии H ( P , Q )  , ожидаемое число дополнительных битов, требуемых, когда используется код, основанный на Q  , а не на P  . Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение x X  , если используется код, соответствующий распределению вероятностей Q  , а не «истинному» распределению P  .
  • Расстояние Кульбака — Лейблера не симметрично: D K L ( P Q ) D K L ( Q P )  .
  • Расстояние Кульбака — Лейблера остается строго определённым для непрерывных распределений и, кроме того, инвариантно относительно замены переменных. Например, если сделана замена переменной x   на переменную y ( x )  , тогда, поскольку P ( x ) d x = P ( y ) d y   и Q ( x ) d x = Q ( y )  , РКЛ может быть переписано в виде:
D K L ( P Q ) = x a x b P ( x ) log ( P ( x ) Q ( x ) ) d x = y a y b P ( y ) log ( P ( y ) d y / d x Q ( y ) d y / d x ) d y = y a y b P ( y ) log ( P ( y ) Q ( y ) ) d y  ,
где y a = y ( x a )   и y b = y ( x b )  . Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если x   — размерная переменная, то P ( x )   и Q ( x )   также имеют размерность, так как P ( x ) d x   является безразмерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.
  • РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если P 1 , P 2   являются независимыми распределениями с совместным распределением P ( x , y ) = P 1 ( x ) P 2 ( y )   и, аналогично, Q ( x , y ) = Q 1 ( x ) Q 2 ( y )  , то D K L ( P Q ) = D K L ( P 1 Q 1 ) + D K L ( P 2 Q 2 ) .  

Расстояние Кульбака — Лейблера для многомерного нормального распределенияПравить

Допустим, что мы имеем два многомерных нормальных распределения, со средними μ 0 , μ 1   и с (обратимыми) матрицами ковариаций Σ 0 , Σ 1  . Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее[10]:

D KL ( N 0 N 1 ) = 1 2 ( t r ( Σ 1 1 Σ 0 ) + ( μ 1 μ 0 ) Σ 1 1 ( μ 1 μ 0 ) k + ln ( det Σ 1 det Σ 0 ) ) .  

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в натах. Целиком разделив это выражение на loge2, получим распределение в битах.

Отношение к метрикамПравить

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично D K L ( P Q ) D K L ( Q P )  , и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если { P 1 , P 2 , }  - это последовательность распределений такая, что lim n D K L ( P n Q ) = 0  , тогда говорят, что P n D Q  . Из неравенства Пинскера следует, что — P n D P P n T V P  , где последнее нужно для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).[11][12]

Информационная метрика ФишераПравить

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром θ  . Рассмотрим теперь два близких значения P = P ( θ )   и Q = P ( θ 0 )  , таких что параметр θ   отличается только на небольшое число от параметра θ 0  . А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

P ( θ ) = P ( θ 0 ) + Δ θ j P j ( θ 0 ) +  ,

где Δ θ j = ( θ θ 0 ) j   — малое изменение θ   в j-м направлении, а P j ( θ 0 ) = P θ j ( θ 0 )   соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть θ = θ 0   то РКЛ имеет второй порядок малости по параметрам Δ θ j  . Более формально, как и для любого минимума, первая производная расхождения обращается в ноль θ j | θ = θ 0 D K L ( P ( θ ) P ( θ 0 ) ) = 0 ,  

и разложение Тейлора начинается со второго порядка малости

D K L ( P ( θ ) P ( θ 0 ) ) = 1 2 Δ θ j Δ θ k g j k ( θ 0 ) +  ,

где Гессиан g j k ( θ )   должен быть неотрицательным. Если позволить θ 0   изменяться (и опуская подиндекс 0), то Гессиан g j k ( θ )   определяет (возможно, вырожденную) метрику Римана в пространстве параметра θ  , называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теорииПравить

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация D K L ( δ i m { p i } )   является РКЛ вероятностного распределения P ( i )   из символа Кронекера, представляющего определённость в том, что i = m   — то есть число дополнительных бит, которые должны быть переданы для определения i  , если только вероятностное распределение P ( i )   доступно для получателя, не факт, что i = m  .

Взаимная информация -

I ( X ; Y ) = D K L ( P ( X , Y ) P ( X ) P ( Y ) ) = E X { D K L ( P ( Y X ) P ( Y ) ) } = E Y { D K L ( P ( X Y ) P ( X ) ) }  

является РКЛ произведения P ( X ) P ( Y )   двух маргинальных вероятностных распределений из совместного вероятностного распределения P ( X , Y )   — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить X   и Y  , если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность P ( X , Y )   известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения Y  , если значение X   уже не известны получателю.

Энтропия Шеннона -

H ( X ) = E [ I X ( x ) ] = log ( N ) D KL ( P ( X ) P U ( X ) )  

это число битов, которые должны быть переданы для идентификации X   из N   одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения P U ( X )   из истинного распределения P ( X )   — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение X   закодировано согласно с равномерным распределением P U ( X )  , а не истинным распределение P ( X )  .

Условная энтропия -

H ( X Y ) = log ( N ) D KL ( P ( X , Y ) P U ( X ) P ( Y ) ) = log ( N ) D KL ( P ( X , Y ) P ( X ) P ( Y ) ) D KL ( P ( X ) P U ( X ) ) = H ( X ) I ( X ; Y ) = log ( N ) E Y [ D KL ( P ( X Y ) P U ( X ) ) ]  

это число битов, которые должны быть переданы для идентификации X   из N   одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений P U ( X )   из истинного совместного распределения P ( X , Y )   — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение X   закодировано согласно с равномерным распределением P U ( X )  , а не с условным распределением P ( X Y )   данных X   и Y  .

Перекрестная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности Q  , а не «истинного» распределения P  . Перекрестная энтропия для двух распределений P   и Q   над тем же вероятностным пространством определяется так: H ( p , q ) = E p [ log q ] = H ( p ) + D K L ( p q ) .  

Расстояние Кульбака — Лейблера и Байесовская модификацияПравить

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт Y = y  , оно может быть использовано для модификации (априорного) распределения вероятностей p ( x I )   для X   в новое (апостериорное) распределение вероятностей p ( x y , I )   используя Теорему Байеса:

p ( x y , I ) = p ( y x , I ) p ( x I ) p ( y I ) .  

Это распределение имеет новую энтропию

H ( p ( y , I ) ) = x p ( x y , I ) log p ( x y , I ) ,  

которая может быть меньше или больше, чем изначальная энтропия H ( p ( I ) )  . Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на p ( x I )   вместо нового кода, основанного на p ( x y , I )  , добавило бы ожидаемое число битов — D K L ( p ( y , I ) p ( I ) ) = x p ( x y , I ) log p ( x y , I ) p ( x I )   к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно X  , которое было получено при обнаружении, что Y = y  .

Если впоследствии приходит еще один фрагмент данных, Y 2 = y 2  , то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение p ( x y 1 , y 2 , I )  . Если исследовать заново информационный выигрыш для использования p ( x y 1 , I )  , а не p ( x I )  , оказывается, что это может быть больше или меньше, чем предполагалось ранее: x p ( x y 1 , y 2 , I ) log p ( x y 1 , y 2 , I ) p ( x I )  , может быть   или >  , чем x p ( x y 1 , I ) log p ( x y 1 , I ) p ( x I )  , и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

D K L ( p ( y 1 , y 2 , I ) p ( I ) )  , может быть больше, меньше или равно D K L ( p ( y 1 , y 2 , I ) p ( y 1 , I ) ) + D K L ( p ( y 1 , I ) p ( x I ) ) .  

Все, что можно сказать, что в среднем, беря среднее, используя p ( y 2 y 1 , x , I )  , обе стороны будут давать среднее значение.

Экспериментальная модель БайесаПравить

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информацияПравить

Расстояние Кульбака — Лейблера D K L ( p ( x H 1 ) p ( x H 0 ) )   может также быть интерпретировано как ожидаемая различающая информация для H 1  над H 0  : средняя информация на одну выборку для различия в пользу гипотезы H 1  , против гипотезы H 0  , когда гипотеза H 1   верна[14]. Еще одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для H 1  над H 0  , ожидаемая из каждой выборки.

Ожидаемая масса доказательства для H 1  над H 0   это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, D K L ( p ( x H 1 ) p ( x H 0 ) ) I G = D K L ( p ( H x ) p ( H I ) ) .  .

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределенности обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.

Принцип минимальной различающей информацииПравить

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (англ. Minimum Discrimination Information, MDI): учитывая новые факты, новое распределение f   следует выбрать, из тех, которые трудно отличить от первоначального распределения f 0  ; потому что новые данные производят так мало информационного выигрыша D K L ( f f 0 )   как только возможно.

Например, если мы имеем априорное распределение p ( x , a )   над x   и a  , и потом изучим истинное распределение a   и u ( a )  . РКЛ между новым совместным распределением для x   и a  , q ( x a ) u ( a )  , и прежнего априорного распределения было бы: D K L ( q ( x a ) u ( a ) p ( x , a ) ) = E u ( a ) { D K L ( q ( x a ) p ( x a ) ) } + D K L ( u ( a ) p ( a ) ) ,  

то есть сумма РКЛ p ( a )   априорного распределения для a   из обновленного распределения u ( a )  , плюс ожидаемое значение (используемое вероятностное распределение u ( a )  ) РКЛ априорного условного распределения p ( x a )   из нового распределения p ( x a )  . (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается D K L ( q ( x a ) p ( x a ) )  [15]. Это минимизирует, если q ( x a ) = p ( x a )   над общим содержанием u ( a )  . И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение u ( a )   это по факту функция, уверенно представляющая, что a   имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона становится не очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрестной энтропии. Минимизация РКЛ m   из p   в отношении m   эквивалентна минимизации перекрестной энтропии p   и m  , так H ( p , m ) = H ( p ) + D K L ( p m ) ,   который подходит, если попытаться выбрать точное приближенное значение до p  .

Пример использованияПравить

Пусть по выборке x 1 , x 2 , , x n   из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства f ( x , θ )  , где x X R   — аргумент функции, θ   — неизвестный параметр. Оценка параметра θ   может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью f ( x , θ )   и эмпирической плотностью распределения, считающейся «истинной»,

f ^ ( x ) = 1 n i = 1 n δ ( x x i )  ,

где δ   — функция Дирака:

θ ^ = arg min θ D K L ( f ^ ( x ) , f ( x , θ ) ) = arg max θ X f ^ ( x ) ln f ( x , θ ) d x = arg max θ i = 1 n ln f ( x i , θ )  .

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра θ  . В случае если фактическая плотность распределения случайной величины не принадлежит семейству f ( x , θ )  , найденная оценка θ ^   параметра θ   называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями f ( x , θ )   с точки зрения расстояния Кульбака — Лейблера.

ПримечанияПравить

  1. 1 2 Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.
  2. Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
  3. MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.
  4. Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.
  5. Hobson, Arthur. Concepts in statistical mechanics. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.
  6. Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..
  7. И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.
  8. Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.
  9. Relative Entropy  (неопр.). videolectures.net. Дата обращения: 14 июня 2016. Архивировано 25 декабря 2018 года.
  10. Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.
  11. Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..
  12. Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.
  14. Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .
  15. Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.