f-дивергенция

f-дивергенцией (f-расхождением) называется класс функционалов $\text{[math]}$ $\text{[math]}$ $D_{f}(P\parallel Q)$ $D_{f}(P\parallel Q)$ , определяющих в общем случае несимметричную меру расхождения между двумя распределениями вероятностей $\text{[math]}$ $\text{[math]}$ $P$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ $Q$ . Обычно применяется в теории информации и теории вероятностей. Функционал однозначно определяется (порождается) функцией $\text{[math]}$ $\text{[math]}$ $f(t)$ $f(t)$ , удовлетворяющей определённым условиям.

Данный класс дивергенций был введён и изучался независимо друг от друга учёными Csiszár (1963), Morimoto (1963) и Ali & Silvey (1966). Поэтому иногда можно встретить названия f-дивергенция Чисара, дивергенция Чисара—Моримото или расстояние Али—Силви.

ОпределениеПравить

Пусть $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ — распределения вероятностей, заданные на множестве $\text{[math]}$ $\text{[math]}$ $\Omega$ , такие что $\text{[math]}$ $\text{[math]}$ $P$ абсолютно непрерывно по отношению к $\text{[math]}$ $\text{[math]}$ $Q$ . Пусть функция $\text{[math]}$ $\text{[math]}$ $f(t)$ выпукла при $\text{[math]}$ $\text{[math]}$ $t\geq 0$ и $\text{[math]}$ $\text{[math]}$ $f(1)=0$ . Тогда функция $\text{[math]}$ $\text{[math]}$ $f$ задаёт f-дивергенцию $\text{[math]}$ $\text{[math]}$ $P$ относительно $\text{[math]}$ $\text{[math]}$ $Q$ следующим образом:

\text{[math]}

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {dP}{dQ}}\right)dQ=\operatorname {E} _{Q}f\left({\frac {dP}{dQ}}\right).

Если $\text{[math]}$ $\text{[math]}$ $\mu$ — любая мера на $\text{[math]}$ $\text{[math]}$ $\Omega$ , и оба распределения $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ непрерывны относительно $\text{[math]}$ $\text{[math]}$ $\mu$ , т.е. существуют функции $\text{[math]}$ $\text{[math]}$ $p={\frac {dP}{d\mu }}$ и $\text{[math]}$ $\text{[math]}$ $q={\frac {dQ}{d\mu }}$ , тогда f-дивергенция может быть записана как

\text{[math]}

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p}{q}}\right)q\,d\mu .

В случае лебеговой меры $\text{[math]}$ $\text{[math]}$ $\mu =x$ распределения имеют плотности $\text{[math]}$ $\text{[math]}$ $p(x)$ и $\text{[math]}$ $\text{[math]}$ $q(x)$ , тогда f-дивергенция принимает вид

\text{[math]}

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p(x)}{q(x)}}\right)q(x)\,dx.

Для дискретных распределений $\text{[math]}$ $\text{[math]}$ $P=\{p_{i}\}$ и $\text{[math]}$ $\text{[math]}$ $Q=\{q_{i}\}$ , где $\text{[math]}$ $\text{[math]}$ $i=1,...,N$ ,

\text{[math]}

D_{f}(P\parallel Q)=\sum _{i=1}^{N}f\left({\frac {p_{i}}{q_{i}}}\right)q_{i}.

Нужно заметить, что функция $\text{[math]}$ $\text{[math]}$ $f(t)$ определена с точностью до слагаемого $\text{[math]}$ $\text{[math]}$ $c(t-1)$ , где $\text{[math]}$ $\text{[math]}$ $c$ — произвольная константа. Действительно, вид f-дивергенции не зависит от выбора $\text{[math]}$ $\text{[math]}$ $c$ , поскольку слагаемое $\text{[math]}$ $\text{[math]}$ $c(t-1)$ функции $\text{[math]}$ $\text{[math]}$ $f(t)$ даёт нулевой вклад в значение интеграла. Кроме того, функция $\text{[math]}$ $\text{[math]}$ $f(t)$ может содержать положительную мультипликативную константу $\text{[math]}$ $\text{[math]}$ $k$ , которая определяет единицу измерения дивергенции. В связи с этим некоторые авторы (например, Basseville (2010)) указывают дополнительные ограничения, налагаемые на функцию $\text{[math]}$ $\text{[math]}$ $f(t)$ :

\text{[math]}

f'(1)=0,

\text{[math]}

f''(1)=1.

Первое из этих ограничений фиксирует константу $\text{[math]}$ $\text{[math]}$ $c$ , второе — константу $\text{[math]}$ $\text{[math]}$ $k$ . Условие $\text{[math]}$ $\text{[math]}$ $f'(1)=0$ может быть полезно тем, что в этом случае $\text{[math]}$ $\text{[math]}$ $f(t)\geq 0$ с минимумом в точке $\text{[math]}$ $\text{[math]}$ $t=1$ (см. Liese & Vajda (2006)), и выражение для f-дивергенции интуитивно проще воспринимается. Однако такой способ конкретизировать функцию $\text{[math]}$ $\text{[math]}$ $f(t)$ не всегда удобен: например, для существования непрерывной версии f-энтропии, связанной с данной f-дивергенцией, может потребоваться другое значение константы $\text{[math]}$ $\text{[math]}$ $c$ .

f-дивергенция может быть разложена в ряд Тейлора и записана в виде взвешенной суммы расстояний χ-типа (см. Nielsen & Nock (2013)).

Частные случаи f-дивергенцииПравить

Многие известные дивергенции, такие как дивергенция Кульбака—Лейблера, квадрат расстояния Хеллингера, расстояние хи-квадрат и ряд других, являются частными случаями f-дивергенции, которым соответствует определённый выбор функции $\text{[math]}$ $\text{[math]}$ $f(t)$ . В следующей таблице приведены некоторые распространённые виды дивергенций между распределениями вероятностей и соответствующая им функция $\text{[math]}$ $\text{[math]}$ $f(t)$ (см. Liese & Vajda (2006)).

Дивергенция	Порождающая функция $\text{[math]}$ $\text{[math]}$ $f(t)$
Дивергенция Кульбака—Лейблера	$\text{[math]}$ $\text{[math]}$ $t\ln t$
Обратная Дивергенция Кульбака—Лейблера	$\text{[math]}$ $\text{[math]}$ $-\ln t$
Квадрат расстояния Хеллингера	$\text{[math]}$ $\text{[math]}$ ${\frac {1}{2}}({\sqrt {t}}-1)^{2},\,1-{\sqrt {t}},\,t-{\sqrt {t}}$
Расстояние полной вариации	$\text{[math]}$ $\text{[math]}$ ${\frac {1}{2}}\|t-1\|\,$
Расстояние $\text{[math]}$ $\text{[math]}$ $\chi ^{2}$ Пирсона	$\text{[math]}$ $\text{[math]}$ $(t-1)^{2},\,t^{2}-1,\,t^{2}-t$
Расстояние $\text{[math]}$ $\text{[math]}$ $\chi ^{2}$ Неймана	$\text{[math]}$ $\text{[math]}$ ${\frac {1}{t}}-1,\,{\frac {1}{t}}-t$
Альфа-дивергенция	$\text{[math]}$ $\text{[math]}$ ${\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}t-t^{(1+\alpha )/2}{\big )},&{\text{если}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{если}}\ \alpha =1,\\-\ln t,&{\text{если}}\ \alpha =-1\end{cases}}$
Альфа-дивергенция (другие обозначения)	$\text{[math]}$ $\text{[math]}$ ${\begin{cases}{\frac {t^{\alpha }-t}{\alpha (\alpha -1)}},&{\text{если}}\ \alpha \neq 0,\,\alpha \neq 1,\\t\ln t,&{\text{если}}\ \alpha =1,\\-\ln t,&{\text{если}}\ \alpha =0\end{cases}}$

СвойстваПравить

Неотрицательность: ƒ-дивергенция всегда неотрицательна, и равна нулю, только если распределения $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ совпадают. Это непосредственно следует из неравенства Йенсена:
$\text{[math]}$ $\text{[math]}$ $D_{f}(P\!\parallel \!Q)=\int _{\Omega }\!f{\bigg (}{\frac {dP}{dQ}}{\bigg )}dQ\geq f{\bigg (}\int _{\Omega }{\frac {dP}{dQ}}dQ{\bigg )}=f(1)=0.$
Монотонность: если $\text{[math]}$ $\text{[math]}$ $\kappa$ — произвольная переходная вероятность, которая переводит меры $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ соответственно в $\text{[math]}$ $\text{[math]}$ $P_{\kappa }$ и $\text{[math]}$ $\text{[math]}$ $Q_{\kappa }$ , тогда
$\text{[math]}$ $\text{[math]}$ $D_{f}(P\!\parallel \!Q)\geq D_{f}(P_{\kappa }\!\parallel \!Q_{\kappa }).$
Равенство здесь имеет место тогда и только тогда, когда переход порождается достаточной статистикой по отношению к $\text{[math]}$ $\text{[math]}$ $\{P,Q\}$ .
Совместная выпуклость: для любого $\text{[math]}$ $\text{[math]}$ $0\leq \lambda \leq 1$
$\text{[math]}$ $\text{[math]}$ $D_{f}{\Big (}\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2}{\Big )}\leq \lambda D_{f}(P_{1}\!\parallel \!Q_{1})+(1-\lambda )D_{f}(P_{2}\!\parallel \!Q_{2}).$
Это следует из выпуклости отображения $\text{[math]}$ $\text{[math]}$ $(p,q)\mapsto qf(p/q)$ на $\text{[math]}$ $\text{[math]}$ $\mathbb {R} _{+}^{2}$ .
Самодвойственность: если $\text{[math]}$ $\text{[math]}$ $D(P\parallel Q)$ является f-дивергенцией, то $\text{[math]}$ $\text{[math]}$ $D(Q\parallel P)$ тоже является f-дивергенцией, т.е. класс f-дивергенций содержит как прямые, так и обратные (двойственные) дивергенции. Действительно,
$\text{[math]}$ $\text{[math]}$ ${D^{*}}_{f}(P\parallel Q){\stackrel {\mathrm {df} }{\;=\;}}D_{f}(Q\parallel P)=\int _{\Omega }f\left({\frac {dQ}{dP}}\right)dP=\int _{\Omega }f^{*}\left({\frac {dP}{dQ}}\right)dQ=D_{f^{*}}(P\parallel Q),$
где $\text{[math]}$ $\text{[math]}$ $f^{*}(t)=tf(1/t)$ — двойственная порождающая функция. Нетрудно видеть, что $\text{[math]}$ $\text{[math]}$ $f^{*}(1)=f(1)=0$ , $\text{[math]}$ $\text{[math]}$ $f^{*}(t)$ непрерывна (кроме, быть может, точки $\text{[math]}$ $\text{[math]}$ $t=0$ ) и $\text{[math]}$ $\text{[math]}$ ${f^{*}}''(t)={\frac {1}{t^{3}}}f''(1/t)\geq 0$ почти всюду на $\text{[math]}$ $\text{[math]}$ $t\geq 0$ в силу выпуклости $\text{[math]}$ $\text{[math]}$ $f$ , т.е. функция $\text{[math]}$ $\text{[math]}$ $f^{*}(t)$ удовлетворяет условиям порождающей функции f-дивергенции.

С учётом последнего свойства класс f-дивергенций можно было бы эквивалентным образом определить как $\text{[math]}$ $\text{[math]}$ ${D^{*}}_{f}(P\parallel Q)=\operatorname {E} _{P}f\left({\frac {dQ}{dP}}\right)$ . Подобное определение встречается, например, у Zhang (2004). Таким образом, интерпретация распределения $\text{[math]}$ $\text{[math]}$ $Q$ как истинного, которая следует из определения f-дивергенции, не является её фундаментальным свойством, а является лишь следствием соглашения о порядке следования аргументов в определении. Иными словами, аргументы $\text{[math]}$ $\text{[math]}$ $P$ и $\text{[math]}$ $\text{[math]}$ $Q$ концептуально равноправны.

Также стоит отметить, что f-дивергенция является безразмерной величиной независимо от размерности множества $\text{[math]}$ $\text{[math]}$ $\Omega$ .

Связанные понятияПравить

Кроме f-дивергенции, И. Чисар определил связанное с ней понятие f-энтропии (Csiszár (1972)).

СсылкиПравить

Csiszár, I. Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten (нем.) // Magyar. Tud. Akad. Mat. Kutato Int. Kozl : magazin. — 1963. — Bd. 8. — S. 85—108.
Morimoto, T. Markov processes and the H-theorem (англ.) // J. Phys. Soc. Jpn. (англ.) (рус. : journal. — 1963. — Vol. 18, no. 3. — P. 328—331. — doi:10.1143/JPSJ.18.328. — Bibcode: 1963JPSJ...18..328M.
Ali, S. M.; Silvey, S. D. A general class of coefficients of divergence of one distribution from another (англ.) // Journal of the Royal Statistical Society, Series B (англ.) (рус. : journal. — 1966. — Vol. 28, no. 1. — P. 131—142. — JSTOR 2984279.
Liese, F.; Vajda, I. On divergences and informations in statistics and information theory (англ.) // IEEE Transactions on Information Theory (англ.) (рус. : journal. — 2006. — Vol. 52, no. 10. — P. 4394—4412. — doi:10.1109/TIT.2006.881731.
Nielsen, F.; Nock, R. On the Chi square and higher-order Chi distances for approximating f-divergences (англ.) // IEEE Signal Processing Letters : journal. — 2013. — Vol. 21. — P. 10—13. — doi:10.1109/LSP.2013.2288355. — Bibcode: 2014ISPL...21...10N. — arXiv:1309.3029.
Basseville, M. Divergence measures for statistical data processing (англ.) // Publications Internes de l’IRISA : journal. — 2010. — Vol. 11. — P. 1—23.
Zhang, J. Divergence Function, Duality, and Convex Analysis (англ.) // Neural Computation (англ.) (рус.. — 2004. — Vol. 16. — P. 159—195.
Csiszár, I. A class of measures of informativity of observation channels (англ.) // Periodica Math. Hungar : journal. — 1972. — Vol. 2. — P. 191—213.