f-дивергенция
f-дивергенцией (f-расхождением) называется класс функционалов , определяющих в общем случае несимметричную меру расхождения между двумя распределениями вероятностей и . Обычно применяется в теории информации и теории вероятностей. Функционал однозначно определяется (порождается) функцией , удовлетворяющей определённым условиям.
Данный класс дивергенций был введён и изучался независимо друг от друга учёными Csiszár (1963), Morimoto (1963) и Ali & Silvey (1966). Поэтому иногда можно встретить названия f-дивергенция Чисара, дивергенция Чисара—Моримото или расстояние Али—Силви.
ОпределениеПравить
Пусть и — распределения вероятностей, заданные на множестве , такие что абсолютно непрерывно по отношению к . Пусть функция выпукла при и . Тогда функция задаёт f-дивергенцию относительно следующим образом:
Если — любая мера на , и оба распределения и непрерывны относительно , т.е. существуют функции и , тогда f-дивергенция может быть записана как
В случае лебеговой меры распределения имеют плотности и , тогда f-дивергенция принимает вид
Для дискретных распределений и , где ,
Нужно заметить, что функция определена с точностью до слагаемого , где — произвольная константа. Действительно, вид f-дивергенции не зависит от выбора , поскольку слагаемое функции даёт нулевой вклад в значение интеграла. Кроме того, функция может содержать положительную мультипликативную константу , которая определяет единицу измерения дивергенции. В связи с этим некоторые авторы (например, Basseville (2010)) указывают дополнительные ограничения, налагаемые на функцию :
Первое из этих ограничений фиксирует константу , второе — константу . Условие может быть полезно тем, что в этом случае с минимумом в точке (см. Liese & Vajda (2006)), и выражение для f-дивергенции интуитивно проще воспринимается. Однако такой способ конкретизировать функцию не всегда удобен: например, для существования непрерывной версии f-энтропии, связанной с данной f-дивергенцией, может потребоваться другое значение константы .
f-дивергенция может быть разложена в ряд Тейлора и записана в виде взвешенной суммы расстояний χ-типа (см. Nielsen & Nock (2013)).
Частные случаи f-дивергенцииПравить
Многие известные дивергенции, такие как дивергенция Кульбака—Лейблера, квадрат расстояния Хеллингера, расстояние хи-квадрат и ряд других, являются частными случаями f-дивергенции, которым соответствует определённый выбор функции . В следующей таблице приведены некоторые распространённые виды дивергенций между распределениями вероятностей и соответствующая им функция (см. Liese & Vajda (2006)).
Дивергенция | Порождающая функция |
---|---|
Дивергенция Кульбака—Лейблера | |
Обратная Дивергенция Кульбака—Лейблера | |
Квадрат расстояния Хеллингера | |
Расстояние полной вариации | |
Расстояние Пирсона | |
Расстояние Неймана | |
Альфа-дивергенция | |
Альфа-дивергенция (другие обозначения) |
СвойстваПравить
- Неотрицательность: ƒ-дивергенция всегда неотрицательна, и равна нулю, только если распределения и совпадают. Это непосредственно следует из неравенства Йенсена:
- Монотонность: если — произвольная переходная вероятность, которая переводит меры и соответственно в и , тогда
- Совместная выпуклость: для любого
- Самодвойственность: если является f-дивергенцией, то тоже является f-дивергенцией, т.е. класс f-дивергенций содержит как прямые, так и обратные (двойственные) дивергенции. Действительно,
С учётом последнего свойства класс f-дивергенций можно было бы эквивалентным образом определить как . Подобное определение встречается, например, у Zhang (2004). Таким образом, интерпретация распределения как истинного, которая следует из определения f-дивергенции, не является её фундаментальным свойством, а является лишь следствием соглашения о порядке следования аргументов в определении. Иными словами, аргументы и концептуально равноправны.
Также стоит отметить, что f-дивергенция является безразмерной величиной независимо от размерности множества .
Связанные понятияПравить
Кроме f-дивергенции, И. Чисар определил связанное с ней понятие f-энтропии (Csiszár (1972)).
СсылкиПравить
- Csiszár, I. Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten (нем.) // Magyar. Tud. Akad. Mat. Kutato Int. Kozl : magazin. — 1963. — Bd. 8. — S. 85—108.
- Morimoto, T. Markov processes and the H-theorem (англ.) // J. Phys. Soc. Jpn. (англ.) (рус. : journal. — 1963. — Vol. 18, no. 3. — P. 328—331. — doi:10.1143/JPSJ.18.328. — Bibcode: 1963JPSJ...18..328M.
- Ali, S. M.; Silvey, S. D. A general class of coefficients of divergence of one distribution from another (англ.) // Journal of the Royal Statistical Society, Series B (англ.) (рус. : journal. — 1966. — Vol. 28, no. 1. — P. 131—142. — JSTOR 2984279.
- Liese, F.; Vajda, I. On divergences and informations in statistics and information theory (англ.) // IEEE Transactions on Information Theory (англ.) (рус. : journal. — 2006. — Vol. 52, no. 10. — P. 4394—4412. — doi:10.1109/TIT.2006.881731.
- Nielsen, F.; Nock, R. On the Chi square and higher-order Chi distances for approximating f-divergences (англ.) // IEEE Signal Processing Letters : journal. — 2013. — Vol. 21. — P. 10—13. — doi:10.1109/LSP.2013.2288355. — Bibcode: 2014ISPL...21...10N. — arXiv:1309.3029.
- Basseville, M. Divergence measures for statistical data processing (англ.) // Publications Internes de l’IRISA : journal. — 2010. — Vol. 11. — P. 1—23.
- Zhang, J. Divergence Function, Duality, and Convex Analysis (англ.) // Neural Computation (англ.) (рус.. — 2004. — Vol. 16. — P. 159—195.
- Csiszár, I. A class of measures of informativity of observation channels (англ.) // Periodica Math. Hungar : journal. — 1972. — Vol. 2. — P. 191—213.