Это не официальный сайт wikipedia.org 01.01.2023

Оценка Чернова — Википедия

Оценка Чернова

Оценка Чернова даёт экспоненциально убывающие оценки вероятности больших отклонений сумм независимых случайных величин. Эти оценки являются более точными, чем оценки, полученные с использованием первых или вторых моментов, такие как неравенство Маркова или неравенство Чебышёва, которые дают лишь степенной закон убывания. Вместе с тем оценка Чернова требует, чтобы случайные величины были независимы в совокупности — условие, которое ни неравенство Маркова, ни неравенство Чебышёва не требуют, хотя неравенство Чебышёва требует попарную независимость случайных величин.

Оценка Чернова имеет отношение к неравенствам Бернштейна[en] и неравенству Хёфдинга, которые ей исторически предшествуют.

Основной случайПравить

Основной случай оценки Чернова для случайной величины X   достигается применением неравенства Маркова к etX [1]. Для каждого t > 0  

P ( X a ) = P ( e t X e t a ) E [ e t X ] e t a .  

Когда X является суммой n случайных величин X1, ... ,Xn, для любого t > 0  

P ( X a ) e t a E [ i e t X i ] .  

В частности, оптимизируя по t и предполагая, что Xi независимы, мы получаем

P ( X a ) min t > 0 e t a i E [ e t X i ] .   (1)

Аналогично

P ( X a ) = P ( e t X e t a )  

и, таким образом,

P ( X a ) min t > 0 e t a i E [ e t X i ] .  

Конкретные значения оценок Чернова получаются вычислением E [ e t X i ]  для конкретных величин X i  .

ПримерПравить

Пусть X1, ..., Xn — независимые случайные величины Бернулли, сумма которых X, и каждая равна 1 с вероятностью p > 0.5  . Для переменной Бернулли верно:

E [ e t X i ] = ( 1 p ) e 0 + p e t = 1 + p ( e t 1 ) e p ( e t 1 ) ,  

следовательно,

E [ e t X ] e n p ( e t 1 ) .  

Для всякого δ > 0   при t = ln ( 1 + δ ) > 0   и a = ( 1 + δ ) n p   получаем

E [ e t X ] e δ n p   , e t a = 1 ( 1 + δ ) ( 1 + δ ) n p ,  

и общий случай оценки Чернова даёт[2]:64

P [ X ( 1 + δ ) n p ] e δ n p ( 1 + δ ) ( 1 + δ ) n p = [ e δ ( 1 + δ ) 1 + δ ] n p .  

Вероятность одновременного свершения более чем n/2 событий {Xk = 1} в точности равна:

P [ X > n 2 ] = i = n 2 + 1 n ( n i ) p i ( 1 p ) n i .  

Нижнюю оценку этой вероятности можно вычислить с помощью неравенства Чернова:

P [ X > n 2 ] 1 e 1 2 p n ( p 1 2 ) 2 .  

В самом деле, обозначая μ = np, мы получаем мультипликативную форму оценки Чернова (см. ниже или Corollary 13.3 in Sinclair's class notes)[3]:

P ( X n 2 ) = P ( X ( 1 ( 1 1 2 p ) ) μ ) e μ 2 ( 1 1 2 p ) 2 = e n 2 p ( p 1 2 ) 2 .  

Этот результат допускает разнообразные обобщения, как отмечено ниже. Можно отметить несколько форм оценок Чернова: исходную аддитивную форму (даёт оценку для абсолютной ошибки) или более практичную мультипликативную форму (ограничивает ошибку по отношению к среднему).

Аддитивная форма (оценка для абсолютной ошибки)Править

Следующая Теорема была доказана Василием Хёфдингом[4].

Теорема Чернова — Хёфдинга. Пусть X1, ..., Xnнезависимые одинаково распределённые случайные величины, принимающие значения {0, 1}.
Положим p = E[X] и ε > 0. Тогда
P ( 1 n X i p + ε ) ( ( p p + ε ) p + ε ( 1 p 1 p ε ) 1 p ε ) n = e D ( p + ε p ) n , P ( 1 n X i p ε ) ( ( p p ε ) p ε ( 1 p 1 p + ε ) 1 p + ε ) n = e D ( p ε p ) n ,  
где
D ( x y ) = x ln x y + ( 1 x ) ln ( 1 x 1 y ) .  
Это расхождение Кульбака — Лейблера между случайными величинами, имеющими бернуллиево распределение с параметрами x и y соответственно. Если p12, то
P ( X i > n p + x ) exp ( x 2 2 n p ( 1 p ) ) .  

Более простая оценка получается ослаблением этой теоремы, используя неравенство D(p + ε || p) ≥ 2ε2, которое следует из выпуклости D(p + ε || p) и того факта, что

d 2 d ε 2 D ( p + ε p ) = 1 ( p + ε ) ( 1 p ε ) 4 = d 2 d ε 2 ( 2 ε 2 ) .  

Этот результат является частным случаем неравенства Хёфдинга. В некоторых случаях используются оценки

D ( ( 1 + x ) p p ) 1 4 x 2 p , 1 2 x 1 2 , D ( x y ) 3 ( x y ) 2 2 ( 2 y + x ) , D ( x y ) ( x y ) 2 2 y , x y , D ( x y ) ( x y ) 2 2 x , x y  

более сильные при p < 18.

Мультипликативная форма (оценка для относительной ошибки)Править

Мультипликативная оценка Чернова. Пусть X1, ..., Xnнезависимые случайные величины, принимающие значения {0, 1}. Их сумму обозначим X, математическое ожидание этой суммы обозначим μ. Тогда для всякого δ 0  
P ( X ( 1 + δ ) μ ) ( e δ ( 1 + δ ) 1 + δ ) μ .  

Аналогичным образом можно показать, что для любого 0 < δ < 1 ,  

P ( X ( 1 δ ) μ ) ( e δ ( 1 δ ) 1 δ ) μ .  

На практике вышеприведённая формула часто оказывается громоздкой[2], поэтому используются более слабые, но удобные оценки

P ( X ( 1 δ ) μ ) e δ 2 μ 2 , 0 < δ < 1 ,  
P ( X ( 1 + δ ) μ ) e δ 2 μ 2 + δ , 0 δ ,  

которые получаются с помощью неравенства 2 δ 2 + δ ln ( 1 + δ )   из списка логарифмических неравенств[5]. Или ещё более слабое неравенство

P ( X ( 1 + δ ) μ ) e δ 2 μ 3 , 0 < δ 1.  

ПриложенияПравить

Оценки Чернова имеют приложения в уравновешивании множеств и маршрутизации пакетов в разреженных сетях.

Проблема уравновешения множества возникает при проектировании статистического эксперимента. Как правило, при проектировании статистического эксперимента с заданными в этом эксперименте свойствами участников нам необходимо разделить участников на две непересекающиеся группы так, чтобы каждое свойство было, насколько это возможно, сбалансировано между двумя группами. См. также информацию в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Архивная копия от 16 апреля 2021 на Wayback Machine.

Оценки Чернова также используются для достижения жестких границ в задачах маршрутизации с использованием перестановок. Это уменьшает перегруженность при маршрутизации в разреженных сетях. См. подробнее в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Архивная копия от 16 апреля 2021 на Wayback Machine.

Также оценки Чернова находят применение в теории вычислительного обучения для доказательства того, что обучающий алгоритм аппроксимационно по вероятности корректен. То есть с высокой вероятностью этот алгоритм имеет малую ошибку на достаточно большом наборе тренировочных данных[6].

Оценки Чернова могут быть эффективно использованы для оценки "уровня робастности" приложения/алгоритма посредством исследования его пространства возмущений при помощи рандомизации.[7]

Матричная оценкаПравить

Рудольф Альсведе[en] и Андреас Винтер[en] использовали оценки Чернова для случайных величин с матричными значениями.[8] Следующую версию неравенства можно найти в работе Троппа.[9]

Пусть M1, ..., Mt — случайные величины с матричными значениями такие, что M i C d 1 × d 2   и E [ M i ] = 0  . Обозначим M   оператор нормы матрицы M  . Если неравенство M i γ   почти наверное выполнено для всех i { 1 , , t }  , то для каждого ε > 0

P ( 1 t i = 1 t M i > ε ) ( d 1 + d 2 ) exp ( 3 ε 2 t 8 γ 2 ) .  

Чтобы заключить, что отклонение от 0 ограничено величиной ε с высокой вероятностью, нам нужно выбрать t   (количество образцов) пропорциональным логарифму d 1 + d 2  . В общем случае зависимость от ln ( min ( d 1 , d 2 ) )   неочевидна: например, возьмём диагональную случайную матрицу знаков размерности d × d  . Оператор нормы суммы t   независимых образцов является в точности максимальным отклонением среди d   независимых случайных блужданий длины t  . Для того, чтобы достичь фиксированную границу максимального отклонения с постоянной вероятностью, t   должно логарифмически возрастать вместе с d  .[10]

Следующая теорема получена в предположении, что M   имеет низкий ранг, для того, чтобы избежать зависимости от размерности.

Теорема без зависимости от размерностиПравить

Пусть 0 < ε < 1 и M   ─ случайная симметрическая вещественная матрица с E [ M ] 1   и M γ   почти наверное. Предположим, что каждый элемент носителя M   имеет ранг самое большее r  . Положим

t = Ω ( γ ln ( γ / ε 2 ) ε 2 ) .  

Если r t   почти наверное, то

P ( 1 t i = 1 t M i E [ M ] > ε ) 1 p o l y ( t ) ,  

где M1, ..., Mt — это независимые одинаково распределенные копии M  .

Теорема для не полностью случайных матрицПравить

Анкит Гарг, Инь Тат Ли, Чжао Сонг и Нихил Шривастава[en][11] получили оценки типа Чернова для сумм матричнозначных случайных величин, семплированных с помощью случайного блуждания экспандера.

Расмус Кинг и Чжао Сонг[12] получили оценки типа Чернова для сумм матриц лапласианов случайных деревьев.

Вариант семплингаПравить

Следующий вариант оценки Чернова можно использовать для оценки вероятности того, что большинство популяции станет в выборке меньшинством и наоборот.[13]

Предположим, имеется общая популяция A   и подпопуляция B A  . Обозначим относительный размер подпопуляции ( | B | / | A |  ) через r  .

Допустим, мы выбираем целое кисло k   и случайную выборку S A   размера k  . Обозначим относительный размер подпопуляции ( | B S | / | S |  ) через r S  .

Тогда для каждой доли d [ 0 , 1 ]  :

P ( r S < ( 1 d ) r ) < exp ( r d 2 k / 2 ) .  

В частности, если B   ─ это большинство в A   (то есть, r > 0.5  ), то мы можем оценить сверху вероятность того, что B   останется большинством в S ( r S > 0.5 ) ,   взяв d = 1 1 2 r  [14]:

P ( r S > 0.5 ) > 1 exp ( r ( 1 1 2 r ) 2 k / 2 ) .  

Эта оценка, разумеется, не является точной. Например, если r = 0.5  , то мы получаем тривиальную оценку P > 0  .

ДоказательстваПравить

Теорема Чернова-Хёфдинга (аддитивная форма)Править

Пусть q = p + ε. Взяв a = nq в формуле (1), получаем:

P ( 1 n X i q ) inf t > 0 E [ e t X i ] e t n q = inf t > 0 ( E [ e t X i ] e t q ) n .  

Теперь, зная что Pr(Xi = 1) = p, Pr(Xi = 0) = 1 − p, имеем

( E [ e t X i ] e t q ) n = ( p e t + ( 1 p ) e t q ) n = ( p e ( 1 q ) t + ( 1 p ) e q t ) n .  

Таким образом, мы можем легко вычислить минимум, используя технику дифференцирования:

d d t ( p e ( 1 q ) t + ( 1 p ) e q t ) = ( 1 q ) p e ( 1 q ) t q ( 1 p ) e q t .  

Приравнивая полученное выражение к нулю и разрешая уравнение относительно t  , получаем

( 1 q ) p e ( 1 q ) t = q ( 1 p ) e q t ( 1 q ) p e t = q ( 1 p )  

так что

e t = ( 1 p ) q ( 1 q ) p .  

Следовательно,

t = ln ( ( 1 p ) q ( 1 q ) p ) .  

Поскольку q = p + ε > p, то мы видим, что t > 0, так что наша оценка удовлетворяется по t. Получив t, мы можем вернуться в предыдущие уравнения и найти

ln ( p e ( 1 q ) t + ( 1 p ) e q t ) = ln ( e q t ( 1 p + p e t ) ) = ln ( e q ln ( ( 1 p ) q ( 1 q ) p ) ) + ln ( 1 p + p e ln ( 1 p 1 q ) e ln q p ) = q ln 1 p 1 q q ln q p + ln ( 1 p + p ( 1 p 1 q ) q p ) = q ln 1 p 1 q q ln q p + ln ( ( 1 p ) ( 1 q ) 1 q + ( 1 p ) q 1 q ) = q ln q p + ( q ln 1 p 1 q + ln 1 p 1 q ) = q ln q p + ( 1 q ) ln 1 p 1 q = D ( q p ) .  

Теперь мы имеем желаемый результат, поскольку

P ( 1 n X i p + ε ) e D ( p + ε p ) n .  

Для завершения доказательства в симметрическом случае мы попросту определим случайную величину Yi = 1 − Xi, применим к ней точно такое же доказательство и присоединим результат к нашей оценке.

Мультипликативная формаПравить

Положим Pr(Xi = 1) = pi. Согласно формуле (1),

P ( X ( 1 + δ ) μ ) inf t > 0 E [ i = 1 n e t X i ] e t ( 1 + δ ) μ = inf t > 0 i = 1 n E [ e t X i ] e t ( 1 + δ ) μ = inf t > 0 i = 1 n [ p i e t + ( 1 p i ) ] e t ( 1 + δ ) μ .  

Третья строчка следует из того, что e t X i   принимает значение et с вероятностью pi и значение 1 с вероятностью 1 − pi. Это идентично вычислениям выше в доказательстве аддитивной формы.

Переписав p i e t + ( 1 p i )   как p i ( e t 1 ) + 1   и вспомнив, что 1 + x e x   (если x > 0, то неравенство строгое), мы положим x = p i ( e t 1 )  . Тот же результат можно получить, напрямую заменяя a в уравнении для оценки Чернова на (1 + δ)μ.[15]

Таким образом,

P ( X ( 1 + δ ) μ ) i = 1 n e p i ( e t 1 ) e t ( 1 + δ ) μ = e ( ( e t 1 ) i = 1 n p i ) e t ( 1 + δ ) μ = e ( e t 1 ) μ e t ( 1 + δ ) μ .  

Если мы просто положим t = ln(1 + δ), так что t > 0 для δ > 0, то сможем подставить это в последнее выражение и найти

e ( e t 1 ) μ e t ( 1 + δ ) μ = e ( 1 + δ 1 ) μ ( 1 + δ ) ( 1 + δ ) μ = [ e δ ( 1 + δ ) ( 1 + δ ) ] μ  ,

что и требовалось доказать.

См. такжеПравить

СсылкиПравить

  1. Этот метод был впервые применён Сергеем Бернштейном в доказательствах, связанных с неравенствами Бернштейна[en].
  2. 1 2 Mitzenmacher, Michael, & Upfal, Eli. Probability and Computing: Randomized Algorithms and Probabilistic Analysis. — Cambridge University Press, 2005. — ISBN 978-0-521-83540-4. — doi:10.1017/CBO9780511813603.005. Архивная копия от 16 апреля 2021 на Wayback Machine
  3. Sinclair, Alistair Class notes for the course "Randomness and Computation"  (неопр.) (Fall 2011). Дата обращения: 30 октября 2014. Архивировано из оригинала 31 октября 2014 года.
  4. Hoeffding, W. (1963). “Probability Inequalities for Sums of Bounded Random Variables” (PDF). Journal of the American Statistical Association. 58 (301): 13—30. DOI:10.2307/2282952. JSTOR 2282952.
  5. Useful Inequalities. logarithm  (неопр.). Дата обращения: 13 мая 2020. Архивировано 19 августа 2020 года.
  6. M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. Chapter 9 (Appendix), pages 190-192. MIT Press, 1994.
  7. C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283ppISBN 978-3-319-05278-6.
  8. Ahlswede, R.; Winter, A. (2003). “Strong Converse for Identification via Quantum Channels”. IEEE Transactions on Information Theory[en]. 48 (3): 569—579. arXiv:quant-ph/0012127. DOI:10.1109/18.985947.
  9. Tropp, J. (2010). “User-friendly tail bounds for sums of random matrices”. Foundations of Computational Mathematics. 12 (4): 389—434. arXiv:1004.4389. DOI:10.1007/s10208-011-9099-z.
  10. Magen, A. & Zouzias, A. (2011), Low Rank Matrix-Valued Chernoff Bounds and Approximate Matrix Multiplication, arΧiv:1005.2724 [cs.DM]. 
  11. Ankit Garg, Yin Tat Lee, Zhao Song, Nikhil Srivastava. A Matrix Expander Chernoff Bound // Association for Computing MachineryNew YorkNYUnited States. — 2018. Архивировано 14 апреля 2021 года.
  12. Rasmus Kyng, Zhao Song. A Matrix Chernoff Bound for Strongly Rayleigh Distributions and Spectral Sparsifiers from a few Random Spanning Trees // FOCS. — 2018. — 1 октября. Архивировано 22 апреля 2021 года.
  13. Goldberg, A. V. Competitive Auctions for Multiple Digital Goods // Algorithms — ESA 2001 / A. V. Goldberg, J. D. Hartline. — 2001. — Vol. 2161. — P. 416. — ISBN 978-3-540-42493-2. — doi:10.1007/3-540-44676-1_35.; lemma 6.1
  14. Посмотреть графики: граница как функция от r с меняющимся k Архивная копия от 4 января 2015 на Wayback Machine и граница как функция от k с меняющимся r Архивная копия от 4 января 2015 на Wayback Machine.
  15. Обратитесь к приведенному выше доказательству.

Дальнейшее чтениеПравить