Оценка Чернова

Оценка Чернова даёт экспоненциально убывающие оценки вероятности больших отклонений сумм независимых случайных величин. Эти оценки являются более точными, чем оценки, полученные с использованием первых или вторых моментов, такие как неравенство Маркова или неравенство Чебышёва, которые дают лишь степенной закон убывания. Вместе с тем оценка Чернова требует, чтобы случайные величины были независимы в совокупности — условие, которое ни неравенство Маркова, ни неравенство Чебышёва не требуют, хотя неравенство Чебышёва требует попарную независимость случайных величин.

Оценка Чернова имеет отношение к неравенствам Бернштейна^[en] и неравенству Хёфдинга, которые ей исторически предшествуют.

Основной случайПравить

Основной случай оценки Чернова для случайной величины $\text{[math]}$ $\text{[math]}$ $X$ достигается применением неравенства Маркова к $\text{[math]}$ e^tX ^[1]. Для каждого $\text{[math]}$ $\text{[math]}$ $t>0$

\text{[math]}

P(X\geq a)=P(e^{t\cdot X}\geq e^{t\cdot a})\leq {\frac {\mathrm {E} \left[e^{t\cdot X}\right]}{e^{t\cdot a}}}.

Когда $\text{[math]}$ X является суммой $\text{[math]}$ n случайных величин $\text{[math]}$ X₁, ... ,X_n, для любого $\text{[math]}$ $\text{[math]}$ $t>0$

\text{[math]}

P(X\geq a)\leq e^{-ta}\mathrm {E} \left[\prod _{i}e^{t\cdot X_{i}}\right].

В частности, оптимизируя по t и предполагая, что $\text{[math]}$ X_i независимы, мы получаем

\text{[math]}

P(X\geq a)\leq \min _{t>0}e^{-ta}\prod _{i}\mathrm {E} \left[e^{tX_{i}}\right].

(1)

Аналогично

\text{[math]}

P(X\leq a)=P\left(e^{-tX}\geq e^{-ta}\right)

и, таким образом,

\text{[math]}

P(X\leq a)\leq \min _{t>0}e^{ta}\prod _{i}\mathrm {E} \left[e^{-tX_{i}}\right].

Конкретные значения оценок Чернова получаются вычислением $\text{[math]}$ $\text{[math]}$ $\mathrm {E} \left[e^{-t\cdot X_{i}}\right]$ для конкретных величин $\text{[math]}$ $\text{[math]}$ $X_{i}$ .

ПримерПравить

Пусть $\text{[math]}$ X₁, ..., X_n — независимые случайные величины Бернулли, сумма которых $\text{[math]}$ X, и каждая равна 1 с вероятностью $\text{[math]}$ $\text{[math]}$ $p>0.5$ . Для переменной Бернулли верно:

\text{[math]}

\mathrm {E} \left[e^{t\cdot X_{i}}\right]=(1-p)e^{0}+pe^{t}=1+p(e^{t}-1)\leq e^{p(e^{t}-1)},

следовательно,

\text{[math]}

\mathrm {E} \left[e^{t\cdot X}\right]\leq e^{n\cdot p(e^{t}-1)}.

Для всякого $\text{[math]}$ $\text{[math]}$ $\delta >0$ при $\text{[math]}$ $\text{[math]}$ $t=\ln(1+\delta )>0$ и $\text{[math]}$ $\text{[math]}$ $a=(1+\delta )np$ получаем

\text{[math]}

\mathrm {E} \left[e^{t\cdot X}\right]\leq e^{\delta np}

,

\text{[math]}

e^{-ta}={\frac {1}{(1+\delta )^{(1+\delta )np}}},

и общий случай оценки Чернова даёт^[2]^:64

\text{[math]}

P[X\geq (1+\delta )np]\leq {\frac {e^{\delta np}}{(1+\delta )^{(1+\delta )np}}}=\left[{\frac {e^{\delta }}{(1+\delta )^{1+\delta }}}\right]^{np}.

Вероятность одновременного свершения более чем n/2 событий $\text{[math]}$ {X_k = 1} в точности равна:

\text{[math]}

P\left[X>{n \over 2}\right]=\sum _{i=\lfloor {\tfrac {n}{2}}\rfloor +1}^{n}{\binom {n}{i}}p^{i}(1-p)^{n-i}.

Нижнюю оценку этой вероятности можно вычислить с помощью неравенства Чернова:

\text{[math]}

P\left[X>{n \over 2}\right]\geq 1-e^{-{\frac {1}{2p}}n\left(p-{\frac {1}{2}}\right)^{2}}.

В самом деле, обозначая $\text{[math]}$ μ = np, мы получаем мультипликативную форму оценки Чернова (см. ниже или Corollary 13.3 in Sinclair's class notes)^[3]:

\text{[math]}

{\begin{aligned}P\left(X\leq \left\lfloor {\tfrac {n}{2}}\right\rfloor \right)&=P\left(X\leq \left(1-\left(1-{\tfrac {1}{2p}}\right)\right)\mu \right)\\&\leq e^{-{\frac {\mu }{2}}\left(1-{\frac {1}{2p}}\right)^{2}}\\&=e^{-{\frac {n}{2p}}\left(p-{\frac {1}{2}}\right)^{2}.}\end{aligned}}

Этот результат допускает разнообразные обобщения, как отмечено ниже. Можно отметить несколько форм оценок Чернова: исходную аддитивную форму (даёт оценку для абсолютной ошибки) или более практичную мультипликативную форму (ограничивает ошибку по отношению к среднему).

Аддитивная форма (оценка для абсолютной ошибки)Править

Следующая Теорема была доказана Василием Хёфдингом^[4].

Теорема Чернова — Хёфдинга. Пусть $\text{[math]}$ X₁, ..., X_n — независимые одинаково распределённые случайные величины, принимающие значения $\text{[math]}$ {0, 1}.

Положим $\text{[math]}$ p = E[X] и $\text{[math]}$ ε > 0. Тогда

\text{[math]}

{\begin{aligned}P\left({\frac {1}{n}}\sum X_{i}\geq p+\varepsilon \right)\leq \left(\left({\frac {p}{p+\varepsilon }}\right)^{p+\varepsilon }{\left({\frac {1-p}{1-p-\varepsilon }}\right)}^{1-p-\varepsilon }\right)^{n}&=e^{-D(p+\varepsilon \parallel p)n},\\P\left({\frac {1}{n}}\sum X_{i}\leq p-\varepsilon \right)\leq \left(\left({\frac {p}{p-\varepsilon }}\right)^{p-\varepsilon }{\left({\frac {1-p}{1-p+\varepsilon }}\right)}^{1-p+\varepsilon }\right)^{n}&=e^{-D(p-\varepsilon \parallel p)n},\end{aligned}}

где

\text{[math]}

D(x\parallel y)=x\ln {\frac {x}{y}}+(1-x)\ln \left({\frac {1-x}{1-y}}\right).

Это расхождение Кульбака — Лейблера между случайными величинами, имеющими бернуллиево распределение с параметрами x и y соответственно. Если $\text{[math]}$ p ≥ 12, то

\text{[math]}

P\left(\sum X_{i}>np+x\right)\leq \exp \left(-{\frac {x^{2}}{2np(1-p)}}\right).

Более простая оценка получается ослаблением этой теоремы, используя неравенство $\text{[math]}$ D(p + ε || p) ≥ 2ε², которое следует из выпуклости $\text{[math]}$ D(p + ε || p) и того факта, что

\text{[math]}

{\frac {d^{2}}{d\varepsilon ^{2}}}D(p+\varepsilon \parallel p)={\frac {1}{(p+\varepsilon )(1-p-\varepsilon )}}\geq 4={\frac {d^{2}}{d\varepsilon ^{2}}}(2\varepsilon ^{2}).

Этот результат является частным случаем неравенства Хёфдинга. В некоторых случаях используются оценки

\text{[math]}

{\begin{aligned}D((1+x)p\parallel p)\geq {\frac {1}{4}}x^{2}p,&&&{-{\tfrac {1}{2}}}\leq x\leq {\tfrac {1}{2}},\\[6pt]D(x\parallel y)\geq {\frac {3(x-y)^{2}}{2(2y+x)}},\\[6pt]D(x\parallel y)\geq {\frac {(x-y)^{2}}{2y}},&&&x\leq y,\\[6pt]D(x\parallel y)\geq {\frac {(x-y)^{2}}{2x}},&&&x\geq y\end{aligned}}

более сильные при $\text{[math]}$ p < 18.

Мультипликативная форма (оценка для относительной ошибки)Править

Мультипликативная оценка Чернова. Пусть $\text{[math]}$ X₁, ..., X_n — независимые случайные величины, принимающие значения $\text{[math]}$ {0, 1}. Их сумму обозначим $\text{[math]}$ X, математическое ожидание этой суммы обозначим μ. Тогда для всякого

\text{[math]}

\delta \geq 0

\text{[math]}

P(X\geq (1+\delta )\mu )\leq \left({\frac {e^{\delta }}{(1+\delta )^{1+\delta }}}\right)^{\mu }.

Аналогичным образом можно показать, что для любого $\text{[math]}$ $\text{[math]}$ $0<\delta <1,$

\text{[math]}

P(X\leq (1-\delta )\mu )\leq \left({\frac {e^{-\delta }}{(1-\delta )^{1-\delta }}}\right)^{\mu }.

На практике вышеприведённая формула часто оказывается громоздкой^[2], поэтому используются более слабые, но удобные оценки

\text{[math]}

P(X\leq (1-\delta )\mu )\leq e^{-{\frac {\delta ^{2}\mu }{2}}},\qquad 0<\delta <1,

\text{[math]}

P(X\geq (1+\delta )\mu )\leq e^{-{\frac {\delta ^{2}\mu }{2+\delta }}},\qquad 0\leq \delta ,

которые получаются с помощью неравенства $\text{[math]}$ $\text{[math]}$ ${\frac {2\delta }{2+\delta }}\leq \ln(1+\delta )$ из списка логарифмических неравенств^[5]. Или ещё более слабое неравенство

\text{[math]}

P(X\geq (1+\delta )\mu )\leq e^{-{\frac {\delta ^{2}\mu }{3}}},\qquad 0<\delta \leq 1.

ПриложенияПравить

Оценки Чернова имеют приложения в уравновешивании множеств и маршрутизации пакетов в разреженных сетях.

Проблема уравновешения множества возникает при проектировании статистического эксперимента. Как правило, при проектировании статистического эксперимента с заданными в этом эксперименте свойствами участников нам необходимо разделить участников на две непересекающиеся группы так, чтобы каждое свойство было, насколько это возможно, сбалансировано между двумя группами. См. также информацию в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Архивная копия от 16 апреля 2021 на Wayback Machine.

Оценки Чернова также используются для достижения жестких границ в задачах маршрутизации с использованием перестановок. Это уменьшает перегруженность при маршрутизации в разреженных сетях. См. подробнее в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Архивная копия от 16 апреля 2021 на Wayback Machine.

Также оценки Чернова находят применение в теории вычислительного обучения для доказательства того, что обучающий алгоритм аппроксимационно по вероятности корректен. То есть с высокой вероятностью этот алгоритм имеет малую ошибку на достаточно большом наборе тренировочных данных^[6].

Оценки Чернова могут быть эффективно использованы для оценки "уровня робастности" приложения/алгоритма посредством исследования его пространства возмущений при помощи рандомизации.^[7]

Матричная оценкаПравить

Рудольф Альсведе^[en] и Андреас Винтер^[en] использовали оценки Чернова для случайных величин с матричными значениями.^[8] Следующую версию неравенства можно найти в работе Троппа.^[9]

Пусть $\text{[math]}$ M₁, ..., M_t — случайные величины с матричными значениями такие, что $\text{[math]}$ $\text{[math]}$ $M_{i}\in \mathbb {C} ^{d_{1}\times d_{2}}$ и $\text{[math]}$ $\text{[math]}$ $\mathbb {E} [M_{i}]=0$ . Обозначим $\text{[math]}$ $\text{[math]}$ $\lVert M\rVert$ оператор нормы матрицы $\text{[math]}$ $\text{[math]}$ $M$ . Если неравенство $\text{[math]}$ $\text{[math]}$ $\lVert M_{i}\rVert \leq \gamma$ почти наверное выполнено для всех $\text{[math]}$ $\text{[math]}$ $i\in \{1,\ldots ,t\}$ , то для каждого $\text{[math]}$ ε > 0

\text{[math]}

P\left(\left\|{\frac {1}{t}}\sum _{i=1}^{t}M_{i}\right\|>\varepsilon \right)\leq (d_{1}+d_{2})\exp \left(-{\frac {3\varepsilon ^{2}t}{8\gamma ^{2}}}\right).

Чтобы заключить, что отклонение от 0 ограничено величиной $\text{[math]}$ ε с высокой вероятностью, нам нужно выбрать $\text{[math]}$ $\text{[math]}$ $t$ (количество образцов) пропорциональным логарифму $\text{[math]}$ $\text{[math]}$ $d_{1}+d_{2}$ . В общем случае зависимость от $\text{[math]}$ $\text{[math]}$ $\ln(\min(d_{1},d_{2}))$ неочевидна: например, возьмём диагональную случайную матрицу знаков размерности $\text{[math]}$ $\text{[math]}$ $d\times d$ . Оператор нормы суммы $\text{[math]}$ $\text{[math]}$ $t$ независимых образцов является в точности максимальным отклонением среди $\text{[math]}$ $\text{[math]}$ $d$ независимых случайных блужданий длины $\text{[math]}$ $\text{[math]}$ $t$ . Для того, чтобы достичь фиксированную границу максимального отклонения с постоянной вероятностью, $\text{[math]}$ $\text{[math]}$ $t$ должно логарифмически возрастать вместе с $\text{[math]}$ $\text{[math]}$ $d$ .^[10]

Следующая теорема получена в предположении, что $\text{[math]}$ $\text{[math]}$ $M$ имеет низкий ранг, для того, чтобы избежать зависимости от размерности.

Теорема без зависимости от размерностиПравить

Пусть $\text{[math]}$ 0 < ε < 1 и $\text{[math]}$ $\text{[math]}$ $M$ ─ случайная симметрическая вещественная матрица с $\text{[math]}$ $\text{[math]}$ $\|\mathrm {E} [M]\|\leq 1$ и $\text{[math]}$ $\text{[math]}$ $\|M\|\leq \gamma$ почти наверное. Предположим, что каждый элемент носителя $\text{[math]}$ $\text{[math]}$ $M$ имеет ранг самое большее $\text{[math]}$ $\text{[math]}$ $r$ . Положим

\text{[math]}

t=\Omega \left({\frac {\gamma \ln(\gamma /\varepsilon ^{2})}{\varepsilon ^{2}}}\right).

Если $\text{[math]}$ $\text{[math]}$ $r\leq t$ почти наверное, то

\text{[math]}

P\left(\left\|{\frac {1}{t}}\sum _{i=1}^{t}M_{i}-\mathrm {E} [M]\right\|>\varepsilon \right)\leq {\frac {1}{\mathbf {poly} (t)}},

где $\text{[math]}$ M₁, ..., M_t — это независимые одинаково распределенные копии $\text{[math]}$ $\text{[math]}$ $M$ .

Теорема для не полностью случайных матрицПравить

Анкит Гарг, Инь Тат Ли, Чжао Сонг и Нихил Шривастава^[en]^[11] получили оценки типа Чернова для сумм матричнозначных случайных величин, семплированных с помощью случайного блуждания экспандера.

Расмус Кинг и Чжао Сонг^[12] получили оценки типа Чернова для сумм матриц лапласианов случайных деревьев.

Вариант семплингаПравить

Следующий вариант оценки Чернова можно использовать для оценки вероятности того, что большинство популяции станет в выборке меньшинством и наоборот.^[13]

Предположим, имеется общая популяция $\text{[math]}$ $\text{[math]}$ $A$ и подпопуляция $\text{[math]}$ $\text{[math]}$ $B\subseteq A$ . Обозначим относительный размер подпопуляции ( $\text{[math]}$ $\text{[math]}$ $|B|/|A|$ ) через $\text{[math]}$ $\text{[math]}$ $r$ .

Допустим, мы выбираем целое кисло $\text{[math]}$ $\text{[math]}$ $k$ и случайную выборку $\text{[math]}$ $\text{[math]}$ $S\subset A$ размера $\text{[math]}$ $\text{[math]}$ $k$ . Обозначим относительный размер подпопуляции ( $\text{[math]}$ $\text{[math]}$ $|B\cap S|/|S|$ ) через $\text{[math]}$ $\text{[math]}$ $r_{S}$ .

Тогда для каждой доли $\text{[math]}$ $\text{[math]}$ $d\in [0,1]$ :

\text{[math]}

P\left(r_{S}<(1-d)\cdot r\right)<\exp \left(-r\cdot d^{2}\cdot k/2\right).

В частности, если $\text{[math]}$ $\text{[math]}$ $B$ ─ это большинство в $\text{[math]}$ $\text{[math]}$ $A$ (то есть, $\text{[math]}$ $\text{[math]}$ $r>0.5$ ), то мы можем оценить сверху вероятность того, что $\text{[math]}$ $\text{[math]}$ $B$ останется большинством в $\text{[math]}$ $\text{[math]}$ $S(r_{S}>0.5),$ взяв $\text{[math]}$ $\text{[math]}$ $d=1-{\frac {1}{2r}}$ ^[14]:

$\text{[math]}$ $\text{[math]}$ $P\left(r_{S}>0.5\right)>1-\exp \left(-r\cdot \left(1-{\frac {1}{2r}}\right)^{2}\cdot k/2\right).$

Эта оценка, разумеется, не является точной. Например, если $\text{[math]}$ $\text{[math]}$ $r=0.5$ , то мы получаем тривиальную оценку $\text{[math]}$ $\text{[math]}$ $P>0$ .

ДоказательстваПравить

Теорема Чернова-Хёфдинга (аддитивная форма)Править

Пусть $\text{[math]}$ q = p + ε. Взяв $\text{[math]}$ a = nq в формуле (1), получаем:

\text{[math]}

P\left({\frac {1}{n}}\sum X_{i}\geq q\right)\leq \inf _{t>0}{\frac {E\left[\prod e^{tX_{i}}\right]}{e^{tnq}}}=\inf _{t>0}\left({\frac {E\left[e^{tX_{i}}\right]}{e^{tq}}}\right)^{n}.

Теперь, зная что $\text{[math]}$ Pr(X_i = 1) = p, Pr(X_i = 0) = 1 − p, имеем

\text{[math]}

\left({\frac {\mathrm {E} \left[e^{tX_{i}}\right]}{e^{tq}}}\right)^{n}=\left({\frac {pe^{t}+(1-p)}{e^{tq}}}\right)^{n}=\left(pe^{(1-q)t}+(1-p)e^{-qt}\right)^{n}.

Таким образом, мы можем легко вычислить минимум, используя технику дифференцирования:

\text{[math]}

{\frac {d}{dt}}\left(pe^{(1-q)t}+(1-p)e^{-qt}\right)=(1-q)pe^{(1-q)t}-q(1-p)e^{-qt}.

Приравнивая полученное выражение к нулю и разрешая уравнение относительно $\text{[math]}$ $\text{[math]}$ $t$ , получаем

\text{[math]}

{\begin{aligned}(1-q)pe^{(1-q)t}&=q(1-p)e^{-qt}\\(1-q)pe^{t}&=q(1-p)\end{aligned}}

так что

\text{[math]}

e^{t}={\frac {(1-p)q}{(1-q)p}}.

Следовательно,

\text{[math]}

t=\ln \left({\frac {(1-p)q}{(1-q)p}}\right).

Поскольку $\text{[math]}$ q = p + ε > p, то мы видим, что $\text{[math]}$ t > 0, так что наша оценка удовлетворяется по $\text{[math]}$ t. Получив $\text{[math]}$ t, мы можем вернуться в предыдущие уравнения и найти

\text{[math]}

{\begin{aligned}\ln \left(pe^{(1-q)t}+(1-p)e^{-qt}\right)&=\ln \left(e^{-qt}(1-p+pe^{t})\right)\\&=\ln \left(e^{-q\ln \left({\frac {(1-p)q}{(1-q)p}}\right)}\right)+\ln \left(1-p+pe^{\ln \left({\frac {1-p}{1-q}}\right)}e^{\ln {\frac {q}{p}}}\right)\\&=-q\ln {\frac {1-p}{1-q}}-q\ln {\frac {q}{p}}+\ln \left(1-p+p\left({\frac {1-p}{1-q}}\right){\frac {q}{p}}\right)\\&=-q\ln {\frac {1-p}{1-q}}-q\ln {\frac {q}{p}}+\ln \left({\frac {(1-p)(1-q)}{1-q}}+{\frac {(1-p)q}{1-q}}\right)\\&=-q\ln {\frac {q}{p}}+\left(-q\ln {\frac {1-p}{1-q}}+\ln {\frac {1-p}{1-q}}\right)\\&=-q\ln {\frac {q}{p}}+(1-q)\ln {\frac {1-p}{1-q}}\\&=-D(q\parallel p).\end{aligned}}

Теперь мы имеем желаемый результат, поскольку

\text{[math]}

P\left({\tfrac {1}{n}}\sum X_{i}\geq p+\varepsilon \right)\leq e^{-D(p+\varepsilon \parallel p)n}.

Для завершения доказательства в симметрическом случае мы попросту определим случайную величину $\text{[math]}$ Y_i = 1 − X_i, применим к ней точно такое же доказательство и присоединим результат к нашей оценке.

Мультипликативная формаПравить

Положим $\text{[math]}$ Pr(X_i = 1) = p_i. Согласно формуле (1),

\text{[math]}

{\begin{aligned}P(X\geq (1+\delta )\mu )&\leq \inf _{t>0}{\frac {\operatorname {E} \left[\prod _{i=1}^{n}e^{tX_{i}}\right]}{e^{t(1+\delta )\mu }}}\\[4pt]&=\inf _{t>0}{\frac {\prod _{i=1}^{n}\operatorname {E} \left[e^{tX_{i}}\right]}{e^{t(1+\delta )\mu }}}\\[4pt]&=\inf _{t>0}{\frac {\prod _{i=1}^{n}\left[p_{i}e^{t}+(1-p_{i})\right]}{e^{t(1+\delta )\mu }}}.\end{aligned}}

Третья строчка следует из того, что $\text{[math]}$ $\text{[math]}$ $e^{tX_{i}}$ принимает значение $\text{[math]}$ e^t с вероятностью $\text{[math]}$ p_i и значение 1 с вероятностью $\text{[math]}$ 1 − p_i. Это идентично вычислениям выше в доказательстве аддитивной формы.

Переписав $\text{[math]}$ $\text{[math]}$ $p_{i}e^{t}+(1-p_{i})$ как $\text{[math]}$ $\text{[math]}$ $p_{i}(e^{t}-1)+1$ и вспомнив, что $\text{[math]}$ $\text{[math]}$ $1+x\leq e^{x}$ (если $\text{[math]}$ x > 0, то неравенство строгое), мы положим $\text{[math]}$ $\text{[math]}$ $x=p_{i}(e^{t}-1)$ . Тот же результат можно получить, напрямую заменяя $\text{[math]}$ a в уравнении для оценки Чернова на $\text{[math]}$ (1 + δ)μ.^[15]

Таким образом,

\text{[math]}

P(X\geq (1+\delta )\mu )\leq {\frac {\prod _{i=1}^{n}e^{p_{i}(e^{t}-1)}}{e^{t(1+\delta )\mu }}}={\frac {e^{\left((e^{t}-1)\sum _{i=1}^{n}p_{i}\right)}}{e^{t(1+\delta )\mu }}}={\frac {e^{(e^{t}-1)\mu }}{e^{t(1+\delta )\mu }}}.

Если мы просто положим $\text{[math]}$ t = ln(1 + δ), так что $\text{[math]}$ t > 0 для $\text{[math]}$ δ > 0, то сможем подставить это в последнее выражение и найти

\text{[math]}

{\frac {e^{(e^{t}-1)\mu }}{e^{t(1+\delta )\mu }}}={\frac {e^{(1+\delta -1)\mu }}{(1+\delta )^{(1+\delta )\mu }}}=\left[{\frac {e^{\delta }}{(1+\delta )^{(1+\delta )}}}\right]^{\mu }

,

что и требовалось доказать.

См. такжеПравить

Неравенство концентрации меры

СсылкиПравить

↑ Этот метод был впервые применён Сергеем Бернштейном в доказательствах, связанных с неравенствами Бернштейна^[en].
↑ ¹ ² Mitzenmacher, Michael, & Upfal, Eli. Probability and Computing: Randomized Algorithms and Probabilistic Analysis. — Cambridge University Press, 2005. — ISBN 978-0-521-83540-4. — doi:10.1017/CBO9780511813603.005. Архивная копия от 16 апреля 2021 на Wayback Machine
↑ Sinclair, Alistair Class notes for the course "Randomness and Computation" (неопр.) (Fall 2011). Дата обращения: 30 октября 2014. Архивировано из оригинала 31 октября 2014 года.
↑ Hoeffding, W. (1963). “Probability Inequalities for Sums of Bounded Random Variables” (PDF). Journal of the American Statistical Association. 58 (301): 13—30. DOI:10.2307/2282952. JSTOR 2282952.
↑ Useful Inequalities. logarithm (неопр.). Дата обращения: 13 мая 2020. Архивировано 19 августа 2020 года.
↑ M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. Chapter 9 (Appendix), pages 190-192. MIT Press, 1994.
↑ C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283ppISBN 978-3-319-05278-6.
↑ Ahlswede, R.; Winter, A. (2003). “Strong Converse for Identification via Quantum Channels”. IEEE Transactions on Information Theory^[en]. 48 (3): 569—579. arXiv:quant-ph/0012127. DOI:10.1109/18.985947.
↑ Tropp, J. (2010). “User-friendly tail bounds for sums of random matrices”. Foundations of Computational Mathematics. 12 (4): 389—434. arXiv:1004.4389. DOI:10.1007/s10208-011-9099-z.
↑ Magen, A. & Zouzias, A. (2011), Low Rank Matrix-Valued Chernoff Bounds and Approximate Matrix Multiplication, arΧiv:1005.2724 [cs.DM].
↑ Ankit Garg, Yin Tat Lee, Zhao Song, Nikhil Srivastava. A Matrix Expander Chernoff Bound // Association for Computing MachineryNew YorkNYUnited States. — 2018. Архивировано 14 апреля 2021 года.
↑ Rasmus Kyng, Zhao Song. A Matrix Chernoff Bound for Strongly Rayleigh Distributions and Spectral Sparsifiers from a few Random Spanning Trees // FOCS. — 2018. — 1 октября. Архивировано 22 апреля 2021 года.
↑ Goldberg, A. V. Competitive Auctions for Multiple Digital Goods // Algorithms — ESA 2001 / A. V. Goldberg, J. D. Hartline. — 2001. — Vol. 2161. — P. 416. — ISBN 978-3-540-42493-2. — doi:10.1007/3-540-44676-1_35.; lemma 6.1
↑ Посмотреть графики: граница как функция от r с меняющимся k Архивная копия от 4 января 2015 на Wayback Machine и граница как функция от k с меняющимся r Архивная копия от 4 января 2015 на Wayback Machine.
↑ Обратитесь к приведенному выше доказательству.

Дальнейшее чтениеПравить

Chernoff, H. (1952). “A Measure of Asymptotic Efficiency for Tests of a Hypothesis Based on the sum of Observations”. Annals of Mathematical Statistics^[en]. 23 (4): 493—507. DOI:10.1214/aoms/1177729330. JSTOR 2236576. MR 0057518. Zbl 0048.11804.
Chernoff, H. (1981). “A Note on an Inequality Involving the Normal Distribution”. Annals of Probability^[en]. 9 (3): 533—535. DOI:10.1214/aop/1176994428. JSTOR 2243541. MR 0614640. Zbl 0457.60014.
Hagerup, T.; Rüb, C. (1990). “A guided tour of Chernoff bounds”. Information Processing Letters^[en]. 33 (6): 305. DOI:10.1016/0020-0190(90)90214-I.
Nielsen, F. (2011), Chernoff information of exponential families, arΧiv:1102.2684 [cs.IT].

[1] Этот метод был впервые применён Сергеем Бернштейном в доказательствах, связанных с неравенствами Бернштейна^[en].

[MitzenmacherUpfal2-2] ¹ ² Mitzenmacher, Michael, & Upfal, Eli. Probability and Computing: Randomized Algorithms and Probabilistic Analysis. — Cambridge University Press, 2005. — ISBN 978-0-521-83540-4. — doi:10.1017/CBO9780511813603.005. Архивная копия от 16 апреля 2021 на Wayback Machine

[3] Sinclair, Alistair Class notes for the course "Randomness and Computation" (неопр.) (Fall 2011). Дата обращения: 30 октября 2014. Архивировано из оригинала 31 октября 2014 года.

[4] Hoeffding, W. (1963). “Probability Inequalities for Sums of Bounded Random Variables” (PDF). Journal of the American Statistical Association. 58 (301): 13—30. DOI:10.2307/2282952. JSTOR 2282952.

[5] Useful Inequalities. logarithm (неопр.). Дата обращения: 13 мая 2020. Архивировано 19 августа 2020 года.

[6] M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. Chapter 9 (Appendix), pages 190-192. MIT Press, 1994.

[Alippi20142-7] C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283ppISBN 978-3-319-05278-6.

[:1-8] Ahlswede, R.; Winter, A. (2003). “Strong Converse for Identification via Quantum Channels”. IEEE Transactions on Information Theory^[en]. 48 (3): 569—579. arXiv:quant-ph/0012127. DOI:10.1109/18.985947.

[:2-9] Tropp, J. (2010). “User-friendly tail bounds for sums of random matrices”. Foundations of Computational Mathematics. 12 (4): 389—434. arXiv:1004.4389. DOI:10.1007/s10208-011-9099-z.

[10] Magen, A. & Zouzias, A. (2011), Low Rank Matrix-Valued Chernoff Bounds and Approximate Matrix Multiplication, arΧiv:1005.2724 [cs.DM].

[11] Ankit Garg, Yin Tat Lee, Zhao Song, Nikhil Srivastava. A Matrix Expander Chernoff Bound // Association for Computing MachineryNew YorkNYUnited States. — 2018. Архивировано 14 апреля 2021 года.

[12] Rasmus Kyng, Zhao Song. A Matrix Chernoff Bound for Strongly Rayleigh Distributions and Spectral Sparsifiers from a few Random Spanning Trees // FOCS. — 2018. — 1 октября. Архивировано 22 апреля 2021 года.

[13] Goldberg, A. V. Competitive Auctions for Multiple Digital Goods // Algorithms — ESA 2001 / A. V. Goldberg, J. D. Hartline. — 2001. — Vol. 2161. — P. 416. — ISBN 978-3-540-42493-2. — doi:10.1007/3-540-44676-1_35.; lemma 6.1

[14] Посмотреть графики: граница как функция от r с меняющимся k Архивная копия от 4 января 2015 на Wayback Machine и граница как функция от k с меняющимся r Архивная копия от 4 января 2015 на Wayback Machine.

[15] Обратитесь к приведенному выше доказательству.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]