Бутстрэп (статистика)

Бутстрэп^[1] (англ. bootstrap) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки^[2]. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.

Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году^[3]). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение. Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики.

Наряду с методами «складного ножа», перекрёстной проверки и перестановочным тестированием (англ. exact test — версия статьи «Перестановочный тест» на английском языке exact test) составляет класс методов генерации повторной выборки (англ. Resampling (statistics) — версия статьи «Генерация повторной выборки» на английском языке resampling).

ЭтимологияПравить

У стоящего ботинка виден торчащий ремешок (англ. bootstrap)

Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена, который, потянув себя за волосы, вытащил себя и свою лошадь из болота.

Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».

Вводный примерПравить

Пусть имеется два наблюдения:

\text{[math]}

(x_{1},y_{1})=(1,1),\ (x_{2},y_{2})=(2,3)

Предположим, что нам необходимо оценить параметр в регрессии y на x:

\text{[math]}

y_{i}=\theta x_{i}+\epsilon _{i}

Оценка параметра, полученная методом наименьших квадратов, будет равна

\text{[math]}

{\hat {\theta }}={\frac {x_{1}y_{1}+x_{2}y_{2}}{x_{1}^{2}+x_{2}^{2}}}={\frac {1\times 1+2\times 3}{1^{2}+2^{2}}}={\frac {7}{5}}

Эмпирическая функция распределения при этом равна

\text{[math]}

(x,y)'={\begin{cases}(1,1)',\quad p=1/2\\(2,3)',\quad p=1/2\\\end{cases}}

При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:

\text{[math]}

(x_{1},y_{1})',(x_{2},y_{2})'={\begin{cases}(1,1)',(1,1)',\quad p=1/4\\(1,1)',(2,3)',\quad p=1/4\\(2,3)',(1,1)',\quad p=1/4\\(2,3)',(2,3)',\quad p=1/4\\\end{cases}}

Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:

\text{[math]}

{\hat {\theta }}_{2}^{*}={\begin{cases}1,\quad \quad p=1/4\\7/5,\quad p=1/2\\3/2,\quad p=1/4\\\end{cases}}

ПрименениеПравить

Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.

Бутстрэповский доверительный интервал: алгоритмПравить

Пусть дана выборка $\text{[math]}$ $\text{[math]}$ $(z_{1};z_{2};\dots ;z_{n})$ из генеральной совокупности, и требуется оценить параметр $\text{[math]}$ $\text{[math]}$ $\theta$ . Необходимо выбрать количество $\text{[math]}$ $\text{[math]}$ $B$ псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок $\text{[math]}$ $\text{[math]}$ $(z_{1}^{*};z_{2}^{*};\dots ;z_{n}^{*})_{b},b=1,2,\dots ,B$ вычисляется псевдостатистика $\text{[math]}$ $\text{[math]}$ ${\hat {\theta }}_{b}^{*}$ .

Псевдостатистики $\text{[math]}$ $\text{[math]}$ ${\hat {\theta }}_{1}^{*},{\hat {\theta }}_{2}^{*},\dots ,{\hat {\theta }}_{B}^{*}$ сортируются от меньшей к большей. Квантилями $\text{[math]}$ $\text{[math]}$ $q_{\alpha _{1}}^{*},q_{1-\alpha _{2}}^{*}$ принимаются значения $\text{[math]}$ $\text{[math]}$ ${\hat {\theta }}_{[B\alpha _{1}]}^{*},{\hat {\theta }}_{[B(1-\alpha _{2})+1]}^{*}$ . С их помощью строится доверительный интервал.

ПримечанияПравить

↑ Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.
↑ アーカイブされたコピー (неопр.). Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.
↑ Эфрон, 1979.

ЛитератураПравить

Станислав Анатольев. Эконометрика для продолжающих. Курс лекций. — 2002.
Bradley Efron. Bootstrap Methods: Another Look at the Jackknife (англ.) // Annals of Statistics. — 1979. — Vol. 7, no. 1. — P. 1—26. — ISSN 0090-5364. — doi:10.1214/aos/1176344552.

СсылкиПравить

Bootstrap tutorial from ICASSP 99 (недоступная ссылка с 13-05-2013 [3596 дней] — история): Tutorial from a signal processing perspective
Bootstrap sampling tutorial using MS Excel
Animations for bootstrapping i.i.d data (недоступная ссылка с 13-05-2013 [3596 дней] — история) by Yihui Xie using the R
Bootstrapping tutorial

[1] Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.

[2] アーカイブされたコピー (неопр.). Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.

[_f5b58b62ebd00dbd-3] Эфрон, 1979.

[1]

[2]

[3]