Это не официальный сайт wikipedia.org 01.01.2023

Бутстрэп (статистика) — Википедия

Бутстрэп[1] (англ. bootstrap) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки[2]. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.

Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году[3]). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение. Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики.

Наряду с методами «складного ножа», перекрёстной проверки и перестановочным тестированием (англ. exact test) составляет класс методов генерации повторной выборки (англ. resampling).

Этимология Править

 
У стоящего ботинка виден торчащий ремешок (англ. bootstrap)

Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена, который, потянув себя за волосы, вытащил себя и свою лошадь из болота.

Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».

Вводный пример Править

Пусть имеется два наблюдения:

( x 1 , y 1 ) = ( 1 , 1 ) ,   ( x 2 , y 2 ) = ( 2 , 3 )  

Предположим, что нам необходимо оценить параметр в регрессии y на x:

y i = θ x i + ϵ i  

Оценка параметра, полученная методом наименьших квадратов, будет равна

θ ^ = x 1 y 1 + x 2 y 2 x 1 2 + x 2 2 = 1 × 1 + 2 × 3 1 2 + 2 2 = 7 5  

Эмпирическая функция распределения при этом равна

( x , y ) = { ( 1 , 1 ) , p = 1 / 2 ( 2 , 3 ) , p = 1 / 2  

При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:

( x 1 , y 1 ) , ( x 2 , y 2 ) = { ( 1 , 1 ) , ( 1 , 1 ) , p = 1 / 4 ( 1 , 1 ) , ( 2 , 3 ) , p = 1 / 4 ( 2 , 3 ) , ( 1 , 1 ) , p = 1 / 4 ( 2 , 3 ) , ( 2 , 3 ) , p = 1 / 4  

Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:

θ ^ 2 = { 1 , p = 1 / 4 7 / 5 , p = 1 / 2 3 / 2 , p = 1 / 4  

Применение Править

Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.

Бутстрэповский доверительный интервал: алгоритм Править

Пусть дана выборка ( z 1 ; z 2 ; ; z n )   из генеральной совокупности, и требуется оценить параметр θ  . Необходимо выбрать количество B   псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок ( z 1 ; z 2 ; ; z n ) b , b = 1 , 2 , , B   вычисляется псевдостатистика θ ^ b  .

Псевдостатистики θ ^ 1 , θ ^ 2 , , θ ^ B   сортируются от меньшей к большей. Квантилями q α 1 , q 1 α 2   принимаются значения θ ^ [ B α 1 ] , θ ^ [ B ( 1 α 2 ) + 1 ]  . С их помощью строится доверительный интервал.

Примечания Править

  1. Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.
  2. アーカイブされたコピー  (неопр.). Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.
  3. Эфрон, 1979.

Литература Править

Ссылки Править