Это не официальный сайт wikipedia.org 01.01.2023

Распределение хи-квадрат — Википедия

Распределение хи-квадрат

(перенаправлено с «Хи-квадрат»)

Распределе́ние χ 2 (хи-квадра́т) с k степеня́ми свобо́ды — распределение суммы квадратов k независимых стандартных нормальных случайных величин.

Распределение χ 2 . Распределение Пирсона
Chi-square distributionPDF.pngПлотность вероятности
Chi-square distributionCDF.pngФункция распределения
Обозначение χ 2 ( k ) или χ k 2
Параметры k > 0 — число степеней свободы
Носитель x [ 0 ; + )
Плотность вероятности ( 1 / 2 ) k / 2 Γ ( k / 2 ) x k / 2 1 e x / 2
Функция распределения γ ( k / 2 , x / 2 ) Γ ( k / 2 )
Математическое ожидание k
Медиана примерно k 2 / 3
Мода 0 для k < 2 ,
k 2 , если k 2
Дисперсия 2 k
Коэффициент асимметрии 8 / k
Коэффициент эксцесса 12 / k
Дифференциальная энтропия

k 2 + ln [ 2 Γ ( k 2 ) ] + ( 1 k 2 ) ψ ( k 2 )

ψ ( x ) = Γ ( x ) / Γ ( x ) .
Производящая функция моментов ( 1 2 t ) k / 2 , если 2 t < 1
Характеристическая функция ( 1 2 i t ) k / 2

ОпределениеПравить

Пусть z 1 , , z k   — совместно независимые стандартные нормальные случайные величины, то есть: z i N ( 0 , 1 )  . Тогда случайная величина

x = z 1 2 + + z k 2  

имеет распределение хи-квадрат с k   степенями свободы, то есть x f χ 2 ( k ) ( x )  , или, если записать по-другому:

x = i = 1 k z i 2 χ 2 ( k )  .

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

f χ 2 ( k ) ( x ) Γ ( k 2 , 2 ) = ( 1 / 2 ) k 2 Γ ( k 2 ) x k 2 1 e x 2  ,

где Γ ( k / 2 , 2 )   означает гамма-распределение, а Γ ( k / 2 )   — гамма-функцию.

Функция распределения имеет следующий вид:

F χ 2 ( k ) ( x ) = γ ( k 2 , x 2 ) Γ ( k 2 )  ,

где Γ   и γ   обозначают соответственно полную и неполную гамма-функции.

Свойства распределения хи-квадратПравить

  • Из определения легко получить моменты распределения хи-квадрат. Если Y χ 2 ( k )  , то
E [ Y ] = k  ,
D [ Y ] = 2 k  .
  • В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины Y χ 2 ( k )   может быть приближено нормальным Y N ( k , 2 k )  . Более точно
Y k 2 k N ( 0 , 1 )   по распределению при k  .

Связь с другими распределениямиПравить

  • Если X 1 , , X k   независимые нормальные случайные величины, то есть: X i N ( μ , σ 2 ) , i = 1 , , k ; μ   известно, то случайная величина
Y = i = 1 k ( X i μ σ ) 2  

имеет распределение χ 2 ( k )  .

χ 2 ( 2 ) E x p ( 1 / 2 )  .
  • Если X χ 2 ( 2 k )  , тогда X Erlang ( k , 1 / 2 )   — распределение Эрланга.
  • Если Y 1 χ 2 ( k 1 )   и Y 2 χ 2 ( k 2 )  , то случайная величина
F = Y 1 / k 1 Y 2 / k 2  

имеет распределение Фишера со степенями свободы ( k 1 , k 2 )  .

Вариации и обобщениеПравить

Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат[en], возникающее в некоторых задачах статистики.

КвантилиПравить

Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

ИсторияПравить

Критерий χ 2   был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.

Общее обсуждение критерия χ 2   и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].

ПриложенияПравить

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.

Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:

Название Статистика
распределение хи-квадрат i = 1 k ( X i μ i σ i ) 2  
нецентральное распределение хи-квадрат i = 1 k ( X i σ i ) 2  
распределение хи i = 1 k ( X i μ i σ i ) 2  
нецентральное распределение хи i = 1 k ( X i σ i ) 2  


Таблица значений χ2 и p-значенийПравить

Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение χ 2  . Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.

В таблице даны p-значения для соответствующих значений χ 2   у первых десяти степеней свободы.

Степени свободы (df) Значение χ 2  [3]
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,14 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 15,09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 20,09 26,12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
p-значение 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль χ 2   для p = 0,05 и df = 7 дает χ 2  =14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин x 1 , . . . , x 7   при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение x 1 2 + . . . + x 7 2 > 14 , 07   можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.

В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].

См. такжеПравить

ПримечанияПравить

  1. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
  2. Cochran W. G. The χ 2   Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345.
  3. Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
  4. R Tutorial: Chi-squared Distribution  (неопр.). Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
  5. StatSoft: Таблицы распределений — Хи-квадрат распределение  (неопр.). Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.