Это не официальный сайт wikipedia.org 01.01.2023

Критерий согласия Пирсона — Википедия

Критерий согласия Пирсона

(перенаправлено с «Критерий Пирсона»)

Критерий согласия Пирсона или критерий согласия χ 2 (хи-квадрат) — непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

Является наиболее часто употребляемым критерием для проверки гипотезы о принадлежности наблюдаемой выборки x 1 , x 2 , . . . , x n объёмом n некоторому теоретическому закону распределения F ( x , θ ) .

Критерий хи-квадрат для анализа таблиц сопряжённости был разработан и предложен в 1900 году основателем математической статистики английским учёным Карлом Пирсоном.

Критерий может использоваться при проверке простых гипотез вида

H 0 : F n ( x ) = F ( x , θ ) ,

где θ  — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида

H 0 : F n ( x ) { F ( x , θ ) , θ Θ } ,

когда оценка θ ^ скалярного или векторного параметра распределения F ( x , θ ) вычисляется по той же самой выборке.

Статистика критерияПравить

Процедура проверки гипотез с использованием критериев типа χ 2   предусматривает группирование наблюдений. Область определения случайной величины разбивают на k   непересекающихся интервалов граничными точками

x ( 0 ) , x ( 1 ) , . . . , x ( k 1 ) , x ( k ) ,  

где x ( 0 )   — нижняя грань области определения случайной величины; x ( k )   — верхняя грань.

В соответствии с заданным разбиением подсчитывают число n i   выборочных значений, попавших в i  -й интервал, и вероятности попадания в интервал

P i ( θ ) = F ( x ( i ) , θ ) F ( x ( i 1 ) , θ ) ,  

соответствующие теоретическому закону с функцией распределения F ( x , θ ) .  

При этом

n = i = 1 k n i   и i = 1 k P i ( θ ) = 1.  

При проверке простой гипотезы известны как вид закона F ( x , θ )  , так и все его параметры (известен скалярный или векторный параметр θ  ).

В основе статистик, используемых в критериях согласия типа χ 2  , лежит измерение отклонений n i / n   от P i ( θ )  .

Статистика критерия согласия χ 2   Пирсона определяется соотношением

χ 2 = n i = 1 k ( n i / n P i ( θ ) ) 2 P i ( θ ) .  

В случае проверки простой гипотезы, в пределе при n   эта статистика подчиняется χ r 2  -распределению с r = k 1   степенями свободы, если верна проверяемая гипотеза H 0  . Плотность χ r 2  -распределения, которое является частным случаем гамма-распределения, описывается формулой

g ( s ) = 1 2 r / 2 Γ ( r / 2 ) s r / 2 1 e s / 2 .  

Проверяемая гипотеза H 0   отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики χ n 2   больше критического значения χ r , α 2 ,  

P ( χ n 2 > χ r , α 2 ) = 1 2 r / 2 Γ ( r / 2 ) χ r , α 2 s r / 2 1 e s / 2 d s  

или достигнутый уровень значимости (p-значение) меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) α  .

Проверка сложных гипотезПравить

При проверке сложных гипотез, если параметры закона F ( x , θ )   по этой же выборке оцениваются в результате минимизации статистики χ n 2   или по сгруппированной выборке методом максимального правдоподобия, то статистика χ n 2   при справедливости проверяемой гипотезы подчиняется χ r 2  -распределению с r = k m 1   степенями свободы, где m   — количество оценённых по выборке параметров.

Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться χ k m 1 2  -распределением[1]. Более того, распределения статистики при справедливости гипотезы H 0   будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы[2].

При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа χ 2  [3][4][5][6].

О мощности критерияПравить

При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону, а в качестве конкурирующей гипотезы — принадлежность любому другому. Естественно, что критерий по-разному будет способен отличать от закона, соответствующего H 0  , близкие или далёкие от него законы. Если задать конкурирующую гипотезу H 1   и соответствующий ей некоторый конкурирующий закон F 1 ( x , θ )  , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы H 0   при её справедливости) и вероятности этой ошибки α  , но и об ошибке 2-го рода (неотклонении H 0   при справедливости H 1  ) и вероятности этой ошибки β  .

Мощность критерия по отношению к конкурирующей гипотезе H 1   характеризуется величиной 1 β  . Критерий тем лучше распознаёт пару конкурирующих гипотез H 0   и H 1  , чем выше его мощность.

Мощность критерия согласия χ 2   Пирсона существенно зависит от способа группирования[7][8] и от выбранного числа интервалов[8][9].

При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием), критерий согласия χ 2   Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез[10][8][9].

При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия χ 2   Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет[11][12]. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счёт выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия[13].

См. такжеПравить

ПримечанияПравить

  1. Chernoff H., Lehmann E. L. The use of maximum likelihood estimates in χ 2   test for goodness of fit (англ.) // The Annals of Mathematical Statistics. — 1954. — Vol. 25. — P. 579—586.
  2. Лемешко Б. Ю., Постовалов С. Н. О зависимости предельных распределений статистик χ 2   Пирсона и отношения правдоподобия от способа группирования данных (рус.) // Заводская лаборатория. — 1998. — Т. 64, вып. 5. — С. 56-63.
  3. Никулин М. С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба (рус.) // Теория вероятностей и её применение. — 1973. — Т. XVIII, вып. 3. — С. 583—591.
  4. Никулин М. С. О критерии хи-квадрат для непрерывных распределений (рус.) // Теория вероятностей и её применение. — 1973. — Т. XVIII, вып. 3. — С. 675—676.
  5. Rao K. C., Robson D. S. A chi-squared statistic for goodness-of-fit tests within the exponential family (англ.) // Commun. Statist. — 1974. — Vol. 3. — P. 1139—1153.
  6. Greenwood P. E., Nikulin M. S. A guide to chi-squared testing (англ.). — New York: John Wiley & Sons, 1996. — 280 p.
  7. Лемешко Б. Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия (рус.) // Заводская лаборатория. — 1998. — Т. 64, вып. 1. — С. 56—64.
  8. 1 2 3 Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов, 2006. — 87 с.
  9. 1 2 Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа χ 2   (рус.) // Заводская лаборатория. Диагностика материалов. — 2003. — Т. 69, вып. 1. — С. 61—67.
  10. Денисов В. И., Лемешко Б. Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. — Новосибирск, 1979. — С. 5—14.
  11. Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез (рус.) // Сибирский журнал индустриальной математики. — 2008. — Т. 11, вып. 2(34). — С. 96—111.
  12. Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез (рус.) // Сибирский журнал индустриальной математики. — 2008. — Т. 11, вып. 4(36). — С. 78—93.
  13. Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н., Чимитова Е. В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход (рус.). — Новосибирск: Изд-во НГТУ, 2011. — 888 с. — (Монографии НГТУ). — ISBN 978-5-7782-1590-0. — Раздел 4.9.

ЛитератураПравить

  • Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

См. такжеПравить

СсылкиПравить