Точный тест Фишера

Точный тест Фишера — тест статистической значимости, используемый в анализе таблиц сопряжённости для выборок маленьких размеров. Относится к точным тестам значимости, поскольку не использует приближения большой выборки (асимптотики при размере выборки стремящемся к бесконечности).

Назван именем изобретателя — Рональда Фишера, на создание автора побудило высказывание Муриэль Бристоль (англ. Muriel Bristol — версия статьи «Бристоль, Муриэль» на английском языке Муриэль Бристоль), которая утверждала, будто была в состоянии обнаружить, в какой последовательности чай и молоко были налиты в её чашку.

НазначениеПравить

Тест обычно используется, чтобы исследовать значимость взаимосвязи между двумя переменными в факторной таблице размерности $\text{[math]}$ $\text{[math]}$ $2\times 2$ (таблице сопряжённости признаков). Величина вероятности $\text{[math]}$ $\text{[math]}$ $p$ теста вычисляется, как если бы значения на границах таблицы известны. Например, в случае с дегустацией чая госпожа Бристоль знает число чашек с каждым способом приготовления (молоко или чай сначала), поэтому якобы предоставляет правильное число угадываний в каждой категории. Как было указано Фишером, в предположении нуль-гипотезы о независимости испытаний это ведёт к использованию гипергеометрического распределения для данного счёта в таблице.

С большими выборками в этой ситуации может использоваться тест хи-квадрат. Однако этот тест не является подходящим, когда математическое ожидание значений в любой из ячеек таблицы с заданными границами оказывается ниже 10: вычисленное выборочное распределение испытуемой статистической величины только приблизительно равно теоретическому распределению хи-квадрат, и приближение неадекватно в этих условиях (которые возникают, когда размеры выборки малы, или данные очень неравноценно распределены среди ячеек таблицы). Тест Фишера, как следует из его названия, является точным и может поэтому использоваться независимо от особенностей выборки. Тест становится трудновычислимым для больших выборок или хорошо уравновешенных таблиц, но, к счастью, именно для этих условий хорошо применим критерий Пирсона ( $\text{[math]}$ $\text{[math]}$ $\chi ^{2}$ ).

Для ручных вычислений тест выполним только в случае размерности факторных таблиц $\text{[math]}$ $\text{[math]}$ $2\times 2$ . Однако принцип теста может быть расширен на общий случай таблиц $\text{[math]}$ $\text{[math]}$ $m\times n$ , и некоторые статистические пакеты обеспечивают такие вычисления (иногда используя метод Монте-Карло, чтобы получить приближение).

ПримерПравить

Точные тесты позволяют получать более аккуратный анализ для маленьких выборок или данных, которые редки. Точные тесты непараметрических исследований — подходящий статистический инструмент для работы с неуравновешенными данными. Неуравновешенные данные, проанализированные асимптотическими методами, имеют тенденцию приводить к ненадёжным результатам. Для больших и хорошо уравновешенных наборов данных точные и асимптотические оценки вероятностей $\text{[math]}$ $\text{[math]}$ $p$ очень похожи. Но для маленьких, редких, или выведенных из равновесия данных, точные и асимптотические оценки могут быть весьма различными и даже привести к противоположным заключениям относительно разрабатываемой гипотезы^[1]^[2]^[3].

Потребность в тесте Фишера возникает, когда у нас есть данные, разделённые на две категории двумя отдельными способами. Например, выборка подростков может быть разделена на категории с одной стороны по признаку пола (юноши и девушки), а с другой стороны — по признаку нахождения на диете или нет. Можно выдвинуть гипотезу, о том, что доля находящихся на диете людей выше среди девушек, чем среди юношей, и мы хотим удостовериться, является ли какое-нибудь наблюдаемое различие пропорций статистически значимым.

Данные могли бы быть похожими на следующие:

	юноши	девушки	всего
на диете	1	9	10
не на диете	11	3	14
всего	12	12	24

Такие данные не подходят для анализа методом хи-квадрат, потому что математические ожидания в таблице все ниже 10, а в факторной таблице размера $\text{[math]}$ $\text{[math]}$ $2\times 2$ число степеней свободы всегда равно одному.

Вопрос, который мы задаём об этих данных: зная, что 10 из 24 подростков — люди, сидящие на диете, и что 12 из этих 24 — девушки, какова вероятность, что 10 диетиков так неравноценно распределены между полами? Если бы мы выбрали 10 подростков наугад, какова вероятность, что 9 из них оказались взяты из набора 12 лиц женского пола и только 1 из числа 12 юношей?

Прежде чем продолжить исследование теста Фишера, введём необходимую нотацию. Обозначим числа в ячейках буквами $\text{[math]}$ $\text{[math]}$ $a$ , $\text{[math]}$ $\text{[math]}$ $b$ , $\text{[math]}$ $\text{[math]}$ $c$ и $\text{[math]}$ $\text{[math]}$ $d$ соответственно, назовём итоги суммирования по строкам и столбцам маргинальными (граничными) итогами и представим общий итог буквой $\text{[math]}$ $\text{[math]}$ $n$ .

Теперь таблица выглядит следующим образом:

	Юноши	Девушки	Всего
На диете	$\text{[math]}$ $\text{[math]}$ $a$	$\text{[math]}$ $\text{[math]}$ $b$	$\text{[math]}$ $\text{[math]}$ $a+b$
Не на диете	$\text{[math]}$ $\text{[math]}$ $c$	$\text{[math]}$ $\text{[math]}$ $d$	$\text{[math]}$ $\text{[math]}$ $c+d$
Всего	$\text{[math]}$ $\text{[math]}$ $a+c$	$\text{[math]}$ $\text{[math]}$ $b+d$	$\text{[math]}$ $\text{[math]}$ $n$

Фишер показал, что вероятность получения любого такого набора величин даётся гипергеометрическим распределением:

\text{[math]}

p={{{a+b} \choose {a}}{{c+d} \choose {c}}}\left/{{n} \choose {a+c}}\right.={\frac {(a+b)!\,(c+d)!\,(a+c)!\,(b+d)!}{n!\,a!\,b!\,c!\,d!}}

где столбцы в скобках — биномиальные коэффициенты, а символ « $\text{[math]}$ $\text{[math]}$ $!$ » является оператором факториала.

Эта формула даёт точную вероятность наблюдения любого специфического набора данных при условии заданных маргинальных итогов, общего итога и нулевой гипотезе об одинаковой предрасположенности к диете независимо от пола (соотношение между диетиками и людьми, не находящимися на диете, для юношей такое же, как для девушек).

Фишер показал, что мы можем иметь дело только со случаями, где маргинальные (предельные) итоги (англ. marginal totals) те же самые, что и в приведённой таблице. В приведённом примере таких случаев 11. Из них только один столь же «перекошен» (в сторону женской склонности к диете), как и демонстрационный пример:

	Юноши	Девушки	Всего
На диете	0	10	10
Не на диете	12	2	14
Всего	12	12	24

Чтобы оценить статистическую значимость наблюдаемых данных, то есть полную вероятность такого же или более выраженного «перекоса» в сторону нахождения девушек на диете, в предположении нулевой гипотезы мы должны вычислить вероятности ценности $\text{[math]}$ $\text{[math]}$ $p$ для обеих этих таблиц и сложить их. Это даёт так называемый односторонний тест; для двухстороннего теста мы должны также рассмотреть таблицы, которые так же перекошены, но в противоположном направлении (то есть рассмотреть случай преимущественного нахождения на диете юношей).

Однако классификация таблиц согласно тому, являются ли они «чрезвычайно перекошенными», проблематична. Подход, используемый языком программирования R, предлагает вычислить величину критерия $\text{[math]}$ $\text{[math]}$ $p$ , суммируя вероятности для всех таблиц с вероятностями, меньше чем или равными вероятности наблюдаемой таблицы. Для таблиц с малыми числами в ячейках двусторонняя оценка критерия может существенно отличаться от удвоенной величины односторонней оценки, в отличие от случая со статистическими данными, у которых есть симметрическое распределение выборки.

Большинство современных статистических пакетов вычисляет значение тестов Фишера, в некоторых случаях даже там, где приближение хи-квадрат также было бы приемлемым. Фактические вычисления, выполненные статистическими пакетами программ, будут, как правило, отличаться от описанных. В частности, числовые трудности могут следовать из больших величин факториалов. Простые, но даже более эффективные вычислительные подходы основаны на использовании гамма-функции или логарифмической гамма-функции, однако точное вычисление гипергеометрических и биномиальных вероятностей — область современных исследований.

ПримечанияПравить

↑ Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall
↑ Mehta, C. R., Patel, N. R., & Tsiatis, A. A. 1984. Exact significance testing to establish treatment equivalence with ordered categorical data. Biometrics, 40(3), 819—825
↑ Mehta, C. R., Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112—117

ЛитератураПравить

Fisher, R. A. 1922. «On the interpretation of χ2 from contingency tables, and the calculation of P». Journal of the Royal Statistical Society 85(1):87-94.
Fisher, R. A. 1954 Statistical Methods for research workers. Oliver and Boyd.

СсылкиПравить

Weisstein, Eric W. Рассмотрение $\text{[math]}$ $\text{[math]}$ $m\times n$ -расширения точного теста Фишера (англ.) на сайте Wolfram MathWorld.
При написании этой статьи использовался материал сайта MachineLearning.ru, доступный по лицензии Creative Commons BY-SA 3.0 Unported.

[1] Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall

[2] Mehta, C. R., Patel, N. R., & Tsiatis, A. A. 1984. Exact significance testing to establish treatment equivalence with ordered categorical data. Biometrics, 40(3), 819—825

[3] Mehta, C. R., Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112—117

[1]

[2]

[3]