Это не официальный сайт wikipedia.org 01.01.2023

Пробит-регрессия — Википедия

Пробит-регрессия

(перенаправлено с «Пробит-модель»)

Про́бит-регрессия (пробит-модель, англ. probit) — применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь — бинарных) переменных от множества факторов, основанная на нормальном распределении (в отличие от, например, аналогичной логит-регрессии, основанной на логистическом распределении). В экономике (эконометрике) пробит-модели (наряду с логит-, гомпит- и др.) используются в моделях бинарного выбора или в моделях множественного выбора между различными альтернативами, для моделирования дефолтов компаний, в страховании жизни - для оценки вероятности смерти в зависимости от возраста и пола и т. д. В токсикологии пробит-регрессия используется для оценки влияния дозы или концентрации тех или иных веществ на биологические объекты.

Пробит-модель позволяет оценить вероятность того, что анализируемая (зависимая) переменная примет значение 1 при заданных значениях факторов (то есть это оценка доли "единиц" при данном значении факторов). В пробит-модели пробит-функция от вероятности моделируется как линейная комбинация факторов (включая константу). Пробит-функцией принято называть функцию, обратную к интегральной функции (CDF) стандартного нормального распределения, то есть функцию, определяющую квантиль стандартного нормального распределения для заданной вероятности x q = Φ 1 ( q ) .

Термин «probit» как производное от англ. probability unit предложил (впервые использовал) Честер Блисс (Chester Ittner Bliss [1899—1979])[1] в своей статье, посвященной количественному анализу смертельного действия ядов на примере действия никотина на щавелевую тлю (Aphis rumicis L.)[1]. С тех пор метод пробит-анализа особенно популярен в токсикологии. Само использование функции нормального распределения для описания зависимости «доза — эффект» восходит к английскому математику J. W. Trevan который показал, что интенсивность клеточного ответа на данную дозу лекарственного вещества подчиняется распределению Гаусса[2].

Сущность моделиПравить

Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная Y   является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1   и 0  . Например, Y   может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X  , которые оказывают влияние на Y  . В пробит-модели предполагается, что вероятность того, что Y = 1   определяется нормальным распределением, таким образом пробит-модель имеет вид:

p ( x ) = P ( Y = 1 X = x ) = Φ ( x T b )  

где Φ   — интегральная функция распределения (CDF) стандартного нормального распределения, b   — неизвестные параметры, которые требуется оценить.

Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов b.

Как и в общем случае модели бинарного выбора в основе модели лежит предположение о наличии некоторой скрытой (ненаблюдаемой) переменной Y  , в зависимости от значений которой наблюдаемая переменная Y   принимает значение 0   или 1  :

Y = { 1 , Y > 0 0 , Y < 0  

Предполагается, что скрытая переменная зависит от факторов X   в смысле обычной линейной регрессии y = x T b + ε  , где случайная ошибка в данном случае имеет стандартное нормальное распределение N ( 0 , 1 )  . Тогда

p ( x ) = P ( Y > 0 | X = x ) = P ( x T b + ε > 0 ) = P ( ε > x T b ) = 1 Φ ( x T b ) = Φ ( x T b )  

Последнее равенство следует из симметричности нормального распределения.

Также модель может быть обоснована через полезность альтернатив — не наблюдаемой функции U ( y , x )  , то есть фактически двух функций U 1 ( x ) = x T b 1 + ε 1   и U 0 ( x ) = x T b 0 + ε 0   соответственно для двух альтернатив. Функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной.

Оценка параметровПравить

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n   факторов X   и зависимой переменной Y  . Для данного номера наблюдения используем индекс t  . Логарифмическая функция правдоподобия имеет вид:

l ( b ) = t = 1 n ( y t ln Φ ( x t T b ) + ( 1 y t ) ln ( 1 Φ ( x t T b ) )  

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

n ( b ^ b )   d   N ( 0 , Ω 1 ) ,  

где Ω 1   — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке):

Ω = E [ φ 2 ( X b ) Φ ( X b ) ( 1 Φ ( X b ) ) X X ]  ,

где φ   — функция плотности вероятности (PDF) стандартного нормального распределения.

Матрица Ω   неизвестна и используется её состоятельная оценка:

Ω ^ = 1 n t = 1 n [ φ 2 ( x t T b ) Φ ( x t T b ) ( 1 Φ ( x t T b ) ) x t x t T ]  

Обычно оценка модели производится в специализированных (статистических, эконометрических) программных продуктах, например, Statistica, EViews, Matrixer, R[3], SPSS и др.[4], хотя возможна «ручная» оценка, например в MS Office Excel, используя встроенный «Поиск решения» для максимизации логарифмической функции правдоподобия.

Показатели качества и тестирование моделиПравить

Для оценки качества построенной пробит-регрессии применяются стандартные для моделей бинарного выбора статистики:

  • Псевдо-коэффициент детерминации ( R p s e u d o 2 )  
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия)( R M c F a d d e n 2 , L R I  )
  • Статистика Хосмера-Лемешоу (Hosmer-Lemeshow, H L  ).
  • Статистика Эндрюса (Andrews)

Важное значение имеет анализ доли правильных прогнозов. В частности анализируется доля правильных и (или) неправильных прогнозов для значения каждого из значений зависимой переменной (0 и 1).

ПримерыПравить

ТоксикологияПравить

Рассмотрим пробит-модель на примере действия инсектицида на насекомых[5][6]. Зависимой бинарной переменной является переменная, принимающая значение 1, если данное насекомое погибло, и 0 в противном случае. В выборке n   насекомых реакция на инсектицид одних насекомых не зависит от реакции других. В качестве фактора модели выступает «измеритель» дозы x = lg ( d )  , где d  -доза инсектицида. Вероятность того, что случайно отобранное из совокупности насекомое погибнет за данное время, равна

p ( x ) = Φ ( α + β x )  .

Если параметры модели α   и β   известны (обозначим оценки a   и b   соответственно), то уровень дозы x p  , при котором погибает некоторый процент насекомых, находится из уравнения

a + b x p = Φ 1 ( p ) = q p x p = ( q p a ) / b  ,

где q p   — квантиль уровня p   стандартного нормального распределения.

В частности, для уровня дозы x 50  , при которой погибает 50 % насекомых, lg d 50 = x 50 = a / b d 50 = 10 a / b  . Эту величину в токсикологии принято обозначать ЛД50.

Можно также построить приблизительный доверительный интервал для x p   следующим образом: x p ± 2 σ x p  . Дисперсию σ x p 2   можно оценить приблизительно следующим образом:

σ x p 2 = ( σ a 2 + 2 x p σ a b + x p 2 σ b 2 ) / b 2  ,

где σ a 2 , σ b 2   — оценка дисперсии оценок параметров модели, σ a b   — оценка ковариации между оценками параметров.

Более точный доверительный интервал можно оценить исходя теоремы Феллера, в соответствии с которой 95%-е доверительные границы для x p   являются корнями λ 1  , λ 2   квадратного уравнения

λ 2 ( b 2 t 2 σ b 2 ) 2 λ ( b 2 x p + t 2 σ a b ) + ( b 2 x p 2 t 2 σ a 2 ) = 0  ,

где t = t 95   — 95%-я точка распределения Стьюдента.

Вариации и обобщенияПравить

На практике встречаются ситуации, когда необходимо исследовать не две альтернативы, а несколько альтернатив. Если эти альтернативы неупорядоченные, то говорят о множественной (multinominal) пробит-модели. В случае упорядоченных альтернатив (например, 5-балльная оценка качества услуги или товара) говорят о порядковой или упорядоченной (ordered) пробит-модели.

См. такжеПравить

ПримечанияПравить

  1. 1 2 Bliss CI. The method of probits (англ.) // Science. — 1934. — Vol. 79, no. 2037. — P. 38—39. — doi:10.1126/science.79.2037.38. — PMID 17813446. — JSTOR 1659792.
  2. Trevan, J.W. 1927. The error of determination of toxicity. Proc. Royal Soc. 101B: 483—514. цитировано по Альберт А. Избирательная токсичность. Физико-химические основы терапии. Пер. с англ. В 2 томах. Т. 1. — М: Медицина, 1989, С. 247. ISBN 5-225-01519-0
  3. R Data Analysis Examples — Probit Regression  (неопр.). Дата обращения: 3 августа 2012. Архивировано 29 ноября 2012 года.
  4. en:Comparison_of_statistical_packages#Regression
  5. Finney, D.J. Probit Analysis (3rd edition) (неопр.). — Cambridge University Press, Cambridge, UK, 1971. — ISBN 052108041X.
  6. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3

ЛитератураПравить

  • Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..