Пробит-регрессия

Про́бит-регрессия (пробит-модель, англ. probit) — применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь — бинарных) переменных от множества факторов, основанная на нормальном распределении (в отличие от, например, аналогичной логит-регрессии, основанной на логистическом распределении). В экономике (эконометрике) пробит-модели (наряду с логит-, гомпит- и др.) используются в моделях бинарного выбора или в моделях множественного выбора между различными альтернативами, для моделирования дефолтов компаний, в страховании жизни - для оценки вероятности смерти в зависимости от возраста и пола и т. д. В токсикологии пробит-регрессия используется для оценки влияния дозы или концентрации тех или иных веществ на биологические объекты.

Пробит-модель позволяет оценить вероятность того, что анализируемая (зависимая) переменная примет значение 1 при заданных значениях факторов (то есть это оценка доли "единиц" при данном значении факторов). В пробит-модели пробит-функция от вероятности моделируется как линейная комбинация факторов (включая константу). Пробит-функцией принято называть функцию, обратную к интегральной функции (CDF) стандартного нормального распределения, то есть функцию, определяющую квантиль стандартного нормального распределения для заданной вероятности $\text{[math]}$ $\text{[math]}$ $x_{q}=\Phi ^{-1}(q)$ $x_{q}=\Phi ^{-1}(q)$ .

Термин «probit» как производное от англ. probability unit предложил (впервые использовал) Честер Блисс (Chester Ittner Bliss [1899—1979])^[1] в своей статье, посвященной количественному анализу смертельного действия ядов на примере действия никотина на щавелевую тлю (Aphis rumicis L.)^[1]. С тех пор метод пробит-анализа особенно популярен в токсикологии. Само использование функции нормального распределения для описания зависимости «доза — эффект» восходит к английскому математику J. W. Trevan который показал, что интенсивность клеточного ответа на данную дозу лекарственного вещества подчиняется распределению Гаусса^[2].

Сущность моделиПравить

Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная $\text{[math]}$ $\text{[math]}$ $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными $\text{[math]}$ $\text{[math]}$ $1$ и $\text{[math]}$ $\text{[math]}$ $0$ . Например, $\text{[math]}$ $\text{[math]}$ $Y$ может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $\text{[math]}$ $\text{[math]}$ $X$ , которые оказывают влияние на $\text{[math]}$ $\text{[math]}$ $Y$ . В пробит-модели предполагается, что вероятность того, что $\text{[math]}$ $\text{[math]}$ $Y=1$ определяется нормальным распределением, таким образом пробит-модель имеет вид:

\text{[math]}

p(x)=P(Y=1\mid X=x)=\Phi (x^{T}b)

где $\text{[math]}$ $\text{[math]}$ $\Phi$ — интегральная функция распределения (CDF) стандартного нормального распределения, $\text{[math]}$ $\text{[math]}$ $b$ — неизвестные параметры, которые требуется оценить.

Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов b.

Как и в общем случае модели бинарного выбора в основе модели лежит предположение о наличии некоторой скрытой (ненаблюдаемой) переменной $\text{[math]}$ $\text{[math]}$ $Y^{*}$ , в зависимости от значений которой наблюдаемая переменная $\text{[math]}$ $\text{[math]}$ $Y$ принимает значение $\text{[math]}$ $\text{[math]}$ $0$ или $\text{[math]}$ $\text{[math]}$ $1$ :

\text{[math]}

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases}}

Предполагается, что скрытая переменная зависит от факторов $\text{[math]}$ $\text{[math]}$ $X$ в смысле обычной линейной регрессии $\text{[math]}$ $\text{[math]}$ $y^{*}=x^{T}b+\varepsilon$ , где случайная ошибка в данном случае имеет стандартное нормальное распределение $\text{[math]}$ $\text{[math]}$ $N(0,1)$ . Тогда

$\text{[math]}$ $\text{[math]}$ $p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b)=1-\Phi (-x^{T}b)=\Phi (x^{T}b)$

Последнее равенство следует из симметричности нормального распределения.

Также модель может быть обоснована через полезность альтернатив — не наблюдаемой функции $\text{[math]}$ $\text{[math]}$ $U(y,x)$ , то есть фактически двух функций $\text{[math]}$ $\text{[math]}$ $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ и $\text{[math]}$ $\text{[math]}$ $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$ соответственно для двух альтернатив. Функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной.

Оценка параметровПравить

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма $\text{[math]}$ $\text{[math]}$ $n$ факторов $\text{[math]}$ $\text{[math]}$ $X$ и зависимой переменной $\text{[math]}$ $\text{[math]}$ $Y$ . Для данного номера наблюдения используем индекс $\text{[math]}$ $\text{[math]}$ $t$ . Логарифмическая функция правдоподобия имеет вид:

\text{[math]}

l(b)=\sum _{t=1}^{n}(y_{t}\ln \Phi (x_{t}^{T}b)+(1-y_{t})\ln(1-\Phi (x_{t}^{T}b))

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

\text{[math]}

{\sqrt {n}}({\hat {b}}-b)\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

где $\text{[math]}$ $\text{[math]}$ $\Omega ^{-1}$ — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке):

\text{[math]}

\Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X'b)}{\Phi (X'b)(1-\Phi (X'b))}}XX'{\bigg ]}

,

где $\text{[math]}$ $\text{[math]}$ $\varphi$ — функция плотности вероятности (PDF) стандартного нормального распределения.

Матрица $\text{[math]}$ $\text{[math]}$ $\Omega$ неизвестна и используется её состоятельная оценка:

\text{[math]}

{\hat {\Omega }}={\frac {1}{n}}\sum _{t=1}^{n}{\bigg [}{\frac {\varphi ^{2}(x_{t}^{T}b)}{\Phi (x_{t}^{T}b)(1-\Phi (x_{t}^{T}b))}}x_{t}x_{t}^{T}{\bigg ]}

Обычно оценка модели производится в специализированных (статистических, эконометрических) программных продуктах, например, Statistica, EViews, Matrixer, R^[3], SPSS и др.^[4], хотя возможна «ручная» оценка, например в MS Office Excel, используя встроенный «Поиск решения» для максимизации логарифмической функции правдоподобия.

Показатели качества и тестирование моделиПравить

Для оценки качества построенной пробит-регрессии применяются стандартные для моделей бинарного выбора статистики:

Статистика отношения правдоподобия ( $\text{[math]}$ $\text{[math]}$ $L R$ ).

Псевдо-коэффициент детерминации ( $\text{[math]}$ $\text{[math]}$ $R_{pseudo}^{2})$

Коэффициент детерминации МакФаддена (индекс отношения правдоподобия)( $\text{[math]}$ $\text{[math]}$ $R_{McFadden}^{2},LRI$ )

Информационные критерии Акаике, Шварца, Ханнана-Куинна ( $\text{[math]}$ $\text{[math]}$ $AIC,BIC(SC),HQ$ ).

Статистика Хосмера-Лемешоу (Hosmer-Lemeshow, $\text{[math]}$ $\text{[math]}$ $H L$ ).

Статистика Эндрюса (Andrews)

Важное значение имеет анализ доли правильных прогнозов. В частности анализируется доля правильных и (или) неправильных прогнозов для значения каждого из значений зависимой переменной (0 и 1).

ПримерыПравить

ТоксикологияПравить

Рассмотрим пробит-модель на примере действия инсектицида на насекомых^[5]^[6]. Зависимой бинарной переменной является переменная, принимающая значение 1, если данное насекомое погибло, и 0 в противном случае. В выборке $\text{[math]}$ $\text{[math]}$ $n$ насекомых реакция на инсектицид одних насекомых не зависит от реакции других. В качестве фактора модели выступает «измеритель» дозы $\text{[math]}$ $\text{[math]}$ $x=\lg(d)$ , где $\text{[math]}$ $\text{[math]}$ $d$ -доза инсектицида. Вероятность того, что случайно отобранное из совокупности насекомое погибнет за данное время, равна

\text{[math]}

p(x)=\Phi (\alpha +\beta x)

.

Если параметры модели $\text{[math]}$ $\text{[math]}$ $\alpha$ и $\text{[math]}$ $\text{[math]}$ $\beta$ известны (обозначим оценки $\text{[math]}$ $\text{[math]}$ $a$ и $\text{[math]}$ $\text{[math]}$ $b$ соответственно), то уровень дозы $\text{[math]}$ $\text{[math]}$ $x_{p}$ , при котором погибает некоторый процент насекомых, находится из уравнения

\text{[math]}

a+bx_{p}=\Phi ^{-1}(p)=q_{p}\Rightarrow x_{p}=(q_{p}-a)/b

,

где $\text{[math]}$ $\text{[math]}$ $q_{p}$ — квантиль уровня $\text{[math]}$ $\text{[math]}$ $p$ стандартного нормального распределения.

В частности, для уровня дозы $\text{[math]}$ $\text{[math]}$ $x_{50}$ , при которой погибает 50 % насекомых, $\text{[math]}$ $\text{[math]}$ $\lg d_{50}=x_{50}=-a/b\Rightarrow d_{50}=10^{-a/b}$ . Эту величину в токсикологии принято обозначать ЛД₅₀.

Можно также построить приблизительный доверительный интервал для $\text{[math]}$ $\text{[math]}$ $x_{p}$ следующим образом: $\text{[math]}$ $\text{[math]}$ $x_{p}\pm 2\sigma _{x_{p}}$ . Дисперсию $\text{[math]}$ $\text{[math]}$ $\sigma _{x_{p}}^{2}$ можно оценить приблизительно следующим образом:

\text{[math]}

\sigma _{x_{p}}^{2}=(\sigma _{a}^{2}+2x_{p}\sigma _{ab}+x_{p}^{2}\sigma _{b}^{2})/b^{2}

,

где $\text{[math]}$ $\text{[math]}$ $\sigma _{a}^{2},\sigma _{b}^{2}$ — оценка дисперсии оценок параметров модели, $\text{[math]}$ $\text{[math]}$ $\sigma _{ab}$ — оценка ковариации между оценками параметров.

Более точный доверительный интервал можно оценить исходя теоремы Феллера, в соответствии с которой 95%-е доверительные границы для $\text{[math]}$ $\text{[math]}$ $x_{p}$ являются корнями $\text{[math]}$ $\text{[math]}$ $\lambda _{1}$ , $\text{[math]}$ $\text{[math]}$ $\lambda _{2}$ квадратного уравнения

\text{[math]}

\lambda ^{2}(b^{2}-t^{2}\sigma _{b}^{2})-2\lambda (b^{2}x_{p}+t^{2}\sigma _{ab})+(b^{2}x_{p}^{2}-t^{2}\sigma _{a}^{2})=0

,

где $\text{[math]}$ $\text{[math]}$ $t=t_{95}$ — 95%-я точка распределения Стьюдента.

Вариации и обобщенияПравить

На практике встречаются ситуации, когда необходимо исследовать не две альтернативы, а несколько альтернатив. Если эти альтернативы неупорядоченные, то говорят о множественной (multinominal) пробит-модели. В случае упорядоченных альтернатив (например, 5-балльная оценка качества услуги или товара) говорят о порядковой или упорядоченной (ordered) пробит-модели.

См. такжеПравить

ПримечанияПравить

↑ ¹ ² Bliss CI. The method of probits (англ.) // Science. — 1934. — Vol. 79, no. 2037. — P. 38—39. — doi:10.1126/science.79.2037.38. — PMID 17813446. — JSTOR 1659792.
↑ Trevan, J.W. 1927. The error of determination of toxicity. Proc. Royal Soc. 101B: 483—514. цитировано по Альберт А. Избирательная токсичность. Физико-химические основы терапии. Пер. с англ. В 2 томах. Т. 1. — М: Медицина, 1989, С. 247. ISBN 5-225-01519-0
↑ R Data Analysis Examples — Probit Regression (неопр.). Дата обращения: 3 августа 2012. Архивировано 29 ноября 2012 года.
↑ en:Comparison_of_statistical_packages#Regression
↑ Finney, D.J. Probit Analysis (3rd edition) (неопр.). — Cambridge University Press, Cambridge, UK, 1971. — ISBN 052108041X.
↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3

ЛитератураПравить

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..

Носко В.П. Эконометрика для начинающих (Дополнительные главы). – М.: ИЭПП, 2005. С. 379.

[autogenerated1-1] ¹ ² Bliss CI. The method of probits (англ.) // Science. — 1934. — Vol. 79, no. 2037. — P. 38—39. — doi:10.1126/science.79.2037.38. — PMID 17813446. — JSTOR 1659792.

[2] Trevan, J.W. 1927. The error of determination of toxicity. Proc. Royal Soc. 101B: 483—514. цитировано по Альберт А. Избирательная токсичность. Физико-химические основы терапии. Пер. с англ. В 2 томах. Т. 1. — М: Медицина, 1989, С. 247. ISBN 5-225-01519-0

[3] R Data Analysis Examples — Probit Regression (неопр.). Дата обращения: 3 августа 2012. Архивировано 29 ноября 2012 года.

[4] :Comparison_of_statistical_packages#Regression

[5] Finney, D.J. Probit Analysis (3rd edition) (неопр.). — Cambridge University Press, Cambridge, UK, 1971. — ISBN 052108041X.

[6] Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3

[1]

[2]

[3]

[4]

[5]

[6]