Это не официальный сайт wikipedia.org 01.01.2023

Модель бинарного выбора — Википедия

Модель бинарного выбора

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает в том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Сущность моделиПравить

Пусть переменная Y   является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1   и 0  . Например, Y   может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X  , которые оказывают влияние на Y  .

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

E ( Y X = x ) = 1 P ( Y = 1 X = x ) + 0 P ( Y = 0 X = x ) = P ( Y = 1 X = x ) = p ( x )  

В связи с этим применение, например, стандартной модели линейной регрессии y = x T b + ε   теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p ( x )   через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y  , в зависимости от значений которой наблюдаемая переменная Y   принимает значение 0 или единица:

Y = { 1 , Y > 0 0 , Y < 0  

Предполагается, что скрытая переменная зависит от факторов X   в смысле обычной линейной регрессии y = x T b + ε  , где случайная ошибка имеет распределение F  . Тогда

p ( x ) = P ( Y > 0 | X = x ) = P ( x T b + ε > 0 ) = P ( ε > x T b ) = 1 F ( x T b )  

Если распределение симметричное, то можно записать

p ( x ) = F ( x T b )  

Экономическая интерпретацияПравить

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции U ( y , x )  , то есть фактически двух функций U 1 ( x ) = x T b 1 + ε 1   и U 0 ( x ) = x T b 0 + ε 0   соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив Δ U ( x ) = U 1 ( x ) U 0 ( x ) = x T ( b 1 b 0 ) + ( ε 1 ε 0 ) = x T b + ε  . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределенийПравить

Пробит. В пробит-модели в качестве F   используется интегральная функция стандартного нормального распределения Φ  :

p ( x ) = 1 Φ ( x T b ) = Φ ( x T b )  

Логит. В логит-модели используется CDF логистического распределения:

p ( x ) = 1 e x T b / ( 1 + e x T b ) = e x T b / ( 1 + e x T b )  

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

p ( x ) = 1 ( 1 e e x T b ) = e e x T b  

Оценка параметровПравить

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n   факторов X   и зависимой переменной Y  . Для данного номера наблюдения используем индекс t  . Вероятность получения в наблюдении t   значения y t   можно смоделировать следующим образом:

P ( Y = y t ) = p y t ( x t ) ( 1 p ( x t ) ) 1 y t = ( 1 F ( x t T b ) ) y t F 1 y t ( x t T b )  

В самом деле, если y t = 1  , то второй множитель очевидно равен 1, а первый как раз p ( x t )  , если же y t = 0  , то первый множитель равен единице, а второй — ( 1 p ( x t ) )  . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

L ( b ) = t = 1 n ( 1 F ( x t T b ) ) y t F 1 y t ( x t T b )  

Соответственно логарифмическая функция правдоподобия имеет вид:

l ( b ) = t = 1 n y t ln ( 1 F ( x t T b ) ) + ( 1 y t ) ln F ( x t T b )  

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

n ( b ^ b )   d   N ( 0 , Ω 1 ) ,  

где Ω 1   — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование моделиПравить

L R = 2 ( l 1 l 0 )  ,

где l 1 , l 0   — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой p ( x )   является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения χ 2 ( k )  , где k  -количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

  • Псевдо-коэффициент детерминации:
R p s e u d o 2 = 1 1 1 + L R / n = L R L R + n  
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
R M c F a d d e n 2 = L R I = 1 l 1 / l 0  

Оба показателя меняются в пределах от 0 до 1.

  • Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

  • Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
p j = y ¯ j = i = 1 n j y i j / n j  
и предсказанная средняя вероятность по подруппе
p ^ ¯ j = i = 1 n j p ^ i j / n j  .
Тогда значение статистики HL определяется по формуле
H L = j = 1 J n j ( p j p ^ ¯ j ) 2 p ^ ¯ j ( 1 p ^ ¯ j )  

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением χ 2 ( J 2 )  .

  • Статистика Эндрюса (Andrews)

См. такжеПравить

ЛитератураПравить

  • Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..
  • Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
  • Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.