Это не официальный сайт wikipedia.org 01.01.2023

Логистическая регрессия — Википедия

Логистическая регрессия

Логистическая регрессия или логит-модель (англ. logit model) — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).

ОписаниеПравить

 
Логистическая функция: f ( x ) = 1 1 + e x  .

Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y  , принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x 1 , x 2 , . . . , x n  , на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. Как и в случае линейной регрессии, для простоты записи вводится фиктивный признак x 0 = 1.  

Делается предположение о том, что вероятность наступления события y = 1   равна:

P { y = 1 x } = f ( z ) ,  

где z = θ T x = θ 0 + θ 1 x 1 + + θ n x n  , x   и θ   — векторы-столбцы значений независимых переменных 1 , x 1 , , x n   и параметров (коэффициентов регрессии) — вещественных чисел θ 0 , . . . , θ n  , соответственно, а f ( z )   — так называемая логистическая функция (иногда также называемая сигмоидом или логит-функцией):

f ( z ) = 1 1 + e z .  

Так как y   принимает лишь значения 0 и 1, то вероятность принять значение 0 равна:

P { y = 0 x } = 1 f ( z ) = 1 f ( θ T x ) .  

Для краткости функцию распределения y   при заданном x   можно записать в таком виде:

P { y x } = f ( θ T x ) y ( 1 f ( θ T x ) ) 1 y , y { 0 , 1 } .  

Фактически, это есть распределение Бернулли с параметром, равным f ( θ T x )  .

Подбор параметровПравить

Для подбора параметров θ 0 , . . . , θ n   необходимо составить обучающую выборку, состоящую из наборов значений независимых переменных и соответствующих им значений зависимой переменной y  . Формально, это множество пар ( x ( 1 ) , y ( 1 ) ) , . . . , ( x ( m ) , y ( m ) )  , где x ( i ) R n   — вектор значений независимых переменных, а y ( i ) { 0 , 1 }   — соответствующее им значение y  . Каждая такая пара называется обучающим примером.

Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры θ  , максимизирующие значение функции правдоподобия на обучающей выборке:

θ ^ = argmax θ L ( θ ) = argmax θ i = 1 m P { y = y ( i ) x = x ( i ) } .  

Максимизация функции правдоподобия эквивалентна максимизации её логарифма:

ln L ( θ ) = i = 1 m log P { y = y ( i ) x = x ( i ) } = i = 1 m [ y ( i ) ln f ( θ T x ( i ) ) + ( 1 y ( i ) ) ln ( 1 f ( θ T x ( i ) ) ) ]  , где θ T x ( i ) = θ 0 + θ 1 x 1 ( i ) + + θ n x n ( i ) .  

Для максимизации этой функции может быть применён, например, метод градиентного спуска. Он заключается в выполнении следующих итераций, начиная с некоторого начального значения параметров θ  :

θ := θ + α ln L ( θ ) = θ + α i = 1 m ( y ( i ) f ( θ T x ( i ) ) ) x ( i ) , α > 0.  

На практике также применяют метод Ньютона и стохастический градиентный спуск.

РегуляризацияПравить

Для улучшения обобщающей способности получающейся модели, то есть уменьшения эффекта переобучения, на практике часто рассматривается логистическая регрессия с регуляризацией.

Регуляризация заключается в том, что вектор параметров θ   рассматривается как случайный вектор с некоторой заданной априорной плотностью распределения p ( θ )  . Для обучения модели вместо метода наибольшего правдоподобия при этом используется метод максимизации апостериорной оценки, то есть ищутся параметры θ  , максимизирующие величину:

i = 1 m P { y ( i ) x ( i ) , θ } p ( θ ) .  

В качестве априорного распределения часто выступает многомерное нормальное распределение N ( 0 , σ 2 I )   с нулевым средним и матрицей ковариации σ 2 I  , соответствующее априорному убеждению о том, что все коэффициенты регрессии должны быть небольшими числами, идеально — многие малозначимые коэффициенты должны быть нулями. Подставив плотность этого априорного распределения в формулу выше, и прологарифмировав, получим следующую оптимизационную задачу:

i = 1 m log P { y ( i ) x ( i ) , θ } λ θ 2 max ,  

где λ = const / σ 2   — параметр регуляризации. Этот метод известен как L2-регуляризованная логистическая регрессия, так как в целевую функцию входит L2-норма вектора параметров для регуляризации.

Если вместо L2-нормы использовать L1-норму, что эквивалентно использованию распределения Лапласа, как априорного, вместо нормального, то получится другой распространённый вариант метода — L1-регуляризованная логистическая регрессия:

i = 1 m log P { y ( i ) x ( i ) , θ } λ θ 1 max .  

ПрименениеПравить

Эта модель часто применяется для решения задач классификации — объект x   можно отнести к классу y = 1  , если предсказанная моделью вероятность P { y = 1 x } > 0 , 5  , и к классу y = 0   в противном случае. Получающиеся при этом правила классификации являются линейными классификаторами.

Связанные методыПравить

На логистическую регрессию очень похожа пробит-регрессия, отличающаяся от неё лишь другим выбором функции f ( z )  . Softmax-регрессия обобщает логистическую регрессию на случай многоклассовой классификации, то есть когда зависимая переменная y   принимает более двух значений. Все эти модели в свою очередь являются представителями широкого класса статистических моделей — обобщённых линейных моделей.

См. такжеПравить

ЛитератураПравить