Это не официальный сайт wikipedia.org 01.01.2023

Линейная регрессия — Википедия

Линейная регрессия

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

y=ax+b
Пример линии (красная), построенной с использованием линейной регрессии

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

ОпределениеПравить

Регрессионная модель

y = f ( x , b ) + ε ,   E ( ε )  ,

где b   — параметры модели, ε   — случайная ошибка модели; называется линейной регрессией, если функция регрессии f ( x , b )   имеет вид

f ( x , b ) = b 0 + b 1 x 1 + b 2 x 2 + . . . + b k x k  ,

где b j   — параметры (коэффициенты) регрессии, x j   — регрессоры (факторы модели), k — количество факторов модели[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

j   b j = f x j = c o n s t  

Параметр b 0  , при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f ( x , b ) = b 1 x 1 + b 2 x 2 + + b k x k = j = 1 k b j x j = x T b  ,

где x T = ( x 1 , x 2 , . . . , x k )   — вектор регрессоров, b = ( b 1 , b 2 , , b k ) T   — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессияПравить

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

y t = a + b x t + ε t  

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

Y = b 0 + b 1 x i 1 + . . . + b j x i j + . . . + b k x i k + e i  

ПримерыПравить

Модель затрат организации (без указания случайной ошибки)Править

T C = F C + V C = F C + v Q  

Простейшая модель потребительских расходов (Кейнс)Править

C = a + b Y + ε  
  • C   — потребительские расходы
  • Y   — располагаемый доход
  • b   — «предельная склонность к потреблению»
  • a   — автономное (не зависящее от дохода) потребление.

Матричное представлениеПравить

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда y t   — значение переменной y в t-м наблюдении, x t j   — значение j-го фактора в t-м наблюдении. Соответственно, x t T = ( x t 1 , x t 2 , . . . , x t k )   — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

y t = b 1 x t 1 + b 2 x t 2 + . . . + b k x t k = j = 1 k b j x t j = x t T b + ε t   ,   E ( ε t ) = 0   ,   t = 1.. n  

Введём обозначения:

y = ( y 1 y 2 . . . y n )   — вектор наблюдений зависимой переменой y
X = ( x 11 x 12 . . . x 1 k x 21 x 22 . . . x 2 k . . . x n 1 x n 2 . . . x n k )   — матрица факторов.
ε = ( ε 1 ε 2 . . . ε n )   — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y = X b + ε  

Классическая линейная регрессияПравить

В классической линейной регрессии предполагается, что наряду со стандартным условием E ( ε t ) = 0   выполнены также следующие предположения (условия Гаусса-Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: V ( ε t ) = σ 2 = c o n s t  
  2. Отсутствие автокорреляции случайных ошибок: i , j ,   i j     c o v ( ε i , ε j ) = 0  

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: V ( ε ) = σ 2 I n  

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица X   имела полный ранг ( k  ), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценкиПравить

См. такжеПравить

ПримечанияПравить

ЛитератураПравить

  • Е.З. Демиденко. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
  • Дж. Себер. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.