Это не официальный сайт wikipedia.org 01.01.2023

Регрессионный анализ — Википедия

Регрессионный анализ

(перенаправлено с «Коэффициент регрессии»)

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных X 1 , X 2 , . . . , X p на зависимую переменную Y . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализаПравить

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессииПравить

Строго регрессионную зависимость можно определить следующим образом. Пусть Y , X 1 , X 2 , , X p   — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X 1 = x 1 , X 2 = x 2 , , X p = x p   определено условное математическое ожидание

y ( x 1 , x 2 , , x p ) = E ( Y X 1 = x 1 , X 2 = x 2 , , X p = x p )   (уравнение регрессии в общем виде),

то функция y ( x 1 , x 2 , , x p )   называется регрессией величины Y   по величинам X 1 , X 2 , , X p  , а её графиклинией регрессии Y   по X 1 , X 2 , , X p  , или уравнением регрессии.

Зависимость Y   от X 1 , X 2 , , X p   проявляется в изменении средних значений Y   при изменении X 1 , X 2 , , X p  . Хотя при каждом фиксированном наборе значений X 1 = x 1 , X 2 = x 2 , , X p = x p   величина Y   остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y   при изменении X 1 , X 2 , . . . , X p  , используется средняя величина дисперсии Y   при разных наборах значений X 1 , X 2 , . . . , X p   (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: Y = B X + U  , где U   — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)Править

На практике линия регрессии чаще всего ищется в виде линейной функции Y = b 0 + b 1 X 1 + b 2 X 2 + + b N X N   (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y   от их оценок Y ^   (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

k = 1 M ( Y k Y k ^ ) 2 min  

( M   — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y = y ( x 1 , x 2 , . . . x N )  .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

σ ( b ¯ ) = 1 2 k = 1 M ( Y k Y ^ k ) 2  

Условие минимума функции невязки:

{ σ ( b ¯ ) b i = 0 i = 0... N { i = 1 M y i = i = 1 M j = 1 N b j x i , j + b 0 M i = 1 M y i x i , k = i = 1 M j = 1 N b j x i , j x i , k + b 0 i = 1 M x i , k k = 1 , , N  

Полученная система является системой N + 1   линейных уравнений с N + 1   неизвестными b 0 , , b N  .

Если представить свободные члены левой части уравнений матрицей

B = ( i = 1 M y i i = 1 M y i x i , 1 i = 1 M y i x i , N ) ,  

а коэффициенты при неизвестных в правой части — матрицей

A = ( M i = 1 M x i , 1 i = 1 M x i , 2 . . . i = 1 M x i , N i = 1 M x i , 1 i = 1 M x i , 1 x i , 1 i = 1 M x i , 2 x i , 1 . . . i = 1 M x i , N x i , 1 i = 1 M x i , 2 i = 1 M x i , 1 x i , 2 i = 1 M x i , 2 x i , 2 . . . i = 1 M x i , N x i , 2 i = 1 M x i , N i = 1 M x i , 1 x i , N i = 1 M x i , 2 x i , N . . . i = 1 M x i , N x i , N ) ,  

то получаем матричное уравнение: A × X = B  , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

X = ( b 0 b 1 b N )  

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессииПравить

Параметры b i   являются частными коэффициентами корреляции; ( b i ) 2   интерпретируется как доля дисперсии Y, объяснённая X i  , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад X i   в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида X 1 X 2  , X 1 X 2 X 3  , свидетельствующее о наличии взаимодействий между признаками X 1  , X 2   и т. д. (см. Мультиколлинеарность).

См. такжеПравить

ЛитератураПравить

  • Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
  • Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
  • Радченко С. Г. Устойчивые методы оценивания статистических моделей. — К.: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
  • Радченко С. Г. Методология регрессионного анализа. — К.: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.