Это не официальный сайт wikipedia.org 01.01.2023

Байесовская линейная регрессия — Википедия

Байесовская линейная регрессия

Байесовская линейная регрессия — это подход в линейной регрессии, в котором статистический анализ проводится в контексте байесовского вывода: когда регрессионная модель имеет ошибки[en], имеющие нормальное распределение, и, если принимается определённая форма априорного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

Конфигурация моделиПравить

Рассмотрим стандартную задачу линейной регрессии, в которой для i = 1 , . . . , n   мы указываем среднее условное распределение величины y i   для заданного вектора k × 1   предсказаний x i  :

y i = x i T β + ϵ i ,  

где β   является k × 1   вектором, а ϵ i   являются независимыми и одинаково распределёнными нормально случайными величинами:

ϵ i N ( 0 , σ 2 ) .  

Это соответствует следующей функции правдоподобия:

ρ ( y | X , β , σ 2 ) ( σ 2 ) n / 2 e 1 2 σ 2 ( y X β ) T ( y X β ) .  

Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдоинверсной матрицы Мура — Пенроуза:

β ^ = ( X T X ) 1 X T y  

где X   является n × k   матрицей плана[en], каждая строка которой является вектором предсказаний x i T  , а y   является вектор-столбцом r [ y 1 y n ] T  .

Это является частотным[en] подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о β  . В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах β   и σ  . Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.

Регрессия с сопряжёнными распределениямиПравить

Сопряжённое априорное распределениеПравить

Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостериорное распределение можно вывести аналитически.

Априорное распределение ρ ( β , σ 2 )   является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом β   и σ  . Поскольку логарифмическое правдоподобие квадратично от β  , его перепишем так, что правдоподобие становится нормальным от ( β β ^ )  . Запишем

( y X β ) T ( y X β ) = ( y X β ^ ) T ( y X β ^ ) + ( β β ^ ) T ( X T X ) ( β β ^ ) .  

Правдоподобие теперь переписывается как

ρ ( y | X , β , σ 2 ) ( σ 2 ) v / 2 e v s 2 2 σ 2 ( σ 2 ) ( n v ) / 2 × e 1 2 σ 2 ( β β ^ ) T ( X T X ) ( β β ^ ) ,  

где

v s 2 = ( y X β ^ ) T ( y X β ^ )   и v = n k  ,

где k   является числом коэффициентов регрессии.

Это указывает на вид априорного распределения:

ρ ( β , σ 2 ) = ρ ( σ 2 ) ρ ( β | σ 2 ) ,  

где ρ ( σ 2 )   является обратным гамма-распределением[en]

ρ ( σ 2 ) ( σ 2 ) v 0 2 1 e v 0 s 0 2 2 σ 2 .  

В обозначениях, введённых в статье Обратное гамма-распределение[en], это плотность распределения Inv-Gamma ( a 0 , b 0 )   с a 0 = v 0 2   и b 0 = 1 2 v 0 s 0 2  , где v 0   и s 0 2   являются априорными значениями v   и s 2   соответственно. Эквивалентно, эту плотность можно описать как масштабированное обратное распределение хи-квадрат[en] Scale-inv- χ 2 ( v 0 , s 0 2 ) .  

Далее, условная априорная плотность ρ ( β | σ 2 )   является нормальным распределением,

ρ ( β | σ 2 ) ( σ 2 ) k 2 e 1 2 σ 2 ( β μ 0 ) T Λ 0 ( β μ 0 ) .  

В обозначениях нормального распределения условное априорное распределение равно N ( μ 0 , σ 2 Λ 0 1 ) .  

Апостериорное распределениеПравить

При указанном априорным распределении апостериорное распределение можно выразить как

ρ ( β , σ 2 | y , X ) ρ ( y | X , β , σ 2 ) ρ ( β | σ 2 ) ρ ( σ 2 )  
( σ 2 ) n / 2 e 1 2 σ 2 ( y X β ) T ( y X β )  
× ( σ 2 ) k / 2 e 1 2 σ 2 ( β μ 0 ) T Λ 0 ( β μ 0 )  
× ( σ 2 ) ( a 0 + 1 ) e b 0 σ 2 .  

После некоторых преобразований[1] апостериорная вероятность может быть переписана так, что апостериорное среднее μ n   вектора параметров β   может быть выражено в терминах оценки по методу наименьших квадратов β ^   и априорного среднего μ 0  , где поддержка априорной вероятности выражается матрицей априорной точности Λ 0  

μ n = ( X T X + Λ 0 ) 1 ( X T X β ^ + Λ 0 μ 0 ) .  

Для подтверждения, что μ n   в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к квадратичной форме[en] от β μ n  [2].

( y X β ) T ( y X β ) + ( β μ 0 ) T Λ 0 ( β μ 0 ) =  
( β μ n ) T ( X T X + Λ 0 ) ( β μ n ) + y T y μ n T ( X T X + Λ 0 ) μ n + μ 0 T Λ 0 μ 0 .  

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на обратное гамма-распределение[en]:

ρ ( β , σ 2 | y , X ) ( σ 2 ) k 2 e 1 2 σ 2 ( β μ n ) T ( X T X + Λ 0 ) ( β μ n )  
× ( σ 2 ) n + 2 a 0 2 1 e 2 b 0 + y T y μ n T ( X T X + Λ 0 ) μ n + μ 0 T Λ 0 μ 0 2 σ 2 .  

Поэтому апостериорное распределение можно параметризовать следующим образом.

ρ ( β , σ 2 | y , X ) ρ ( β | σ 2 , y , X ) ρ ( σ 2 | y , X ) ,  

где два множителя соответствуют плотностям распределений N ( μ n , σ 2 Λ n 1 )   и Inv-Gamma ( a n , b n )   с параметрами, задаваемыми выражениями

Λ n = ( X T X + Λ 0 ) , μ n = ( Λ n ) 1 ( X T X β ^ + Λ 0 μ 0 ) ,  
a n = a 0 + n 2 , b n = b 0 + 1 2 ( y T y + μ 0 T Λ 0 μ 0 μ n T Λ n μ n ) .  

Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам

μ n = ( X T X + Λ 0 ) 1 ( Λ 0 μ 0 + X T X β ^ ) = ( X T X + Λ 0 ) 1 ( Λ 0 μ 0 + X T y ) ,  
Λ n = ( X T X + Λ 0 ) ,  
a n = a 0 + n 2 ,  
b n = b 0 + 1 2 ( y T y + μ 0 T Λ 0 μ 0 μ n T Λ n μ n ) .  

Обоснованность моделиПравить

Обоснованность модели p ( y | m )   — это вероятность данных для данной модели m  . Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия p ( y | X , β , σ )   и априорным распределением параметров, то есть, p ( β , σ )  . Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования p ( y , β , σ | X )   по всем возможным значениям β   и σ  .

p ( y | m ) = p ( y | X , β , σ ) p ( β , σ ) d β d σ  

Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[3]

p ( y | m ) = 1 ( 2 π ) n / 2 det ( Λ 0 ) det ( Λ n ) b 0 a 0 b n a n Γ ( a n ) Γ ( a 0 )  

Здесь Γ   означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений β   и σ  .

p ( y | m ) = p ( β , σ | m ) p ( y | X , β , σ , m ) p ( β , σ | y , X , m )  

Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.

Другие случаиПравить

В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом приближенного байесовского вывода[en], таким как выборка по методу Монте-Карло[4] или вариационные байесовские методы[en].

Частный случай μ 0 = 0 , Λ 0 = c E   называется гребневой регрессией.

Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской оценки ковариационной матрицы[en] — см. Байесовская мультивариантная линейная регрессия[en].

См. такжеПравить

ПримечанияПравить

  1. Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
  2. Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
  3. Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
  4. Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.

ЛитератураПравить

Программное обеспечениеПравить