Это не официальный сайт wikipedia.org 01.01.2023

Метод максимального правдоподобия — Википедия

Метод максимального правдоподобия

(перенаправлено с «Критерий отношения правдоподобия»)

Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.

Метод максимального правдоподобия был проанализирован, рекомендован и значительно популяризирован Р. Фишером между 1912 и 1922 годами (хотя ранее он был использован Гауссом, Лапласом и другими).

Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных и обеспечения оценки параметров модели.

Метод максимального правдоподобия соответствует многим известным методам оценки в области статистики. Например, вы интересуетесь таким антропометрическим параметром, как рост жителей России. Предположим, у вас имеются данные о росте некоторого количества людей, а не всего населения. Кроме того, предполагается, что рост является нормально распределённой величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста в выборке являются максимально правдоподобными к среднему значению и дисперсии всего населения.

Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия даёт уникальный и простой способ определить решения в случае нормального распределения.

Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:

  • линейные модели и обобщённые линейные модели;
  • факторный анализ;
  • моделирование структурных уравнений;
  • многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
  • дискретные модели выбора.

Сущность методаПравить

Пусть есть выборка X 1 , , X n   из распределения P θ  , где θ Θ   — неизвестные параметры. Пусть L ( x θ ) : Θ R   — функция правдоподобия, где x R n  . Точечная оценка

θ ^ M Π = θ ^ M Π ( X 1 , , X n ) = a r g m a x θ Θ L ( X 1 , , X n θ )  

называется оце́нкой максима́льного правдоподо́бия параметра θ  . Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.

Часто вместо функции правдоподобия L   используют логарифмическую функцию правдоподобия l = ln L  . Так как функция x ln x , x > 0   монотонно возрастает на всей области определения, максимум любой функции L ( θ )   является максимумом функции ln L ( θ )   и наоборот. Таким образом,

θ ^ M Π = a r g m a x θ Θ l ( X 1 , , X n θ )  ,

Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю её градиента:

g ( θ ) = l ( x , θ 0 ) θ = 0  

Достаточное условие экстремума может быть сформулировано как отрицательная определённость гессиана — матрицы вторых производных:

H = 2 l ( x , θ 0 ) θ θ T  

Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:

I ( θ ) = E [ g ( θ ) g ( θ ) T ]  

В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:

I = E ( H 0 )  

СвойстваПравить

  • Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что
n ( θ ^ θ ) d N ( 0 , I 1 )  

где I = lim n 1 n E ( H )   — асимптотическая информационная матрица.

Асимптотическая эффективность означает, что асимптотическая ковариационная матрица I 1   является нижней границей для всех состоятельных асимптотически нормальных оценок.

  • Если θ ^   — оценка метода максимального правдоподобия, параметров θ  , то g ( θ ^ )   является оценкой максимального правдоподобия для g ( θ )  , где g — непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом.
  • Также необходимым условием МП-оценок является выполнение системы вида:
    { θ 1 ln L n ( x , θ ) = 0 θ k ln L n ( x , θ ) = 0  
где L n ( x , θ ) = i = 1 n L 1 ( x i , θ )   — функция правдоподобия выборки x   объёма n  

ПримерыПравить

f ( x θ ) = { 1 θ n , x [ 0 , θ ] n R n 0 , x [ 0 , θ ] n .  

Последнее равенство может быть переписано в виде:

f ( x θ ) = { 1 θ n , θ max ( x 1 , , x n ) 0 , θ < max ( x 1 , , x n ) ,  

где x = ( x 1 , , x n )  , откуда видно, что своего максимума функция правдоподобия достигает в точке θ = max ( x 1 , , x n )  . Таким образом

θ ^ M Π = max ( X 1 , , X n )  .

Такая оценка будет смещенной: P { max ( X 1 , , X n ) x } = ( x θ ) n  , откуда E θ ^ M Π = 0 θ x d ( x θ ) n = n n + 1 θ  

  • Пусть X 1 , , X n N ( μ , σ 2 )   — независимая выборка из нормального распределения с неизвестными средним и дисперсией. Построим оценку максимального правдоподобия ( μ ^ M Π , σ 2 ^ M Π ) T   для неизвестного вектора параметров ( μ , σ 2 ) T  . Логарифмическая функция правдоподобия принимает вид
L ( x μ , σ 2 ) = n 2 ln ( 2 π σ 2 ) 1 2 σ 2 i = 1 n ( X i μ ) 2  .

Чтобы найти её максимум, приравняем к нулю частные производные:

{ μ L ( x μ , σ 2 ) = 0 σ 2 L ( x μ , σ 2 ) = 0 { i = 1 n X i n μ σ 2 = 0 n 2 σ 2 + i = 1 n ( X i μ ) 2 2 ( σ 2 ) 2 = 0 ,  

откуда

μ ^ M Π = X ¯   — выборочное среднее, а
σ 2 ^ M Π = S n 2   — выборочная дисперсия.

Применение метода[2]Править

Обработка экспериментаПравить

Предположим, что мы измеряем некоторую величину a  . Сделав одно измерение, получили её значение x 1   с ошибкой σ 1  : x 1 ± σ 1  . Запишем плотность вероятности того, что величина a   примет значение x 1  :

W ( a ) = 1 2 π σ 1 2 exp [ ( x 1 a ) 2 2 σ 1 2 ]  .

Теперь предположим, что мы провели несколько таких измерений и получили x 1 ± σ 1 , x 2 ± σ 2 x n ± σ n  . Плотность вероятности того, что величина a   примет значения x 1 , x 2 x n  , будет:

W ( a ) = i = 1 n 1 2 π σ i 2 exp [ ( x i a ) 2 2 σ i 2 ]  .

Эта функция называется функцией правдоподобия. Наиболее вероятное значение измеряемой величины a   определяется по максимуму функции правдоподобия. Более удобной является логарифмическая функция правдоподобия:

L ( a ) = ln W ( a ) = i = 1 n ( x i a ) 2 2 σ i 2 + i = 1 n ln 1 2 π σ i 2  .

Продифференцируем логарифмическую функцию правдоподобия по a  :

L a = i = 1 n x i a σ i 2  .

Приравняем L a   к 0   и получим некоторое значение a = a  :

a = i = 1 n x i σ i 2 i = 1 n 1 σ i 2  .

Крамер сформулировал следующую теорему:

Теорема: Не существует другого метода обработки результатов эксперимента, который дал бы лучшее приближение к истине, чем метод максимального правдоподобия.

Ошибки измеренийПравить

Предположим, что мы провели серию измерений и получили серию значений a  , естественно записать, что это распределение будет иметь гауссовский вид:

W ( a ) = 1 2 π σ a 2 exp [ ( a a ) 2 2 σ a 2 ]  .

Запишем логарифмическую функцию правдоподобия: L ( a ) = ln W ( a ) = ( a a ) 2 2 σ a 2 + ln 1 2 π σ a 2  .

Возьмем первую производную:

L a = a a σ a 2  .

Если L a = 0   , то a = a  . Теперь возьмем вторую производную:

2 L a 2 = 1 σ a 2  , откуда

σ a = ( 2 L a 2 | a = a ) 1 / 2  .

Это называется первой магической формулой[2].

Условный метод максимального правдоподобияПравить

Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.

См. такжеПравить

ПримечанияПравить

  1. Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.
  2. 1 2 А.П. Онучин. Экспериментальные методы ядерной физики. — Новосибирск: Новосибирский государственный технический университет, 2010. — С. 297—303. — 336 с. — ISBN 978-5-7782-1232-9.

ЛитератураПравить

  • Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
  • Остапенко Р. И. Основы структурного моделирования в психологии и педагогике: учебно-методическое пособие для студентов психолого-педагогического факультета. — Воронеж.: ВГПУ, 2012. — 116 с. — ISBN 978-5-88519-886-8.
  • Никулин М. С. Отношения правдоподобия критерий // Математическая энциклопедия / Виноградов И. М. (гл. ред.). — М.: Советская энциклопедия, 1984. — Т. 4. — С. 151. — 1216 с.