Метод максимального правдоподобия

Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия^[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.

Метод максимального правдоподобия был проанализирован, рекомендован и значительно популяризирован Р. Фишером между 1912 и 1922 годами (хотя ранее он был использован Гауссом, Лапласом и другими).

Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных и обеспечения оценки параметров модели.

Метод максимального правдоподобия соответствует многим известным методам оценки в области статистики. Например, вы интересуетесь таким антропометрическим параметром, как рост жителей России. Предположим, у вас имеются данные о росте некоторого количества людей, а не всего населения. Кроме того, предполагается, что рост является нормально распределённой величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста в выборке являются максимально правдоподобными к среднему значению и дисперсии всего населения.

Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия даёт уникальный и простой способ определить решения в случае нормального распределения.

Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:

линейные модели и обобщённые линейные модели;
факторный анализ;
моделирование структурных уравнений;
многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
дискретные модели выбора.

Сущность методаПравить

Пусть есть выборка $\text{[math]}$ $\text{[math]}$ $X_{1},\ldots ,X_{n}$ из распределения $\text{[math]}$ $\text{[math]}$ $\mathbb {P} _{\theta }$ , где $\text{[math]}$ $\text{[math]}$ $\theta \in \Theta$ — неизвестные параметры. Пусть $\text{[math]}$ $\text{[math]}$ $L(\mathbf {x} \mid \theta )\colon \Theta \to \mathbb {R}$ — функция правдоподобия, где $\text{[math]}$ $\text{[math]}$ $\mathbf {x} \in \mathbb {R} ^{n}$ . Точечная оценка

\text{[math]}

{\hat {\theta }}_{\mathrm {M\Pi } }={\hat {\theta }}_{\mathrm {M\Pi } }(X_{1},\ldots ,X_{n})=\mathop {\rm {argmax}} \limits _{\theta \in \Theta }L(X_{1},\ldots ,X_{n}\mid \theta )

называется оце́нкой максима́льного правдоподо́бия параметра $\text{[math]}$ $\text{[math]}$ $\theta$ . Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.

Часто вместо функции правдоподобия $\text{[math]}$ $\text{[math]}$ $L$ используют логарифмическую функцию правдоподобия $\text{[math]}$ $\text{[math]}$ $l=\ln L$ . Так как функция $\text{[math]}$ $\text{[math]}$ $x\to \ln x,\;x>0$ монотонно возрастает на всей области определения, максимум любой функции $\text{[math]}$ $\text{[math]}$ $L(\theta )$ является максимумом функции $\text{[math]}$ $\text{[math]}$ $\ln L(\theta )$ и наоборот. Таким образом,

\text{[math]}

{\hat {\theta }}_{\mathrm {M\Pi } }=\mathop {\rm {argmax}} \limits _{\theta \in \Theta }l(X_{1},\ldots ,X_{n}\mid \theta )

,

Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю её градиента:

\text{[math]}

g(\theta )={\frac {\partial l(\mathbf {x} ,\theta _{0})}{\partial \theta }}=0

Достаточное условие экстремума может быть сформулировано как отрицательная определённость гессиана — матрицы вторых производных:

\text{[math]}

H={\frac {\partial ^{2}l(\mathbf {x} ,\theta _{0})}{\partial \theta \partial \theta ^{T}}}

Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:

\text{[math]}

I(\theta )=E[g(\theta )g(\theta )^{T}]

В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:

\text{[math]}

I=-E(H_{0})

СвойстваПравить

Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что

\text{[math]}

{\sqrt {n}}({\hat {\theta }}-\theta ){\xrightarrow {d}}N(0,{\boldsymbol {I}}_{\infty }^{-1})

где $\text{[math]}$ $\text{[math]}$ ${\boldsymbol {I}}_{\infty }=-\lim _{n\rightarrow \infty }{\frac {1}{n}}\mathbb {E} ({\boldsymbol {H}})$ — асимптотическая информационная матрица.

Асимптотическая эффективность означает, что асимптотическая ковариационная матрица $\text{[math]}$ $\text{[math]}$ ${\boldsymbol {I}}_{\infty }^{-1}$ является нижней границей для всех состоятельных асимптотически нормальных оценок.

Если $\text{[math]}$ $\text{[math]}$ ${\hat {\theta }}$ — оценка метода максимального правдоподобия, параметров $\text{[math]}$ $\text{[math]}$ $\theta$ , то $\text{[math]}$ $\text{[math]}$ $g({\hat {\theta }})$ является оценкой максимального правдоподобия для $\text{[math]}$ $\text{[math]}$ $g(\theta )$ , где g — непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом.
Также необходимым условием МП-оценок является выполнение системы вида:
$\text{[math]}$ $\text{[math]}$ $\left\{{\begin{matrix}{\frac {\partial }{\partial \theta _{1}}}\ln {L_{n}}\left({\vec {x}},{\vec {\theta }}\right)&=&0\\\cdots &\cdots &\\{\frac {\partial }{\partial \theta _{k}}}\ln {L_{n}}\left({\vec {x}},{\vec {\theta }}\right)&=&0\\\end{matrix}}\right.$

где

\text{[math]}

L_{n}\left({\vec {x}},{\vec {\theta }}\right)=\prod _{i=1}^{n}L_{1}\left(x_{i},{\vec {\theta }}\right)

— функция правдоподобия выборки

\text{[math]}

{\vec {x}}

объёма

\text{[math]}

n

ПримерыПравить

Пусть $\text{[math]}$ $\text{[math]}$ $X_{1},\ldots ,X_{n}\sim \mathrm {U} [0,\theta ]$ — независимая выборка из непрерывного равномерного распределения на отрезке $\text{[math]}$ $\text{[math]}$ $[0,\theta ]$ , где $\text{[math]}$ $\text{[math]}$ $\theta >0$ — неизвестный параметр. Тогда функция правдоподобия имеет вид

\text{[math]}

f(\mathbf {x} \mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&\mathbf {x} \in [0,\theta ]^{n}\subset \mathbb {R} ^{n}\\0,&\mathbf {x} \not \in [0,\theta ]^{n}\end{cases}}.

Последнее равенство может быть переписано в виде:

\text{[math]}

f(\mathbf {x} \mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&\theta \geq \max(x_{1},\ldots ,x_{n})\\0,&\theta <\max(x_{1},\ldots ,x_{n})\end{cases}},

где $\text{[math]}$ $\text{[math]}$ $\mathbf {x} =(x_{1},\ldots ,x_{n})^{\top }$ , откуда видно, что своего максимума функция правдоподобия достигает в точке $\text{[math]}$ $\text{[math]}$ $\theta =\max(x_{1},\ldots ,x_{n})$ . Таким образом

\text{[math]}

{\hat {\theta }}_{\mathrm {M\Pi } }=\max(X_{1},\ldots ,X_{n})

.

Такая оценка будет смещенной: $\text{[math]}$ $\text{[math]}$ $P\{\max(X_{1},\ldots ,X_{n})\leq x\}=\left({\frac {x}{\theta }}\right)^{n}$ , откуда $\text{[math]}$ $\text{[math]}$ $E{\hat {\theta }}_{\mathrm {M\Pi } }=\int _{0}^{\theta }xd\left({\frac {x}{\theta }}\right)^{n}={\frac {n}{n+1}}\theta$

Пусть $\text{[math]}$ $\text{[math]}$ $X_{1},\ldots ,X_{n}\sim \mathrm {N} (\mu ,\sigma ^{2})$ — независимая выборка из нормального распределения с неизвестными средним и дисперсией. Построим оценку максимального правдоподобия $\text{[math]}$ $\text{[math]}$ $\left({\widehat {\mu }}_{\mathrm {M\Pi } },{\widehat {\sigma ^{2}}}_{\mathrm {M\Pi } }\right)^{\rm {T}}$ для неизвестного вектора параметров $\text{[math]}$ $\text{[math]}$ $\left(\mu ,\sigma ^{2}\right)^{\rm {T}}$ . Логарифмическая функция правдоподобия принимает вид

\text{[math]}

L(\mathbf {x} \mid \mu ,\sigma ^{2})=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum \limits _{i=1}^{n}(X_{i}-\mu )^{2}

.

Чтобы найти её максимум, приравняем к нулю частные производные:

\text{[math]}

\left\{{\begin{matrix}\displaystyle {\frac {\partial }{\partial \mu }}L(\mathbf {x} \mid \mu ,\sigma ^{2})=0\\[10pt]\displaystyle {\frac {\partial }{\partial \sigma ^{2}}}L(\mathbf {x} \mid \mu ,\sigma ^{2})=0\\\end{matrix}}\right.\Rightarrow \left\{{\begin{matrix}\displaystyle {\frac {\sum \limits _{i=1}^{n}X_{i}-n\mu }{\sigma ^{2}}}=0\\[10pt]\displaystyle -{\frac {n}{2\sigma ^{2}}}+{\frac {\sum \limits _{i=1}^{n}(X_{i}-\mu )^{2}}{2\left(\sigma ^{2}\right)^{2}}}=0\\\end{matrix}}\right.,

откуда

\text{[math]}

{\hat {\mu }}_{\mathrm {M\Pi } }={\overline {X}}

— выборочное среднее, а

\text{[math]}

{\widehat {\sigma ^{2}}}_{\mathrm {M\Pi } }=S_{n}^{2}

— выборочная дисперсия.

Применение метода^[2]Править

Обработка экспериментаПравить

Предположим, что мы измеряем некоторую величину $\text{[math]}$ $\text{[math]}$ ${\textstyle a}$ . Сделав одно измерение, получили её значение $\text{[math]}$ $\text{[math]}$ ${\textstyle x_{1}}$ с ошибкой $\text{[math]}$ $\text{[math]}$ ${\textstyle \sigma _{1}}$ : $\text{[math]}$ $\text{[math]}$ ${\textstyle x_{1}\pm \sigma _{1}}$ . Запишем плотность вероятности того, что величина $\text{[math]}$ $\text{[math]}$ ${\textstyle a}$ примет значение $\text{[math]}$ $\text{[math]}$ ${\textstyle x_{1}}$ :

$\text{[math]}$ $\text{[math]}$ $W(a)={\frac {1}{\sqrt {2\pi \sigma _{1}^{2}}}}\exp \left[-{\frac {(x_{1}-a)^{2}}{2\sigma _{1}^{2}}}\right]$ .

Теперь предположим, что мы провели несколько таких измерений и получили $\text{[math]}$ $\text{[math]}$ ${\textstyle x_{1}\pm \sigma _{1},x_{2}\pm \sigma _{2}\ldots x_{n}\pm \sigma _{n}}$ . Плотность вероятности того, что величина $\text{[math]}$ $\text{[math]}$ ${\textstyle a}$ примет значения $\text{[math]}$ $\text{[math]}$ ${\textstyle x_{1},x_{2}\ldots x_{n}}$ , будет:

$\text{[math]}$ $\text{[math]}$ $W(a)=\prod _{i=1}^{n}{{\frac {1}{\sqrt {2\pi \sigma _{i}^{2}}}}\exp \left[-{\frac {(x_{i}-a)^{2}}{2\sigma _{i}^{2}}}\right]}$ .

Эта функция называется функцией правдоподобия. Наиболее вероятное значение измеряемой величины $\text{[math]}$ $\text{[math]}$ ${\textstyle a^{*}}$ определяется по максимуму функции правдоподобия. Более удобной является логарифмическая функция правдоподобия:

$\text{[math]}$ $\text{[math]}$ $L(a)=\ln W(a)=-\sum _{i=1}^{n}{\frac {(x_{i}-a)^{2}}{2\sigma _{i}^{2}}}+\sum _{i=1}^{n}{\ln {\frac {1}{\sqrt {2\pi \sigma _{i}^{2}}}}}$ .

Продифференцируем логарифмическую функцию правдоподобия по $\text{[math]}$ $\text{[math]}$ ${\textstyle a}$ :

$\text{[math]}$ $\text{[math]}$ ${\frac {\partial {L}}{\partial {a}}}=\sum _{i=1}^{n}{\frac {x_{i}-a}{\sigma _{i}^{2}}}$ .

Приравняем $\text{[math]}$ $\text{[math]}$ ${\frac {\partial {L}}{\partial {a}}}$ к $\text{[math]}$ $\text{[math]}$ ${\textstyle 0}$ и получим некоторое значение $\text{[math]}$ $\text{[math]}$ ${\textstyle a=a^{*}}$ :

$\text{[math]}$ $\text{[math]}$ $a^{*}={\frac {\sum \limits _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}}}{\sum \limits _{i=1}^{n}{\frac {1}{\sigma _{i}^{2}}}}}$ .

Крамер сформулировал следующую теорему:

Теорема: Не существует другого метода обработки результатов эксперимента, который дал бы лучшее приближение к истине, чем метод максимального правдоподобия.

Ошибки измеренийПравить

Предположим, что мы провели серию измерений и получили серию значений $\text{[math]}$ $\text{[math]}$ ${\textstyle a^{*}}$ , естественно записать, что это распределение будет иметь гауссовский вид:

$\text{[math]}$ $\text{[math]}$ $W(a)={\frac {1}{\sqrt {2\pi \sigma _{a^{*}}^{2}}}}\exp \left[-{\frac {(a^{*}-a)^{2}}{2\sigma _{a^{*}}^{2}}}\right]$ .

Запишем логарифмическую функцию правдоподобия: $\text{[math]}$ $\text{[math]}$ $L(a)=\ln W(a)=-{\frac {(a^{*}-a)^{2}}{2\sigma _{a^{*}}^{2}}}+{\ln {\frac {1}{\sqrt {2\pi \sigma _{a^{*}}^{2}}}}}$ .

Возьмем первую производную:

$\text{[math]}$ $\text{[math]}$ ${\frac {\partial {L}}{\partial {a}}}={\frac {a^{*}-a}{\sigma _{a^{*}}^{2}}}$ .

Если $\text{[math]}$ $\text{[math]}$ ${\frac {\partial {L}}{\partial {a}}}=0$ , то $\text{[math]}$ $\text{[math]}$ $a=a^{*}$ . Теперь возьмем вторую производную:

$\text{[math]}$ $\text{[math]}$ ${\frac {\partial ^{2}{L}}{\partial {a}^{2}}}=-{\frac {1}{\sigma _{a^{*}}^{2}}}$ , откуда

$\text{[math]}$ $\text{[math]}$ $\sigma _{a^{*}}=\left(-{\frac {\partial ^{2}{L}}{\partial {a}^{2}}}{\Big |}_{a=a^{*}}\right)^{-1/2}$ .

Это называется первой магической формулой^[2].

Условный метод максимального правдоподобияПравить

Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.

См. такжеПравить

ПримечанияПравить

↑ Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.
↑ ¹ ² А.П. Онучин. Экспериментальные методы ядерной физики. — Новосибирск: Новосибирский государственный технический университет, 2010. — С. 297—303. — 336 с. — ISBN 978-5-7782-1232-9.

ЛитератураПравить

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
Остапенко Р. И. Основы структурного моделирования в психологии и педагогике: учебно-методическое пособие для студентов психолого-педагогического факультета. — Воронеж.: ВГПУ, 2012. — 116 с. — ISBN 978-5-88519-886-8.
Никулин М. С. Отношения правдоподобия критерий // Математическая энциклопедия / Виноградов И. М. (гл. ред.). — М.: Советская энциклопедия, 1984. — Т. 4. — С. 151. — 1216 с.

[1] Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.

[:0-2] ¹ ² А.П. Онучин. Экспериментальные методы ядерной физики. — Новосибирск: Новосибирский государственный технический университет, 2010. — С. 297—303. — 336 с. — ISBN 978-5-7782-1232-9.

[1]

[2]