Квазиньютоновские методы

Квазиньютоновские методы — методы оптимизации, основанные на накоплении информации о кривизне целевой функции по наблюдениям за изменением градиента, чем принципиально отличаются от ньютоновских методов. Класс квазиньютоновских методов исключает явное формирование матрицы Гессе, заменяя её некоторым приближением.

ОписаниеПравить

Разложим градиент $\text{[math]}$ $\text{[math]}$ ${\vec {g}}({\vec {x}}_{k})$ исходной функции в ряд Тейлора в окрестности точки очередного приближения $\text{[math]}$ $\text{[math]}$ ${\vec {x}}_{k}$ по степеням следующего шага алгоритма $\text{[math]}$ $\text{[math]}$ ${\vec {s}}_{k}$ :

\text{[math]}

{\vec {g}}({\vec {x}}_{k}+{\vec {s}}_{k})\approx {\vec {g}}({\vec {x}}_{k})+G({\vec {x}}_{k}){\vec {s}}_{k}

Тогда оценка матрицы Гессе $\text{[math]}$ $\text{[math]}$ $B_{k+1}$ должна удовлетворять равенству:

\text{[math]}

B_{k+1}{\vec {s}}_{k}={\vec {y}}_{k}

,

где $\text{[math]}$ $\text{[math]}$ ${\vec {y}}_{k}={\vec {g}}({\vec {x}}_{k}+{\vec {s}}_{k})-{\vec {g}}({\vec {x}}_{k})$

это условие называют квазиньютоновским.

На каждой итерации с помощью $\text{[math]}$ $\text{[math]}$ $B_{k}$ определяется следующее направление поиска $\text{[math]}$ $\text{[math]}$ ${\vec {p}}_{k}$ , и матрица $\text{[math]}$ $\text{[math]}$ $B$ обновляется с учётом вновь полученной информации о кривизне:

\text{[math]}

B_{k}{\vec {p}}_{k}=-{\vec {g}}({\vec {x}}_{k})

\text{[math]}

B_{k+1}=B_{k}+U_{k}

,

где $\text{[math]}$ $\text{[math]}$ $U_{k}$ — матрица, характеризующая поправку, вносимую на очередном шаге.

В качестве начального приближения $\text{[math]}$ $\text{[math]}$ $B_{0}$ кладут единичную матрицу, таким образом первое направление $\text{[math]}$ $\text{[math]}$ ${\vec {p}}_{0}$ будет в точности совпадать с направлением наискорейшего спуска.

Поправка единичного рангаПравить

Один шаг алгоритма даёт информацию о кривизне вдоль одного направления, поэтому ранг матрицы $\text{[math]}$ $\text{[math]}$ $U_{k}$ полагают малым, и даже единичным:

\text{[math]}

B_{k+1}=B_{k}+{\vec {u}}{\vec {v}}^{T}

где $\text{[math]}$ $\text{[math]}$ ${\vec {u}}$ и $\text{[math]}$ $\text{[math]}$ ${\vec {v}}$ некоторые вектора.

Тогда, квазиньютоновское условие примет вид:

\text{[math]}

(B_{k}+{\vec {u}}{\vec {v}}^{T}){\vec {s}}_{k}={\vec {y}}_{k}

\text{[math]}

{\vec {u}}({\vec {v}}^{T}{\vec {s}}_{k})={\vec {y}}_{k}-B_{k}{\vec {s}}_{k}

Полагая, что предыдущая матрица $\text{[math]}$ $\text{[math]}$ $B_{k}$ на очередном шаге квазиньютоновскому условию не удовлетворяет (т.е. разность в правой части не равна нулю), и что вектор $\text{[math]}$ $\text{[math]}$ ${\vec {v}}$ не ортогонален $\text{[math]}$ $\text{[math]}$ ${\vec {s}}_{k}$ , получают выражение для $\text{[math]}$ $\text{[math]}$ ${\vec {u}}$ и $\text{[math]}$ $\text{[math]}$ $B_{k+1}$ :

\text{[math]}

{\vec {u}}={\frac {1}{{\vec {v}}^{T}{\vec {s}}_{k}}}({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})

\text{[math]}

B_{k+1}=B_{k}+{\frac {1}{{\vec {v}}^{T}{\vec {s}}_{k}}}({\vec {y}}_{k}-B_{k}{\vec {s}}_{k}){\vec {v}}^{T}

Из соображений симметричности матрицы Гессе, вектор $\text{[math]}$ $\text{[math]}$ ${\vec {v}}$ берут коллинеарным $\text{[math]}$ $\text{[math]}$ ${\vec {u}}$ :

\text{[math]}

B_{k+1}=B_{k}+{\frac {1}{({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})^{T}{\vec {s}}_{k}}}({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})^{T}

Полученное уравнение называется симметричной формулой ранга один.

Поправки ранга дваПравить

Один из способов конструирования поправок ранга два заключается в построении сходящейся последовательности матриц $\text{[math]}$ $\text{[math]}$ $B^{(j)}$ . В качестве начального значения $\text{[math]}$ $\text{[math]}$ $B^{(0)}$ берут $\text{[math]}$ $\text{[math]}$ $B_{k}$ , $\text{[math]}$ $\text{[math]}$ $B^{(1)}$ вычисляют по формуле:

\text{[math]}

B^{(1)}=B^{(0)}+{\frac {1}{{\vec {v}}^{T}{\vec {s}}_{k}}}({\vec {y}}_{k}-B^{(0)}{\vec {s}}_{k}){\vec {v}}^{T}

После чего её симметризуют:

\text{[math]}

B^{(2)}={\frac {B^{(1)}+B^{(1)T}}{2}}

Однако полученная матрица больше не удовлетворяет квазиньютоновскому условию. Чтобы это исправить, процедуру повторяют. В результате на $\text{[math]}$ $\text{[math]}$ $j$ -м шаге:

\text{[math]}

B^{(2j+1)}=B^{(2j)}+{\frac {1}{{\vec {v}}^{T}{\vec {s}}_{k}}}({\vec {y}}_{k}-B^{(2j)}{\vec {s}}_{k}){\vec {v}}^{T}

\text{[math]}

B^{(2j+2)}={\frac {B^{(2j+1)}+B^{(2j+1)T}}{2}}

Предел этой последовательности равен:

\text{[math]}

B_{k+1}=B_{k}+{\frac {1}{{\vec {v}}^{T}{\vec {s}}_{k}}}[({\vec {y}}_{k}-B_{k}{\vec {s}}_{k}){\vec {v}}^{T}+{\vec {v}}({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})^{T}]-{\frac {({\vec {y}}_{k}-B_{k}{\vec {s}}_{k})^{T}{\vec {s}}_{k}}{({\vec {v}}^{T}{\vec {s}}_{k})^{2}}}{\vec {v}}{\vec {v}}^{T}

При выборе различных $\text{[math]}$ $\text{[math]}$ ${\vec {v}}$ (не ортогональных $\text{[math]}$ $\text{[math]}$ ${\vec {s}}_{k}$ ) получаются различные формулы пересчёта матрицы $\text{[math]}$ $\text{[math]}$ $B$ :

$\text{[math]}$ $\text{[math]}$ ${\vec {v}}={\vec {y}}_{k}-B_{k}{\vec {s}}_{k}$ приводит к симметричной формуле ранга один;
$\text{[math]}$ $\text{[math]}$ ${\vec {v}}={\vec {s}}_{k}$ приводит к симметричной формуле Пауэлла — Бройдена (PSB);
$\text{[math]}$ $\text{[math]}$ ${\vec {v}}={\vec {y}}_{k}$ приводит к симметричной формуле Девидона — Флетчера — Пауэлла (DFP):

\text{[math]}

B_{k+1}=B_{k}-{\frac {1}{{\vec {s}}_{k}^{T}B_{k}{\vec {s}}_{k}}}B_{k}{\vec {s}}_{k}{\vec {s}}_{k}^{T}B_{k}^{T}+{\frac {1}{{\vec {y}}_{k}^{T}{\vec {s}}_{k}}}{\vec {y}}_{k}{\vec {y}}_{k}^{T}+({\vec {s}}_{k}^{T}B_{k}{\vec {s}}_{k}){\vec {\omega }}_{k}{\vec {\omega }}_{k}^{T}

,

где $\text{[math]}$ $\text{[math]}$ ${\vec {\omega }}_{k}={\frac {1}{{\vec {y}}_{k}^{T}{\vec {s}}_{k}}}{\vec {y}}_{k}-{\frac {1}{{\vec {s}}_{k}^{T}B_{k}{\vec {s}}_{k}}}B_{k}{\vec {s}}_{k}$

Нетрудно проверить, что $\text{[math]}$ $\text{[math]}$ ${\vec {\omega }}_{k}$ ортогонален $\text{[math]}$ $\text{[math]}$ ${\vec {s}}_{k}$ . Таким образом добавление слагаемого $\text{[math]}$ $\text{[math]}$ ${\vec {\omega }}_{k}{\vec {\omega }}_{k}^{T}$ не нарушит ни квазиньютоновского условия, ни условия симметричности. Поэтому проводился ряд теоретических исследований, подвергавших последнее слагаемое масштабированию на предмет получения наилучшего приближения. В результате была принята точка зрения, что наилучшим вариантом является отвечающий полному отсутствию последнего слагаемого. Этот вариант пересчёта известен под именем формулы Бройдена — Флетчера — Гольдфарба — Шанно (BFGS):

\text{[math]}

B_{k+1}=B_{k}-{\frac {1}{{\vec {s}}_{k}^{T}B_{k}{\vec {s}}_{k}}}B_{k}{\vec {s}}_{k}{\vec {s}}_{k}^{T}B_{k}^{T}+{\frac {1}{{\vec {y}}_{k}^{T}{\vec {s}}_{k}}}{\vec {y}}_{k}{\vec {y}}_{k}^{T}

ЛитератураПравить

Гилл Ф., Мюррей У., Райт М. Практическая оптимизация = practical optimization.