Это не официальный сайт wikipedia.org 01.01.2023

Субградиентные методы — Википедия

Субградиентные методы

(перенаправлено с «Субградиентный метод»)

Субградиентные методы — итеративные методы решения задач выпуклой минимизации. Субградиентные методы, разработанные Наумом Зуселевичем Шором сходятся, даже если применяются к недифференцируемым целевым функциям. Когда функция дифференцируема, субградиентные методы для задач без ограничений используют то же направление поиска, что и метод наискорейшего спуска.

Субградиентные методы медленнее методов Ньютона, где для минимизации применяются дважды непрерывно дифференцируемые выпуклые функции. Однако методы Ньютона перестают сходиться на задачах, которые имеют недифференцируемые изгибы.

В последние годы предложены некоторые методы внутренней точки для задач выпуклой минимизации, но и методы проекции субградиента, и связанные пучковые методы спуска остаются конкурентоспособными. Для задач выпуклой минимизации с большим числом размерностей приемлемы методы проекции субградиента, поскольку они требуют малый размер памяти.

Методы проекции субградиента часто применяются к задачам большого размера с помощью техник декомпозиции. Такие методы разложения часто допускают простой распределённый метод задачи.

Правила классического субградиентаПравить

Пусть f : R n R   будет выпуклой функцией с областью определения R n  . Классический субградиентный метод итерирует

x ( k + 1 ) = x ( k ) α k g ( k )  

где g ( k )   это любой субдифференциал функции f   в точке x ( k )  , а x ( k )   — k-ая итерация переменной x  . Если f     дифференцируемая, то его единственным субградиентом является градиент f  . Может случиться, что g ( k )   не является направлением убывания для f   в точке x ( k )  . Поэтому мы содержим список f b e s t  , в котором хранятся найденные наименьшие значения целевой функции, то есть

f b e s t ( k ) = min { f b e s t ( k 1 ) , f ( x ( k ) ) } .  

Правила размера шагаПравить

В субградиентных методах используется большое число различных правил выбора размера шага. Здесь мы отметим пять классических правил, для которых доказательства сходимости известны:

  • Постоянный размер шага, α k = α  .
  • Постоянная длина шага, α k = γ / g ( k ) 2  , что даёт x ( k + 1 ) x ( k ) 2 = γ  .
  • Суммируемый с квадратом, но не суммируемый размер шага, то есть любой размер шага, для которого выполняется
α k 0 , k = 1 α k 2 < , k = 1 α k = .  
  • Несуммируемый убывающий размер шага, то есть любой шаг, удовлетворяющий
α k 0 , lim k α k = 0 , k = 1 α k = .  
  • Несуммируемая убывающая длина шага, то есть, α k = γ k / g ( k ) 2  , где
γ k 0 , lim k γ k = 0 , k = 1 γ k = .  

Для всех пяти правил размер шага определяется «заранее», до начала работы метода. Размер шага не зависит от предшествующих итераций. Свойство выбора шага «заранее» для субградиентных методов отличается от правил выбора шага «в процессе», используемых в методах для дифференцируемых функций — многие методы минимизации дифференцируемых функций удовлетворяют условиям Вольфа для сходимости, где размеры шага зависят от текущего положения точки и текущего направления поиска. Пространное обсуждение правил выбора шага для субградиентных методов, включая версии с инкрементированием, приведены в книге Бертсекаса[1], а также в книге Бертсекаса, Недич и Оздаглара[2].

СходимостьПравить

Для постоянной длины шага и масштабируемых субградиентов, имеющих евклидову норму равную единице, субградиентный метод приближается произвольно близко к минимальному значению, то есть

lim k f b e s t ( k ) f < ϵ   согласно Шору[3].

Классические субградиентные методы имеют плохую сходимость и более не рекомендуются для использования[4][5]. Однако они всё ещё используются в специализированных приложениях, поскольку они просты и легко приспосабливаются под специальные структуры, чтобы использовать их особенности.

Проекции субградиента и методы пучковПравить

В течение 1970-х годов Клод Лемерэчел и Фил Вольф предложили «методы пучков» для спуска для задач выпуклой минимизации[6]. Значение термина «методы пучков» с тех пор сильно изменилось. Современные версии и полный анализ сходимости были даны Киелем[7]. Современные методы пучков часто используют правила «контроля уровня» для выбора размера шага, которые развивают техники из метода «проекций субградиента» Бориса Т. Поляка (1969). Однако существуют проблемы, вследствие которых часто методы пучков дают малое преимущество перед методами проекции субградиентов[4][5].

Оптимизация с ограничениямиПравить

Метод проекции субградиентаПравить

Одним из расширений субградиентных методов является метод проекции субградиента, который решает задачу оптимизации с ограничениями

минимизировать f ( x )   при условии
x C  

где C   является выпуклым множеством. Метод проекции субградиента использует итерации

x ( k + 1 ) = P ( x ( k ) α k g ( k ) )  

где P   является проекцией на C  , а g ( k )   является любым субградиентом f   в точке x ( k )  .

Ограничения общего видаПравить

Метод субградиента может быть расширен для решения задачи с ограничениями в виде неравенств

минимизировать f 0 ( x )   при условии
f i ( x ) 0 , i = 1 , , m  

где функции f i   выпуклы. Алгоритм принимает ту же форму случая без ограничений

x ( k + 1 ) = x ( k ) α k g ( k )  

где α k > 0   является размером шага, а g ( k )   является субградиентом целевой функции или одной из функций ограничений в точке x  . Здесь

g ( k ) = { f 0 ( x ) f i ( x ) 0 i = 1 m f j ( x ) j : f j ( x ) > 0  

где f   означает субдифференциал функции f  . Если текущая точка допустима, алгоритм использует субградиент целевой функции. Если точка не допустима, алгоритм выбирает субградиент любого нарушенного ограничения.

ПримечанияПравить

  1. Bertsekas, 2015.
  2. Bertsekas, Nedic, Ozdaglar, 2003.
  3. Сходимость методов субградиента с постоянным (масшабированным) шагом утверждается в упражнении 6.3.14(a) книги Берцекаса (страница 636) (Bertsekas 1999) и он приписывает этот результат Шору (Shor 1985)
  4. 1 2 Lemaréchal, 2001, с. 112–156.
  5. 1 2 Kiwiel, Larsson, Lindberg, 2007, с. 669–686.
  6. Bertsekas, 1999.
  7. Kiwiel, 1985, с. 362.

ЛитератураПравить

Дополнительная литератураПравить

СсылкиПравить

  • EE364A and EE364B, Stanford’s convex optimization course sequence.