Это не официальный сайт wikipedia.org 01.01.2023

Марковский процесс принятия решений — Википедия

Марковский процесс принятия решений

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero.

ОпределениеПравить

 
Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений, нужно задать 4-кортеж ( S , A , P ( , ) , R ( , ) )  , где

  • S   конечное множество состояний,
  • A   конечное множество действий (часто представляется в виде множеств A s  , действий доступных из состояния s  ),
  • P a ( s , s ) = Pr ( s t + 1 = s s t = s , a t = a )   вероятность, что действие a   в состоянии s   во время t   приведет в состояние s   ко времени t + 1  ,
  • R a ( s , s )   вознаграждение, получаемое после перехода в состояние s   из состояния s  , при совершении действия a  .

Стратегия π   — функция (в общем случае распределение вероятностей), сопоставляющая состоянию действие, при наличии такой функции Марковский процесс принятия решений можно рассматривать, как Марковскую цепь.

Цель оптимизацииПравить

Решить марковский процесс принятия решений означает найти стратегию, максимизирующую "вознаграждение" (функцию ценности) - оптимальную стратегию. Самая простая функция ценности это математическое ожидание формального ряда E [ t = 0 R a t ( s t , s t + 1 ) ]  , где a t = π ( s t )  , а математическое ожидание берётся в соответствии с s t + 1 P a t ( s t , . )  , но такую функцию можно использовать только если гарантируется, что ряд сходится всегда, что обычно означает наличие терминального состояния, состояния MDP такого, что P a ( s , s ) = 1   и R a ( s , s ) = 0  . Если же сходимость ряда не гарантируется, то обычно делают одно из двух:

  • Рассматривают только конечное число слагаемых E [ t = 0 N R a t ( s t , s t + 1 ) ]  
  • Вводят коэффициент приведения E [ t = 0 γ t R a t ( s t , s t + 1 ) ]  

На практике второй вариант более гибкий, так как учитывает более долгосрочную перспективу и чаще используется именно он. Для максимизации такого ряда вводят две функции:

  • Функция полезности состояния V π ( s ) = E [ t = 0 γ t R a t ( s t , s t + 1 ) s 0 = s , a t = π ( s t ) ]  , где математическое ожидание берётся в соответствии с s t + 1 P a t ( s t , . )  
  • Функция полезности действия Q π ( s , a ) = E [ t = 0 γ t R a t ( s t , s t + 1 ) s 0 = s , a 0 = a , a t = π ( s t ) t 1 ]  , где математическое ожидание берётся в соответствии с s t + 1 P a t ( s t , . )  

А также их максимумы по всем стратегиям:

  • V ( s ) = max π V π ( s )  
  • Q ( s , a ) = max π Q π ( s , a )  

Можно доказать, что эти функции также являются функциями полезности состояния и полезности действия соответственно, а также, что они достигаются на детерминированной стратегии. Заметим, что по функции Q   можно восстановить её стратегию, которая будет оптимальной.

Сравнение стратегийПравить

Чтобы дать формальное определение оптимальной стратегии необходимо ввести отношение порядка на множестве стратегий. π 1 π 2 V π 1 ( s ) V π 2 ( s ) , s S  . Наибольшая стратегия называется оптимальной.

Можно доказать, что оптимальная стратегия существует.

См. такжеПравить

ЛитератураПравить

  • Р. С. Саттон, Э. Г. Барто. Обучение с подкреплением. 2-е изд. 2014.