Марковский процесс принятия решений

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero.

ОпределениеПравить

Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений, нужно задать 4-кортеж $\text{[math]}$ $\text{[math]}$ $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$ , где

$\text{[math]}$ $\text{[math]}$ $S$ конечное множество состояний,
$\text{[math]}$ $\text{[math]}$ $A$ конечное множество действий (часто представляется в виде множеств $\text{[math]}$ $\text{[math]}$ $A_{s}$ , действий доступных из состояния $\text{[math]}$ $\text{[math]}$ $s$ ),
$\text{[math]}$ $\text{[math]}$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ вероятность, что действие $\text{[math]}$ $\text{[math]}$ $a$ в состоянии $\text{[math]}$ $\text{[math]}$ $s$ во время $\text{[math]}$ $\text{[math]}$ $t$ приведет в состояние $\text{[math]}$ $\text{[math]}$ $s^{'}$ ко времени $\text{[math]}$ $\text{[math]}$ $t+1$ ,
$\text{[math]}$ $\text{[math]}$ $R_{a}(s,s')$ вознаграждение, получаемое после перехода в состояние $\text{[math]}$ $\text{[math]}$ $s^{'}$ из состояния $\text{[math]}$ $\text{[math]}$ $s$ , при совершении действия $\text{[math]}$ $\text{[math]}$ $a$ .

Стратегия $\text{[math]}$ $\text{[math]}$ $\pi$ — функция (в общем случае распределение вероятностей), сопоставляющая состоянию действие, при наличии такой функции Марковский процесс принятия решений можно рассматривать, как Марковскую цепь.

Цель оптимизацииПравить

Решить марковский процесс принятия решений означает найти стратегию, максимизирующую "вознаграждение" (функцию ценности) - оптимальную стратегию. Самая простая функция ценности это математическое ожидание формального ряда $\text{[math]}$ $\text{[math]}$ $E\left[\sum _{t=0}^{\infty }{R_{a_{t}}(s_{t},s_{t+1})}\right]$ , где $\text{[math]}$ $\text{[math]}$ $a_{t}=\pi (s_{t})$ , а математическое ожидание берётся в соответствии с $\text{[math]}$ $\text{[math]}$ $s_{t+1}\sim P_{a_{t}}(s_{t},.)$ , но такую функцию можно использовать только если гарантируется, что ряд сходится всегда, что обычно означает наличие терминального состояния, состояния MDP такого, что $\text{[math]}$ $\text{[math]}$ $P_{a}(s,s)=1$ и $\text{[math]}$ $\text{[math]}$ $R_{a}(s,s)=0$ . Если же сходимость ряда не гарантируется, то обычно делают одно из двух:

Рассматривают только конечное число слагаемых $\text{[math]}$ $\text{[math]}$ $E\left[\sum _{t=0}^{N}{R_{a_{t}}(s_{t},s_{t+1})}\right]$
Вводят коэффициент приведения $\text{[math]}$ $\text{[math]}$ $E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\right]$

На практике второй вариант более гибкий, так как учитывает более долгосрочную перспективу и чаще используется именно он. Для максимизации такого ряда вводят две функции:

Функция полезности состояния $\text{[math]}$ $\text{[math]}$ $V_{\pi }(s)=E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\mid s_{0}=s,a_{t}={\pi }(s_{t})\right]$ , где математическое ожидание берётся в соответствии с $\text{[math]}$ $\text{[math]}$ $s_{t+1}\sim P_{a_{t}}(s_{t},.)$
Функция полезности действия $\text{[math]}$ $\text{[math]}$ $Q_{\pi }(s,a)=E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\mid s_{0}=s,a_{0}=a,a_{t}={\pi }(s_{t})\;\forall t\geqslant 1\right]$ , где математическое ожидание берётся в соответствии с $\text{[math]}$ $\text{[math]}$ $s_{t+1}\sim P_{a_{t}}(s_{t},.)$

А также их максимумы по всем стратегиям:

$\text{[math]}$ $\text{[math]}$ $V_{*}(s)=\max \limits _{\pi }V_{\pi }(s)$
$\text{[math]}$ $\text{[math]}$ $Q_{*}(s,a)=\max \limits _{\pi }Q_{\pi }(s,a)$

Можно доказать, что эти функции также являются функциями полезности состояния и полезности действия соответственно, а также, что они достигаются на детерминированной стратегии. Заметим, что по функции $\text{[math]}$ $\text{[math]}$ $Q_{*}$ можно восстановить её стратегию, которая будет оптимальной.

Сравнение стратегийПравить

Чтобы дать формальное определение оптимальной стратегии необходимо ввести отношение порядка на множестве стратегий. $\text{[math]}$ $\text{[math]}$ $\pi _{1}\preccurlyeq \pi _{2}\iff \forall V_{\pi _{1}}(s)\leqslant V_{\pi _{2}}(s),\;s\in S$ . Наибольшая стратегия называется оптимальной.

Можно доказать, что оптимальная стратегия существует.

См. такжеПравить

ЛитератураПравить

Р. С. Саттон, Э. Г. Барто. Обучение с подкреплением. 2-е изд. 2014.