Игра с неполной информацией

Байесовская игра (англ. Bayesian game) или игра с неполной информацией (англ. incomplete information game) в теории игр характеризуются неполнотой информации о соперниках (их возможных стратегиях и выигрышах), при этом у игроков есть веры относительно этой неопределённости. Байесовскую игру можно преобразовать в игру полной, но несовершенной информации, если принять допущение об общем априорном распределении. В отличие от неполной информации, несовершенная информация включает знание стратегий и выигрышей соперников, но история игры (предыдущие действия оппонентов) доступна не всем участникам.

Джон Харсаньи описал байесовские игры следующим образом^[1]. В дополнение к фактическим участникам игры появляется виртуальный игрок «Природа». Природа наделяет каждого из фактических участников случайной переменной, значения которой называются типами. Распределение (плотность или функция вероятности) типов для каждого из игроков известно. В начале игры природа «выбирает» типы игроков. Тип, в частности, определяет функцию выигрыша участника. Таким образом, неполнота информации в байесовской игре — незнание по крайней мере одним игроком типа некого другого участника. Игроки обладают верами относительно типов соперников; вера — вероятностное распределение на множестве возможных типов. В процессе игры веры обновляются в соответствии с теоремой Байеса.

Определение править

Игра определяется так: $\text{[math]}$ $\text{[math]}$ $G=\langle N,\Omega ,\langle A_{i},u_{i},T_{i},\tau _{i},p_{i},C_{i}\rangle _{i\in N}\rangle$ , где

$\text{[math]}$ $\text{[math]}$ $N$ — множество игроков.
$\text{[math]}$ $\text{[math]}$ $\Omega$ — множество состояний природы. Пример состояния природы: порядок колоды в карточной игре.
$\text{[math]}$ $\text{[math]}$ $A_{i}$ — множество действий игрока $\text{[math]}$ $\text{[math]}$ $i$ . Пусть $\text{[math]}$ $\text{[math]}$ $A=A_{1}\times A_{2}\times \dotsb \times A_{N}$ .
$\text{[math]}$ $\text{[math]}$ $T_{i}$ — множество типов игрока $\text{[math]}$ $\text{[math]}$ $i$ . Тип определяется по правилу $\text{[math]}$ $\text{[math]}$ $\tau _{i}\colon \Omega \rightarrow T_{i}$ .
$\text{[math]}$ $\text{[math]}$ $C_{i}\subseteq A_{i}\times T_{i}$ определяет доступные действия для игрока $\text{[math]}$ $\text{[math]}$ $i$ , обладающего неким типом в $\text{[math]}$ $\text{[math]}$ $T_{i}$ .
$\text{[math]}$ $\text{[math]}$ $u_{i}\colon \Omega \times A\rightarrow R$ функция выигрыша игрока $\text{[math]}$ $\text{[math]}$ $i$ . Более формально, пусть $\text{[math]}$ $\text{[math]}$ $L=\{(\omega ,a_{1},\dotsc ,a_{N})\mid \omega \in \Omega ,\forall i,(a_{i},\tau _{i}(\omega ))\in C_{i}\}$ , и $\text{[math]}$ $\text{[math]}$ $u_{i}\colon L\rightarrow R$ .
$\text{[math]}$ $\text{[math]}$ $p_{i}$ распределение вероятности на $\text{[math]}$ $\text{[math]}$ $\Omega$ для каждого игрока $\text{[math]}$ $\text{[math]}$ $i$ , то есть каждый игрок по-разному оценивает вероятности состояний природы; в течение игры они его не знают.

Чистая стратегия $\text{[math]}$ $\text{[math]}$ $s_{i}\colon T_{i}\rightarrow A_{i}$ должна удовлетворять $\text{[math]}$ $\text{[math]}$ $(s_{i}(t_{i}),t_{i})\in C_{i}$ для всех $\text{[math]}$ $\text{[math]}$ $t_{i}$ . Стратегия каждого игрока зависит только от его типа, так как типы других игроков для него скрыты. Ожидаемый выигрыш игрока $\text{[math]}$ $\text{[math]}$ $i$ при данном стратегическом профиле равен $\text{[math]}$ $\text{[math]}$ $u_{i}(S)=E_{\omega \sim p_{i}}[u_{i}(\omega ,s_{1}(\tau _{1}(\omega )),\dotsc ,s_{N}(\tau _{N}(\omega )))]$ .

Пусть $\text{[math]}$ $\text{[math]}$ $S_{i}$ — множество чистых стратегий, $\text{[math]}$ $\text{[math]}$ $S_{i}=\{s_{i}\colon T_{i}\rightarrow A_{i}\mid (s_{i}(t_{i}),t_{i})\in C_{i},\forall t_{i}\}.$

Байесовское равновесие игры $\text{[math]}$ $\text{[math]}$ $G$ определяется как равновесие Нэша (возможно, в смешанных стратегиях) игры $\text{[math]}$ $\text{[math]}$ ${\hat {G}}=\langle N,{\hat {A}}=S_{1}\times S_{2}\times \dotsb \times S_{N},{\hat {u}}=u\rangle$ . Если игра $\text{[math]}$ $\text{[math]}$ $G$ конечна, байесовское равновесие существует всегда.

Примеры править

Дилемма шерифа править

Шериф сталкивается с подозреваемым. Оба должны одновременно принять решение о том, следует ли стрелять.

Подозреваемый имеет два возможных типа: «преступник» и «законопослушный». У шерифа есть только один тип. Подозреваемому известен его тип, шерифу же он неведом. Таким образом, в игре присутствует неполная информация, она относится к классу байесовских. По мнению шерифа, с вероятностью p подозреваемый является преступником, с вероятностью 1-p — законопослушным гражданином. Величины p и 1-p известны обоим игрокам, поскольку делается допущение об общем априорном распределении. Именно оно позволяет преобразовать эту игру в игру полной, но несовершенной информации.

Шериф предпочёл бы стрелять, если стреляет подозреваемый, и избежать стрельбы в противном случае (даже если подозреваемый действительно является преступником). Преступник склонен стрелять (даже если шериф не стреляет), в то время как законопослушный гражданин хочет избежать конфликта любым образом (даже если шериф стреляет). Матрицы выигрышей зависит от типа подозреваемого:


Тип = «Законопослушный»	Действие шерифа
Стрелять	Не стрелять
Действие подозреваемого	Стрелять	-3, -1	-1, -2
Не стрелять	-2, -1	0, 0


Тип = «Преступник»	Действие шерифа
Стрелять	Не стрелять
Действие подозреваемого	Стрелять	0, 0	2, -2
Не стрелять	-2, -1	-1,1

Если оба имеется общее знание о рациональности игроков (игрок 1 рационален; игрок 1 знает, что игрок 2 рационален; игрок 1 знает, что игрок 2, знает, что игрок 1 рационален и т.д. до бесконечности) игра пройдёт по следующему равновесному (совершенное байесовское равновесие) сценарию^[2]^[3]:

Когда подозреваемый имеет тип «законопослушный», доминирующая стратегия для него — не стрелять, когда же он имеет тип «преступник», доминирующая стратегия предписывает ему стрелять. Сильно доминируемые стратегии можно исключить из рассмотрения. Тогда если шериф стреляет, он получает 0 с вероятностью p и -1 с вероятностью 1-p. Его ожидаемый выигрыш составляет p-1. Если шериф не стреляет, ему полагается -2 с вероятностью p и 0 с вероятностью 1-p; ожидаемый выигрыш равен -2p. Шериф всегда будет стрелять при условии p-1 > -2p, то есть когда p > 1/3.

См. также править

Примечания править

↑ Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).
↑ Coursera (англ.). Coursera. Дата обращения: 16 июня 2016. Архивировано 10 августа 2016 года.
↑ Hu, Yuhuang; Loo, Chu Kiong. A Generalized Quantum-Inspired Decision Making Model for Intelligent Agent (англ.) // The Scientific World Journal (англ.) (рус. : journal. — 2014. — 17 March (vol. 2014). — ISSN 1537-744X. — doi:10.1155/2014/240983. — PMID 24778580. — PMC 3977121.

Литература править

Gibbons, Robert. Game Theory for Applied Economists (неопр.). — Princeton University Press, 1992. — С. 144—152.
Levin, Jonathan Games with Incomplete Information (неопр.) (2002). Дата обращения: 25 августа 2016.

[1] Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).

[2] Coursera (англ.). Coursera. Дата обращения: 16 июня 2016. Архивировано 10 августа 2016 года.

[3] Hu, Yuhuang; Loo, Chu Kiong. A Generalized Quantum-Inspired Decision Making Model for Intelligent Agent (англ.) // The Scientific World Journal (англ.) (рус. : journal. — 2014. — 17 March (vol. 2014). — ISSN 1537-744X. — doi:10.1155/2014/240983. — PMID 24778580. — PMC 3977121.

[1]

[2]

[3]