Новосибирский Государственный Университет
Опубликован: 06.11.2008 | Доступ: свободный | Студентов: 3338 / 1210 | Оценка: 4.24 / 3.67 | Длительность: 14:37:00
Специальности: Математик
Лекция 10:

Вычисление оптимальных стратегий в бесконечных играх

< Лекция 9 || Лекция 10: 1234 || Лекция 11 >

Игры на единичном квадрате с выбором момента времени

Другим важным классом игр на единичном квадрате, для которых можно найти решение, являются игры с выбором момента времени. В этих играх чистой стратегией каждого игрока является выбор момента времени для выполнения определенных действий. Например в военном деле к таким действиям относится применение оружия каждым из противников друг против друга. Поэтому такие ситуации называются дуэльными или просто дуэлями . Характерной особенностью дуэли является то, что каждый из противников стремится по возможности задержать свой выстрел, так как вероятность поражения с течением времени увеличивается. Однако задержка в применении своего оружия имеет разумные пределы, обусловленные тем, что противник может применить свое оружие раньше и выиграть дуэль.

Примером дуэльных ситуаций в военном деле могут служить бои подводных лодок, истребителей, танков и так далее. В этих ситуациях выбор момента применения оружия каждым из противников после взаимного обнаружения представляет собой стратегию игрока. Немедленное или слишком раннее применение оружия может привести к промаху из-за большой дистанции и отсутствия информации об элементах движения противника, а длительное маневрирование для сближения, определения координат и элементов движения противника даст возможность ему применить свое оружие первым и достичь успеха.

Дуэльная ситуация хорошо моделируется антагонистической бесконечной игрой на единичном квадрате, если считать, что стратегиями игроков являются числа x,y \in [0,1], которые можно интерпретировать как нормированные моменты времени применения оружия каждым из игроков.

Функция выигрыша в ситуации (x,y) такой игры представляет вероятности поражения игроком I игрока II и определяется следующим соотношением:

K(x,y)=
\left< \begin{array}{ccc}
L(x,y) \text{ если }x < y;\\
F(x) \text{ если }x = y;\\
N(x,y) \text{ если }x > y;
\end{array}\right ( 10.10)

где L(x,y)вероятность поражения игроком I игрока II, если игрок I упреждает игрока II в применении оружия;

F(x)вероятность поражения игроком I игрока II, если оба игрока применяют оружие одновременно;

N(x,y)вероятность поражения игроком I игрока II, если игрок II упреждает игрока I в применении оружия.

При задании функции выигрыша принимается, что если игрок II предполагает применить свое оружие в некоторый фиксированный момент времени y, то игрок I

увеличивает свой выигрыш, выжидая сколько возможно, но действуя все же раньше игрока II. Если же игрок I применяет свое оружие после применения игроком II, то он может проиграть при условии, что оружие игрока II достигает цели. В случае же промаха игрока II шансы на успех у игрока I возрастают со временем. Математически это выражается тем, что функции L(x,y) и N(x,y) монотонно убывают по y для каждого x.

Игры с выбором момента времени не обязательно включают по одному действию с каждой стороны, они могут содержать и повторные действия. Кроме того, как и во всех играх, противники могут иметь различную информацию о действиях каждого из них. Решение подобных игр представляет большую сложность, и поэтому рассмотрим только простейший класс, когда каждый из двух противников располагает одним выстрелом, при котором вероятность поражения монотонно возрастает со временем. Кроме того, в этом классе игр действия каждого из игроков, а также их последствия немедленно становятся известными противнику. Поэтому такую игру можно назвать игрой с выбором момента времени в условиях полной информации. Так называемые шумные дуэли являются примером игр этого класса.

В шумной дуэли каждой из двух игроков имеет возможность произвести только один выстрел. По звуку (шуму) каждый игрок знает, что его противник выстрелил. Наличие информации о действиях противника дает возможность считать, что математическое ожидание выигрыша L(x,y), является функцией только x, а N(x,y), — функцией только y.

Пусть вероятность поражения P_1(x) игрока II является непрерывной функцией, которая монотонно возрастает по x, P_1(0)=0,   P_1(1)=1. Аналогично вероятность поражения P_2(y) игрока I также является непрерывной функцией, которая монотонно возрастает по y, P_2(0)=0, P_2(1)=1.

Будем считать, что если игрок I поражает игрока II, то выигрыш игрока I

равен 1; если игрок II поражает игрока I, то выигрыш игрока I равен –1; если ни один из игроков не поражен или поражены оба игрока, то выигрыш игрока I равен 0.

В общем виде математическое ожидание выигрыша игрока I, когда игроки используют чистые стратегии x и y, равно (10.10.)

Определим K(x,y) следующим образом. При x < y первым применяет оружие игрок I, и вероятность того, что он поразит игрока II, равна P_1(x), и выигрыш игрока I будет равна +1. В случае промаха, вероятность которого равна 1-P_1(x), игрок II применит свое оружие в момент y=1 и поразит игрока I, выигрыш которого тогда будет равен –1. Следовательно,

L(x,y)=P_1(x)+(-1)[1-P_1(x)]=2P_1(x)-1.\\
F(x,y)=P_1(x)+(-1)[1-P_2(x)][1-P_1(x)]=P_1(x)-P_2(x).\\
N(x,y)=(-1)P_2(y)+[1-P_2(y)]=1-2P_2(y)-1.

Таким образом, математическое ожидание выигрыша игрока в рассматриваемой игре с выбором момента времени будет

K(x,y)=
\left< \begin{array}{ccc}
2P_1(x)-1 \text{ если }x < y;\\
P_1(x)-1 \text{ если }x = y;\\
1-2P_2(y) \text{ если }x > y;
\end{array}\right ( 10.11)

На основании того, что P_1(x) и P_2(y) увеличиваются с увеличением x и y соответственно, можно записать:

\mathop{max}\limits_x \mathop{min}\limits_y K(x,y) = \mathop{max}\limits_x \mathop{min}\limits_y [2P_1(x)-1,P_1(x)-P_2,1-2P_2(x)]

Для x, которые удовлетворяют неравенству

P_1(x)+P_2(x)\ge 1 ( 10.12)
,

Действительно, на основании 9.12. запишем:

P_2(x)\ge 1-P_1(x); -P_2(x)\le P_1(x)-1;\\
P_1(x)-P_2(x)\le 2P_1(x)-1.\\
P_1(x) \ge 1-P_2(x); P_1(x)-P_2(x)\ge 1-2P_2(x).

Следовательно,

1-2P_2(x)\le P_1(x)-P_2(x)\le 2P_1(x)-1.

Для x, которые удовлетворяют равенству

P_1(x)+P_2(x)=1\\ min[2P_1(x)-1,P_1(x)-P_2(x),1-2P_2(x)]=P_1(x)-P_2(x) ( 10.13)

так как на основании 9.13.

1-2P_2(x)=P_1(x)-P_2(x)=2P_1(x)-1.

Для x, которые удовлетворяют неравенству

P_1(x)+P_2(x)\le 1,\\ min[2P_1(x)-1,P_1(x)-P_2(x),1-2P_2(x)]=1P_1(x)-1 ( 10.14)

так как на основании 9.14.

P_1(x)-1\le P_1(x)-P_2(x)\le 1-2P_2(x).

Пусть x^* определяется уравнением

P_1(x^*)+P_2(x^*)=1.

Отсюда

\mathop{max}\limits_x \mathop{min}\limits_y [2P_1(x)-1,P_1(x)-P_2(x).1-2P_2(x)]=P_1(x^*)1P_2(x^*).

Следовательно,

\mathop{max}\limits_x \mathop{min}\limits_y K(x,y)=P_1(x^*)-P_2(x^*),

где x^* удовлетворяет уравнению

P_1(x^*)+P_2(x^*)=1 ( 10.15)

Аналогично можно показать, что

\mathop{max}\limits_xy \mathop{min}\limits_x K(x,y)=P_1(y^*)-P_2(y^*),

где y^* удовлетворяет уравнению

P_1(y^*)+P_2(y^*)=1 ( 10.16)

Следовательно, функция выигрыша K(x,y) имеет седловую точку ( x^*,y^*). Отсюда игрок I имеет чистую оптимальную стратегию x^*, определяемую из уравнения (10.15.) , игрок II — чистую оптимальную стратегию y^*, определяемую из уравнения (10.16.), а значение игры равно

\nu=P_1(x^*)-P_2(x^*)=P_1(y^*)-P_2(y^*) ( 10.17)

Таким образом, пара (x^*,y^*) является решением игры с выбором момента времени и выражает равновесие между желанием задержки и опасностью промедления.

< Лекция 9 || Лекция 10: 1234 || Лекция 11 >
Данил Комардин
Данил Комардин

мне задали дистанционное задание на сертификат,но я не могу его найти