Опубликован: 05.08.2011 | Доступ: свободный | Студентов: 1407 / 57 | Оценка: 4.50 / 3.50 | Длительность: 18:52:00
ISBN: 978-5-9963-0014-3
Специальности: Математик, Экономист
Лекция 1:

Теория игр

Лекция 1: 123 || Лекция 2 >

Доминантные и доминируемые стратегии

Что же делать участвующим в игре агентам? Как им определить, какая стратегия лучше других?

Давайте для начала поставим перед собой более скромную цель: определить, какие стратегии точно не подойдут.

Определение 1.2. Стратегия s\in S_i агента i называется доминируемой, если существует такая стратегия s^\prime \in S_i, что

\forall \mathbf s_{-i} \in \mathbf S_{-i}\quad u_i(s^\prime, \mathbf s_{-i})\ge u_i(s, \mathbf s_{-i}).

В таком случае говорят, что s^\prime доминирует над s.

Иначе говоря, стратегия s доминируема, если существует другая стратегия, которая не хуже s^\prime в каждой точке, при любых возможных комбинациях стратегий других агентов. Значит, нет вообще никакой причины предпочитать s, и ее можно просто отбросить при анализе.

Пример 1.4. Вспомним пример 1.2, в котором полковник Блотто собирался расставить войска на поле. Если проанализировать матрицу из примера 1.2, станет очевидным, что стратегии (3,0,0), (0,3,0) и (0,0,3) доминируются другими: например, стратегия (1,1,1) окажется лучше любой из них. Разумеется, то же самое верно и для противника Блотто. Таким образом, матрица существенно сократится.

\begin{array}{l|rrrrrrr}
        & \sd{(2,1,0)} & \sd{(2,0,1)} & \sd{(1,2,0)} &
\sd{(1,1,1)} & \sd{(1,0,2)} & \sd{(0,2,1)} & \sd{(0,1,2)}\\ \hline
(2,1,0) &    0    &    0    &    0    &    0    &    1   
&   -1    &    0    \\
(2,0,1) &    0    &    0    &    1    &    0    &    0   
&    0    &   -1    \\
(1,2,0) &    0    &   -1    &    0    &    0    &    0   
&    0    &    1    \\
(1,1,1) &    0    &    0    &    0    &    0    &    0   
&    0    &    0    \\
(1,0,2) &   -1    &    0    &    0    &    0    &    0   
&    1    &    0    \\
(0,2,1) &    1    &    0    &    0    &    0    &   -1   
&    0    &    0    \\
(0,1,2) &    0    &    1    &   -1    &    0    &    0   
&    0    &    0
\end{array}

Конец примера 1.4.

Пример 1.5. В примере 1.3, в котором мы обсуждали конкуренцию по Курно, было очень много доминируемых стратегий. Таковыми были все стратегии s_i \ge 2: они гарантированно приносили неположительную прибыль, в то время как нулевая стратегия ( s_i=0, ничего не производить) гарантирует нулевую прибыль. Поэтому сразу можно было ограничиться анализом квадрата [0,2]\times [0,2] в качестве множества стратегий.

Конец примера 1.5.

Правда, стоит заметить, что легко построить пример, в котором любая стратегия доминируема. Это будет значить, что некоторые стратегии эквивалентны, то есть доминируют друг над другом. В таких случаях хотя бы одну из них стоит оставить, а то совсем не из чего будет выбирать.

Продолжаем разговор. После доминируемых стратегий логично будет ввести доминантные стратегии.

Определение 1.3. Стратегия s\in S_i агента i называется доминантной, если всякая другая стратегия s^\prime \in S_i ею доминируется, то есть

\forall s^\prime\in  S_i \text{  }\forall \mathbf s_{-i} \in \mathbf S_{-i}\quad u_i(s,\mathbf s_{-i})\ge u_i(s^\prime,\mathbf s_{-i}).

Доминантная стратегия для агента — настоящее счастье. Ему вообще думать не надо: достаточно выбрать доминантную стратегию, все равно никакая другая ни при каком исходе ничего лучшего не даст.

Более того, если у всех агентов есть доминантные стратегии, то анализ такой игры закончится, не успев начаться. Можно с уверенностью сказать, что все агенты выберут свои доминантные стратегии.

Определение 1.4. Равновесие в доминантных стратегиях для стратегической игры \langle \mathcal I, \{S_i\}_{i\in\mathcal I}, \{u_i\}_{i\in\mathcal I}\rangle — это такой профиль стратегий s^*\in S, что для всякого агента i\in\mathcal I стратегия s^*_i является доминантной.

Такое равновесие является самым устойчивым из всех. В следующей лекции мы приведем пример из теории экономических механизмов, в котором возникает такое равновесие — так называемый аукцион Викри (см. теорему 2.1.

Но, к сожалению, счастье достижимо далеко не всегда. Ни в примере 1.1, ни в примере 1.2, ни в примере 1.3 никакого равновесия в доминантных стратегиях не получалось. Для каждой стратегии s_i игрока i там существовал профиль стратегий других игроков s_{-i}, в котором игроку i было бы выгодно сменить s_i на ту или иную s^\prime_i\neq s_i.

Равновесие Нэша

В предыдущем параграфе мы обсудили, что если у агента есть доминантная стратегия, то ему вообще размышлять и беспокоиться не о чем: он может просто выбирать эту стратегию. Но что же делать участвующим в игре агентам, когда таких стратегий нет и не предвидится?

Тогда приходится учитывать не только свои собственные стратегии, но и стратегии других агентов. Учет этот приведет к понятию равновесия, сформулированному в 1950 году Джоном Нэшем [60].

Определение 1.5. Равновесие Нэша в чистых стратегиях для стратегической игры \langle \mathcal I, \{S_i\}_{i\in\mathcal I}, \{u_i\}_{i\in\mathcal I}\rangle — это такой профиль стратегий \s^*\in S, что для всякого агента i\in\cal I выполняется следующее условие:

\forall s_i\in S_i\quad u_i(s_i^*,\mathbf s_{-i}^*)\ge u_i(s_i,\mathbf s_{-i}^*).

Иначе говоря, как и прежде, агенту невыгодно отклоняться от избранной стратегии s_i^*. Но теперь ему это невыгодно делать не абстрактно, при любом выборе стратегий у других агентов, а только в конкретном профиле стратегий \s^*.

Пример 1.6. Продолжаем рассматривать беднягу Блотто. Матрица игры полковника без доминируемых стратегий была приведена в примере 1.4. Из матрицы легко видеть, что если один игрок выбирает стратегию (1,1,1), то от выбора другого уже ничего не зависит, то есть можно сказать, что другому тоже нет резона отклоняться от стратегии (1,1,1). Все это значит, что для данной игры профиль стратегий ((1,1,1), (1,1,1)) находится в равновесии Нэша.

Конец примера 1.6.

Приведем и непрерывный пример — поверьте, нас еще ждут подобные рассуждения, и пора привыкать к чуть более серьезному анализу.

Пример 1.7. Вернемся к анализу конкуренции по Курно из примера 1.3. На этот раз мы не будем ничего упрощать: пусть цена задается неизвестной функцией P(s_1+s_2), а себестоимость производства для каждой фирмы — неизвестной функцией C_i(s_i). Чтобы найти равновесие Нэша, найдем функцию лучшего ответа. Прибыль компании определяется как

\Pi_i(s_1, s_2) = s_iP(s_1 + s_2) - C_i(s_i).

Чтобы определить максимум функции \Pi_i для фиксированного s_{i}, нужно просто найти производную

\frac{\partial\Pi_i}{\partial s_i} = \frac{\partial P(s_1 + s_2)}{\partial s_i} - P(s_1 + s_2) - \frac{\partial C_i(s_i)}{\partial s_i}

и приравнять ее к нулю. Соответственно, равновесие Нэша достигается там, где обе фирмы выдают оптимальный ответ на стратегию противника, то есть на решениях следующей системы дифференциальных уравнений:

\frac{\partial \Pi_1}{\partial s_1} = \frac{\partial P(s_1 + s_2)}{\partial s_1} - P(s_1 + s_2) - \frac{\partial C_1(s_1)}{\partial s_1} = 0, \\
\frac{\partial \Pi_2}{\partial s_2} = \frac{\partial P(s_1 + s_2)}{\partial s_i} - P(s_1 + s_2) - \frac{\partial C_2(s_2)}{\partial s_2} = 0.

Оставим читателю удовольствие проверить, что в рассмотренном в примере 1.3 частном случае равновесием Нэша действительно будет точка пересечения прямых на рис. 1.1.

Конец примера 1.7.

В определении 1.5 упоминался странный термин "чистые стратегии": а какими еще они бывают? Оказывается, что стратегии бывают не только чистыми, но и смешанными. Смешанные стратегии — логичное расширение понятия стратегии: давайте разрешим игроку не только выбирать одну из s_i, но и делать из них более или менее случайный выбор.

Определение 1.6. Смешанная стратегия для игрока i в стратегической игре \langle \mathcal I, \{S_i\}_{i\in\mathcal I}, \{u_i\}_{i\in\mathcal I}\rangle — это распределение вероятностей \sigma_i\in\Sigma_i, где \Sigma_i — множество всех распределений вероятностей над S_i .

Смешанную стратегию также можно рассматривать как задание весов для каждой стратегии так, чтобы сумма (в непрерывном случае — интеграл) всех весов была равна 1.

Бывают игры, где нет равновесий Нэша для чистых стратегий. Но оно всегда (в конечном случае) есть в смешанных стратегиях.

Пример 1.8. Вспомним игру "камень-ножницы-бумага", матрицу которой мы уже выписывали в примере 1.1.

\begin{array}{r|rrr}
               & \sdt{Камень} & \sdt{Ножницы} & \sdt{Бумага} \\
\hline
\text{Камень}  &     0        &        1      &       -1     \\
\text{Ножницы} &    -1        &        0      &        1     \\
\text{Бумага}  &     1        &       -1      &        0     \\
\end{array}

Очевидно, что никакого равновесия Нэша в чистых стратегиях здесь нет: для любой стратегии найдется кому ее опровергнуть. Но равновесие Нэша в смешанных стратегиях здесь имеется. Предположим, что второй игрок выбирает камень, ножницы или бумагу с вероятностью \frac{1}{3}, а первый выбирает их с вероятностями p, q и 1-p-q. Тогда первый игрок выигрывает с вероятностью

\frac{1}{3}p + \frac{1}{3}q + \frac{1}{3}(1-p-q)=\frac{1}{3},

а также проигрывает и делает ничью с той же вероятностью. Иначе говоря, если противник выбирает стратегию равновероятно, для игрока все стратегии эквивалентны. Поскольку игра симметрична, получается, что профиль смешанных стратегий

\left[\left(\frac{1}{3},\frac{1}{3},\frac{1}{3}\right),\left(\frac{1}{3},\frac{1}{3},\frac{1}{3}\right)\right]

находится в равновесии.

Конец примера 1.8.

Доказательство того, что равновесие в смешанных стратегиях всегда существует, следует из теоремы Какутани о неподвижной точке [12,31].

Теорема 1.1 (Какутани) Пусть S — непустое выпуклое компактное подмножество евклидова пространства \mathbb R^n, а \phi:S\to 2^Sмногозначная функция на S с замкнутым графиком, такая, что множество \phi(\mathbf  x) непусто, замкнуто и выпукло для всех \mathbf x\in S. Тогда у \phi есть неподвижная точка: \exists \mathbf x: \mathbf x\in\phi(\mathbf x).

Контрпример к теореме Какутани для невыпуклого графика

Рис. 1.2. Контрпример к теореме Какутани для невыпуклого графика

Замечание. Чтобы понять условие теоремы, обычно лучше всего привести пример, в котором без одного из условий теорема оказывается неверной. Вот и здесь: давайте рассмотрим многозначную функцию на единичном отрезке f:[0,1]\to 2^{[0,1]}, заданную как

f(x) = \begin{cases}x+\frac12, & x < \frac12, \\ \{0,1\},
& x = \frac12, \\ x - \frac12, & x >
\frac12.\end{cases}

Получилась функция с замкнутым графиком (график ее изображен на рис. рис. 1.2), но прямую x=f(x) он не пересекает, а все потому, что в точке x=\frac12 график не является выпуклым (если замкнуть его по выпуклости в этой точке, то она и будет неподвижной для f ). Ну а для любой функции, удовлетворяющей всем условиям теоремы, все в порядке: вот, например, на рис. рис. 1.3 функция f(x)=\left[\frac12-\frac12x,1-x\right], заданная на все том же отрезке S=[0,1]. Как видно, она пересекает прямую x=f(x) (причем далеко не в одной точке); x -координаты всего этого пересечения представляют собой неподвижные точки функции f.

Пример к теореме Какутани

Рис. 1.3. Пример к теореме Какутани

Следствие 1.1.1. В любой конечной игре существует равновесие Нэша в смешанных стратегиях.

Каждая смешанная стратегия есть распределение вероятностей на множестве возможных действий агента, а значит, сумма этих вероятностей равна единице. Но в n -мерном евклидовом пространстве симплекс

\Delta^n = \left\{\bm a = (a_1, a_2, \ldots, a_n)\mid a_i\ge0,
\sum_{i=1}^n a_i = 1\right\}

является выпуклым компактным множеством. Выигрыш игрока в игре со смешанными стратегиями есть математическое ожидание вида

G_i(a_1, a_2,..., a_n) = \sum\limits_{i_1 = 1}^{m_1} \sum\limits_{i_2 =
1}^{m_2} .. \sum\limits_{i_n = 1}^{m_n}
g_i(i_1, i_2,..., i_n)a_1^{i_1} a_2^{i_2} .. a_n^{i_n}.

Эта функция является линейной и непрерывной по \mathbf a при фиксированных остальных аргументах. Следовательно, по теореме Какутани, у этой функции будет неподвижная точка. Это и означает существование равновесия по Нэшу в играх со смешанными стратегиями.

Говорят, в 1949 году Нэш рассказал фон Нейману о своей новой идее насчет равновесия для смешанных стратегий. Фон Нейман в своем стиле ответил: "Это, знаете ли, тривиально; это же всего лишь теорема о неподвижной точке". Позже Нэшу за это "тривиальное наблюдение" дали Нобелевскую премию (хотя, конечно, не только за него).

Лекция 1: 123 || Лекция 2 >
Юрий Тарасов
Юрий Тарасов
Россия, Мегион, средняя школа №1, 1993
Олег Корсак
Олег Корсак
Латвия, Рига