2 Алгоритм построения оптимального пути

Next: 3 Значение игры Up: PETROSJA Previous: 1 Основная модель

2. Алгоритм построения оптимального пути

В этом разделе мы предложим метод построения решения игры $\Gamma_f(x_0)$ , который приведет также к построению соответствующего оптимального пути.

Решение игры $\Gamma_f(x_0)$ строим методом обратной индукции, двигаясь от окончательных позиций к начальной. Процедура поиска решения игры $\Gamma_f(x_0)$ напоминает схему построения равновесия по Нэшу в обычной позиционной игре. Существующие различия заключаются в следующем. Предположим, что поддерево принадлежит области кооперативного поведения игрока . Как указывалось выше, кооперативная функция определяет для каждой позиции некоторую коалиционную структуру. Тогда на множестве окончательных позиций поддерева вместо выигрышей игрока необходимо рассматривать выигрыши коалиций, включающих игрока . На поддереве , используя схему Нэша, решение игрока , максимизирующего выигрыш коалиции, к которой он принадлежит, может быть легко определено. Однако, поскольку выигрыш игрока не выделен из коалиционного выигрыша, при определении решений игрока в его личных позициях, находящихся между позицией и начальной позицией , где игрок играет индивидуально, возникают трудности. Если доля игрока в коалиционном выигрыше известна, то, применяя снова схему Нэша, мы можем найти решения игрока в его личных позициях вдоль пути $\{x_0,\ldots,x\}$ . Таким образом, определение изменений выигрыша при переходе игрока с кооперативного поведения на индивидуальное является главной проблемой, рассматриваемой в предлагаемом алгоритме.

В дальнейшем мы будем использовать следующие обозначения. Пусть - некоторая позиция. Обозначим через множество позиций, непосредственно следующих за . Обозначим игрока, принимающего решение в позиции , $x\in P_i$ , в игре $\Gamma$ через $i(x)\in N$ . Будем говорить, что решение игрока в позиции ведет в позицию $\bar x\in Z(x)$ . Введем вспомогательную функцию , определяемую с помощью кооперативной функции $f=(f_1,\ldots,f_n)$ :

$\begin{displaymath} c_f(x)=\left\{ \begin{array}{rl} 1,&\ \ \mbox{ если \ \ $f_{... ...x] 0,&\ \ \mbox{ если \ \ $f_{i(x)}(x)=0$.} \end{array}\right. \end{displaymath}$

(2.1)

Предположим, что длина игры $\Gamma_f(x_0)$ составляет позицию. Рассмотрим разбиение множества всех позиций дерева игры на множеств , $X_1,\ldots,X_t,\ldots,X_T=\{x_0\}$ , где множество состоит из позиций достигаемых из начальной позиции за ходов. Обозначим множество позиций, принадлежащих множеству , через , $t=1,\ldots,T$ .

Начальный шаг. Рассмотрим множество окончательных позиций
$P_{n+1}$ . Коалиционная структура в позиции $x\in P_{n+1}$ совпадает с коалиционной структурой в позиции , $x\in Z(x_1)$ . Согласно кооперативной функции , в позиции формируются коалиции , $\{j_1\},\ldots,\{j_{\vert N\setminus S_f(x_1)\vert}\}$ . Выигрыш игрока в позиции $x\in Z(x_1)$ равен

$\begin{displaymath} \sum_{i\in S_f(x_1)}h_i(x). \end{displaymath}$

(2.2)

Выигрыш игрокa $i_f=\{j_k\}$ , $k=1,\ldots,\vert N\setminus S_f(x_1)\vert$ , в окончательной позиции

составляет $h_{j_k}(x)$ .

Шаг 1. Перейдем из окончательных позиций , $x_1\in X_1$ , к предшествующим. Рассмотрим окончательную позицию . Предположим, что . Тогда игрок $i(x_1)\in N$ кооперируется, и в позиции делает ход игрок , $i_f(x_1)\in N_f$ . Мы предписываем игроку выбрать позицию $\bar x_1\in Z(x_1)$ из условия

$\begin{displaymath} \max_{x\in Z(x_1)}\sum_{i\in S_f(x_1)}h_i(x)= \sum_{i\in S_f(x_1)}h_i(\bar x_1). \end{displaymath}$

(2.3)

Если

, то игрок

не кооперируется. Отсюда $i_f(x_1)=\{i(x_1)\}$ . В этом случае мы предписываем игроку

выбрать позицию $\bar x_1$ из условия

$\begin{displaymath} \max_{x\in Z(x_1)} h_{i(x_1)}(x)= h_{i(x_1)}(\bar x_1). \end{displaymath}$

(2.4)

Применяя аналогичные рассуждения, можно построить путь с началом в $x_1\in X_1$ для каждой позиции

множества

. Таким образом, на каждом поддереве

, $x_1\in X_1$ , фиксируется позиция $\bar x_1$ , являющаяся предполагаемой окончательной позицией строящегося пути игры $\Gamma_f(x_0)$ . Поэтому вместо рассмотрения терминальных функций

, $i\in N$ , на множестве $P_{n+1}$ окончательных позиций мы можем использовать функции $r^1_i\colon X_1\to R^1_+$ , $i\in N$ , задаваемые на множестве

$\begin{displaymath} r^1_i(x_1)=\left\{ \begin{array}{ll} h_i(\bar x_1),&\quad\mb... ...1),&\quad\mbox{ если \ \ $x_1\in P_{n+1}$.} \end{array}\right. \end{displaymath}$

(2.5)

Шаг 2. Продолжим движение по направлению к корню дерева игры. Найдем решения игроков $i_f\in N_f$ в позициях $x_2\in X_2$ . Если на множестве известны выигрыши каждого игрока $i_f(x_2)\in N_f$ , $x_2\in X_2$ , то мы можем построить путь игры на поддеревьях , $x_2\in X_2$ .

Рассмотрим множество

$\begin{displaymath} Y(x_2)=Y_1(x_2)\cup Y_2(x_2), \end{displaymath}$

(2.6)

где

$\begin{displaymath} Y_1(x_2)=\Bigl\{x\in Z(x_2)\Bigl\vert\ c_f(x_2)=0\quad \mbox{ и } \quad i(x_2)\in S_f(x)\Bigr\} \end{displaymath}$

(2.7)

$\begin{displaymath} Y_2(x_2)=\Bigl\{x\in Z(x_2)\Bigl\vert\ c_f(x_2)=1\quad \mbox{ и } \quad S_f(x)\setminus S_f(x_2)\not=\emptyset\Bigr\}. \end{displaymath}$

(2.8)

В каждой позиции множества $Y(x_2)\subset Z(x_2)$ выигрыш либо коалиции $i_f(x_2)=\{i(x_2)\}$ при

, либо коалиции

при

не выделен из выигрыша $\sum_{i\in S_f(x_1)}r_i^1(x_1)$ коалиции

, $x_1\in Z(x_2)$ .

В качестве примера, подтверждающего существование непустого множества , предположим, что игрок делает ход в поддереве дважды, т.е. существует позиция $y_1\in Z(x_2)$ такая, что и есть один и тот же игрок. Допустим, что и . Тогда игрок принадлежит коалиции на поддереве и играет индивидуально в позиции . Поскольку выигрыш игрока не выделен из выигрыша $\sum_{i\in S_f(y_1)}r^1_i(\bar y_1)$ коалиции , то его выигрыш в позиции $y_1\in Z(x_2)$ не известен.

В общем случае отсутствие информации о выигрыше происходит в позициях, где изменяется коалиционная структура, и это изменение касается текущего игрока, принимающего решение. Для каждой позиции $x_2\in X_2$ мы рассмотрим два основных случая.

1) Предположим, что $Y(x_2)=\emptyset$ . Пусть . Следовательно, в позиции принимает решение игрок $i_f(x_2)=\{i(x_2)\}$ . Мы предписываем игроку выбрать позицию $\bar x_2\in Z(x_2)$ из условия

$\begin{displaymath} \max_{x\in Z(x_2)} r^1_{ i(x_2)}(x)= r^1_{ i(x_2)}(\bar x_2). \end{displaymath}$

(2.9)

Теперь допустим, что

. Коалиция

является подмножеством коалиции

для каждой позиции $x_1\in Z(x_2)$ . Поэтому, поскольку $Y(x_2)=\emptyset$ , коалиции

совпадают. В этом случае мы предпишем игроку

выбрать позицию $\bar x_2\in Z(x_2)$ из условия

$\begin{displaymath} \max_{x\in Z(x_2)} \sum_{i\in S_f(x_2)} r^1_i(x)= \sum_{i\in S_f(x_2)} r^1_i(\bar x_2). \end{displaymath}$

(2.10)

2) Предположим, что $Y(x_2)\not=\emptyset$ . Как выше указывалось, возникает неопределенность с выигрышами коалиции $i_f(x_2)=\{i(x_2)\}$ при и коалиции при . Чтобы построить путь игры на поддереве , необходимо найти некоторый дележ выигрыша коалиции для каждой позиции $y_1\in Y(x_2)$ . Определим требуемый дележ, рассматривая вспомогательную кооперативную игру на поддереве с множеством игроков и х. ф. , $R\subset S_f(y_1)$ , для каждой позиции $y_1\in Y(x_2)$ .

Для связности изложения детальное объяснение построения х. ф.
приводится ниже. Сейчас же будем предполагать лишь, что х. ф. известна.

Выигрыш наибольшей коалиции в кооперативной игре равен

$\begin{displaymath} v_f(y_1,S_f(y_1))=\sum_{i\in S_f(y_1)} r^1_i(y_1). \end{displaymath}$

(2.11)

Мы предлагаем рассматривать вектор Шепли [5]

$\begin{displaymath} Sh^f(y_1)=\Bigl(Sh^f_{k_1}(y_1),\ldots, Sh^f_{k_{\vert S_f(y_1)\vert}}(y_1)\Bigr), \end{displaymath}$

(2.12)

где

$\begin{displaymath} \sum_{j=1}^{\vert S_f(y_1)\vert} Sh^f_{k_j}(y_1)=v_f(y_1,S_f(y_1)), \end{displaymath}$

(2.13)

в качестве оптимального дележа в игре

. Если игрок $\{i(x_2)\}\in N_f$ в позиции

выбирает позицию $y_1\in Y(x_2)$ , то его выигрыш определяется с помощью вектора Шепли

и равен $Sh^f_{i(x_2)}(y_1)$ . Таким образом, на множестве

задается новая функция выигрышей $\bar r^1_i\colon X_1\to R^1_+$ , $i\in N$ , такая, что для $x_1\in Z(x_2)$

$\begin{displaymath} \bar r^1_i(x_1)=\left\{ \begin{array}{ll} Sh^f_i(x_1),&\quad... ...1_i(x_1),&\quad\mbox{ в противном случае. } \end{array}\right. \end{displaymath}$

(2.14)

Предположим, что . Тогда для игрока $i_f(x_2)=\{i(x_2)\}$ является оптимальным реализация пути, проходящего через позицию $\bar x_2\in Z(x_2)$ , которая удовлетворяет условию:

$\begin{displaymath} \max_{x\in Z(x_2)}\bar r^1_{i(x_2)}(x)=\bar r^1_{i(x_2)}(\bar x_2). \end{displaymath}$

(2.15)

Теперь пусть . Так как игрок кооперируется, то в позиции совершает ход коалиция . Мы предписываем ей выбрать позицию $\bar x_2$ , удовлетворяющую условию:

$\begin{displaymath} \max_{x\in Z(x_2)}\sum_{i\in S_f(x_2)}\bar r^1_{i(x_2)}(x)= \sum_{i\in S_f(x_2)} \bar r^1_{i(x_2)}(\bar x_2). \end{displaymath}$

(2.16)

Таким образом, путь на каждом поддереве , $x\in X_2$ , построен. Отсюда, чтобы построить путь игры на поддеревьях , $x_3\in X_3$ , достаточно определить решения игроков $i_f(x_3)\in N_f$ , $x_3\in X_3$ . Зададим на множестве функции $r^2_i\colon X_2\to R_+^1$ , $i\in N$ , такие, что для $x_2\in X_2$ и $i\in N$

$\begin{displaymath} r^2_i(x_2)=\left\{ \begin{array}{ll} r^1_i(\bar x_2),&\quad\... ..._2),&\quad\mbox{ если\ \ $x_2\in P_{n+1}$.} \end{array}\right. \end{displaymath}$

(2.17)

Дальнейшие шаги процедуры аналогичны шагу 1 и 2. Опуская изложение каждого шага, рассмотрим шаг . Предположим, что продолжая двигаться к корню дерева игры, мы достигли позиций $x_t\in X_t$ . Пусть функции $r^{t-1}_i\colon X_{t-1}\to R^1_+$ , $i\in N$ , определяют, какие выигрыши получают игроки $i\in N$ после выполнения игроками $i_f(x_{t-1})\in N_f$ , $x_{t-1}\in X_{t-1}$ , предписанных нами решений.

Шаг t. Мы не будем затрагивать окончательные позиции из множества $X_t\cap P_{n+1}$ , потому что они могут быть рассмотрены точно так же, как в разделе 3.2. Определим решения игроков $i_f\in N_f$ в промежуточных позициях $X_t\setminus P_{n+1}$ . Пусть

$\begin{displaymath} Y(x_t)=Y_1(x_t)\cup Y_2(x_t), \end{displaymath}$

(2.18)

где

$\begin{displaymath} Y_1(x_t)=\{x\in Z(x_t)\vert \ c_f(x_t)=0\ \ \mbox{ и } \ \ i(x_t)\in S_f(x)\} \end{displaymath}$

(2.19)

$\begin{displaymath} Y_2(x_t)=\{x\in Z(x_t)\vert\ c_f(x_t)=1\ \ \mbox{ и } \ \ S_f(x)\setminus S_f(x_t) \not=\emptyset\}. \end{displaymath}$

(2.20)

Сначала обсудим случай, когда построение новых функций выигрыша не является необходимым.

1) Допустим, что $Y(x_t)=\emptyset$ для всех позиций $x_t\in X_t\setminus P_{n+1}$ . Согласно функциям $r_i^{t-1}$ , $i\in N$ , если решение игрока приводит игру в позицию $\bar x_t\in Z(x_t)$ , то выигрыши, получаемые игроками $i_f\in N_f$ в конце игры, будут равны $\sum_{i\in S_f(x_t)} r_i^{t-1}(\bar x_t)$ для игрока и $r_{j_k}^{t-1}(\bar x_t)$ для игроков $i_f=\{j_k\}$ , $k=1,\ldots,\vert S_f(x_t)\vert$ , соответственно. Если , то в позиции делает ход игрок $i_f=\{i(x_t)\}$ и мы предпишем ему выбрать позицию $\bar x_t$ удовлетворяющую условию

$\begin{displaymath} \max_{x\in Z(x_t)} r^{t-1}_{i(x_t)}(x)= r^{t-1}_{i(x_t)}(\bar x_t). \end{displaymath}$

(2.21)

Если же

, то в позиции

делает ход игрок

. Мы предпишем ему выбрать позицию $\bar x_t$ из условия

$\begin{displaymath} \max_{x\in Z(x_t)} \sum_{i\in S_f(x_t)} r^{t-1}_{i(x_t)}(x)= \sum_{i\in S_f(x_t)}r^{t-1}_{i(x_t)}(\bar x_t). \end{displaymath}$

(2.22)

2) Предположим, что для некоторой позиции множество $Y(x_t)\subset Z(x_t)$ , состоящее из позиций, для которых выигрыш игрока $i_f(x_t)\in N_f$ не определен, не пусто.

Чтобы узнать решение игрока в позиции , для каждой позиции $y_{t-1}\in Y(x_t)$ рассмотрим кооперативную игру $G_f(y_{t-1},S_f(y_{t-1}))$ $\vert S_f(y_{t-1})\vert$ лиц с х. ф. $v_f(y_{t-1},R)$ , $R\subset S_f(y_{t-1})$ . Выигрыш наибольшей коалиции в этой кооперативной игре равен

$\begin{displaymath} v_f(y_{t-1},S_f(y_{t-1}))=\sum_{i\in S_f(y_{t-1})}r^{t-1}_i(y_{t-1}). \end{displaymath}$

(2.23)

Мы будем рассматривать вектор Шепли

$\begin{displaymath} Sh^f(y_{t-1})=\Bigl(Sh^f_{k_1}(y_{t-1}),\ldots, Sh^f_{k_{\vert S_f(y_{t-1})\vert}}(y_{t-1})\Bigr), \end{displaymath}$

(2.24)

где

$\begin{displaymath} \sum_{j=1}^{\vert S_f(y_{t-1})\vert}Sh^f_{k_j}(y_{t-1})= v_f(y_{t-1},S_f(y_{t-1})), \end{displaymath}$

(2.25)

как оптимальный дележ выигрыша коалиции $S_f(y_{t-1})$ . Тогда измененные выигрыши задаются на $X_{t-1}$ функциями $\bar r^{t-1}_i\colon X_{t-1}\to R^1_+$ , $i\in N$ , где для $x_{t-1}\in Z(x_t)$

$\begin{displaymath} \bar r^{t-1}_i(x_{t-1})=\left\{ \begin{array}{ll} Sh^f_i(x_{... ...(x_{t-1}),&\quad\mbox{ в противном случае.} \end{array}\right. \end{displaymath}$

(2.26)

Если , мы предписываем игроку $i_f(x_t)=\{i(x_t)\}$ выбрать позицию $\bar x_t\in Z(x_t)$ из условия

$\begin{displaymath} \max_{x\in Z(x_t)}\bar r^t_{i(x_t)}(x)=\bar r^t_{i(x_t)}(\bar x_t). \end{displaymath}$

(2.27)

Если

, в позиции

принимает решение игрок

. Предписываем ему выбрать позицию $\bar x_t$ из условия

$\begin{displaymath} \max_{x\in Z(x_t)}\sum_{i\in S_f(x_t)}\bar r^t_{i(x_t)}(x)= \sum_{i\in S_f(x_t)} \bar r^t_{i(x_t)}(\bar x_t). \end{displaymath}$

(2.28)

В итоге, так как решения игроков $i_f\in N_f$ были определены для каждой позиции $x_t\in X_t$ , развитие игры $\Gamma_f(x_0)$ на каждом поддереве , $x_t\in X_t$ , найдено. Кроме этого, на шаге процедуры были построены функции $r^t_i\colon X_t\to R^1_+$ , определяющие, какой выигрыш получат игроки $i\in N$ после принятия игроками $i_f\in N_f$ в позициях $x_t\in X_t$ предписанных нами решений. Для $i\in N$ и $x_t\in X_T$ функция задается следующим образом:

$\begin{displaymath} r^t_i(x_t)=\left\{ \begin{array}{ll} r^{t-1}_i(\bar x_t), &\... ...), &\quad\mbox{ если \ \ $x_t\in P_{n+1}$.} \end{array}\right. \end{displaymath}$

(2.29)

Продолжая спускаться по дереву игры к начальной позиции и последовательно определяя решения игроков $i_f\in N_f$ на оставшихся множествах $X_\tau$ , $\tau=t+1,\ldots,T$ , мы построим путь, который реализуется в игре $\Gamma$ при задании кооперативной функции $f=(f_1,\ldots,f_n)$ . Мы будем называть данный путь оптимальным путем частично-кооперативной игры $\Gamma_f(x_0)$ и обозначать его через .

Кооперативные игры

Обсудим построение кооперативных игр , $x\in Y(x_t)$ . Укажем метод построения х. ф. , $R\subset S_f(x)$ , игры .

При построении оптимального пути развития игры $\Gamma_f(x_0)$ в разделах 3.2-3.5 было определено поведение игроков $i_f\in N_f$ в каждой личной позиции принятия решения. Такое поведение, как функция от текущих позиций, называется стратегией. Обозначим через $\psi^*(\cdot)=\Bigl(\psi^*_1(\cdot),\ldots,\psi^*_n(\cdot)\Bigr)$ набор стратегий, определенных в разделах 3.2-3.5, приводящий к оптимальному пути игры $\Gamma_f(x_0)$ . Кооперативная игра строится с помощью этих стратегий. Рассмотрим след $\psi^*_x(\cdot)=\Bigl(\psi^*_{1x}(\cdot),\ldots, \psi^*_{nx}(\cdot)\Bigr)$ набора $\psi^*$ на поддереве . Для игроков $i\not\in S_f(x)$ зафиксируем стратегии $\psi^*_{ix}(\cdot)$ и рассмотрим подыгру $\overline\Gamma_f(x)$ игры $\Gamma_f(x_0)$ , в которой выборы игроков $i\not\in S_f(x)$ в их личных позициях зафиксированы в соответствии со стратегиями $\psi^*_{ix}(\cdot)$ . Таким образом, игра $\overline\Gamma_f(x)$ есть игра между игроками из коалиции . Для каждой подкоалиции $R\subset S_f(x)$ рассмотрим ассоциированную с $\overline\Gamma_f(x)$ игру с нулевой суммой $\overline{\overline\Gamma}_R(x,S_f(x))$ между двумя игроками: коалицией , являющейся максимизирующим игроком (выигрыш коалиции равен сумме выигрышей игроков из ), и коалицией $S_f(x)\setminus R$ , являющейся минимизирующим игроком (выигрыш коалиции $S_f(x)\setminus R$ равен выигрышу коалиции с обратным знаком). Можно показать, что выигрыш каждой коалиции , определенный таким образом, не может превысить величины , поскольку по построению коалиция получает выигрыш , используя наилучшие ответные стратегии против стратегий $\psi^*_{ix}(\cdot)$ игроков $i\not\in S_f(x)$ . Пусть будет значением игры $\overline{\overline\Gamma}_R(x,S_f(x))$ . С помощью выигрышей , $R\subset S_f(x)$ , вектор Шепли строится в игре $\Gamma_f(x)$ обычным способом.

Next: 3 Значение игры Up: PETROSJA Previous: 1 Основная модель

2003-05-08