Каков оптимальный механизм нахождения решения равновесия. Механизм установления рыночного равновесия

Оптимальными стратегиями в теории конфликтов считаются такие стратегии, которые приводят игроков к устойчивым равновесиям, т.е. неким ситуациям, удовлетворяющим всех игроков.

Оптимальность решения в теории игр основана на понятии равновесной ситуации :

1) ни одному из игроков не выгодно отклоняться от равновесной ситуации, если все другие остаются в ней,

2) смысл равновесия - при многократном повторении игры, игроки выйдут на ситуацию равновесия, начав игру в любой стратегической ситуации.

В каждом взаимодействии могут существовать следующие виды равновесий:

1. равновесие в осторожных стратегиях . Определяется стратегиями, обеспечивающими игрокам гарантированный результат;

2. равновесие в доминирующих стратегиях .

Доминирующей стратегией называется такой план действий, который обеспечивает участнику максимальный выигрыш вне зависимости от действий другого участника. Поэтому равновесием доминирующих стратегий будет пересечение доминирующих стратегий обоих участников игры.

Если оптимальные стратегии игроков доминируют над всеми остальными их стратегиями, то игра имеет равновесие в доминирующих стратегиях. В игре "дилемма заключенных" равновесным по Нэшу набором стратегий будет ("признавать - признавать"). Причем важно отметить, что как для игрока А, так и для игрока Б "признавать" является доминирующей стратегией, тогда как "не признавать" – доминируемой;

3. равновесие Нэша . Равновесием Нэша называется тип решений игры двух и более игроков, в котором ни один участник не может увеличить выигрыш, изменив своё решение в одностороннем порядке, когда другие участники не меняют решения.

Допустим, - игра n лиц в нормальной форме, где - набор чистых стратегий, а - набор выигрышей.

Когда каждый игрок выбирает стратегию в профиле стратегий , игрок получает выигрыш . Причем выигрыш зависит от всего профиля стратегий: не только от стратегии, выбранной самим игроком , но и от чужих стратегий. Профиль стратегий является равновесием по Нэшу, если изменение своей стратегии не выгодно ни одному игроку, то есть для любого

Игра может иметь равновесие Нэша и в чистых стратегиях, и в смешанных.

Нэш доказал, что если разрешить смешанные стратегии , тогда в каждой игре n игроков будет хотя бы одно равновесие Нэша.

В ситуации, равновесной по Нэшу, стратегия каждого игрока обеспечивает ему наилучший отклик на стратегии других игроков;

4. Равновесие Штакельберга . Модель Штакельберга – теоретико-игровая модель олигополистического рынка при наличии информационной асимметрии. В этой модели поведение фирм описывается динамической игрой с полной совершенной информацией, в которой поведение фирм моделируется с помощью статической игры с полной информацией. Главной особенностью игры является наличие лидирующей фирмы, которая первой устанавливает объём выпуска товаров, а остальные фирмы ориентируются в своих расчетах на нее. Основные предпосылки игры:


· отрасль производит однородный товар: отличия продукции разных фирм пренебрежимо малы, а значит, покупатель при выборе, у какой фирмы покупать, ориентируется только на цену;

· в отрасли действует небольшое число фирм;

· фирмы устанавливают количество производимой продукции, а цена на неё определяется исходя из спроса;

· существует так называемая фирма-лидер, на объём производства которой ориентируются остальные фирмы.

Таким образом, модель Штакельберга используется для нахождения оптимального решения в динамических играх и соответствует максимальному выигрышу игроков, исходя из условий, сложившихся после уже сделанного выбора одним или несколькими игроками. Равновесие по Штакельбергу. - ситуация, когда ни один из игроков не может увеличить свой выигрыш в одностороннем порядке, а решения принимаются сначала одним игроком и становятся известными второму игроку. В игре «дилемма заключенных» равновесие по Штакельбергу будет достигнуто в квадрате (1;1) - "признавать вину" обоими преступниками;

5. оптимальность по Парето - такое состояние системы, при котором значение каждого частного критерия, описывающего состояние системы, не может быть улучшено без ухудшения положения других игроков.

Принцип Парето гласит так: «Всякое изменение, которое не приносит убытков, а которое некоторым людям приносит пользу (по их собственной оценке), является улучшением». Таким образом, признаётся право на все изменения, которые не приносят никому дополнительного вреда.

Множество состояний системы, оптимальных по Парето, называют «множеством Парето», «множеством альтернатив, оптимальных в смысле Парето», либо «множеством оптимальных альтернатив».

Ситуация, когда достигнута эффективность по Парето - это ситуация, когда все выгоды от обмена исчерпаны.

Эффективность по Парето является одним из центральных понятий для современной экономической науки. На основе этого понятия строятся первая и вторая фундаментальные теоремы благосостояния.

Одним из приложений Парето-оптимальности является Парето-распределение ресурсов (трудовых ресурсов и капитала) при международной экономической интеграции, т.е. экономическом объединении двух и более государств. Интересно, что Парето-распределение до и после международной экономической интеграции было адекватно математически описано (Далимов Р.Т., 2008). Анализ показал, что добавленная стоимость секторов и доходы трудовых ресурсов движутся противонаправленно в соответствии с хорошо известным уравнением теплопроводности аналогично газу или жидкости в пространстве, что дает возможность применить методику анализа, используемую в физике, в отношении экономических задач по миграции экономических параметров.

Оптимум по Парето гласит, что благосостояние общества достигает максимума, а распределение ресурсов становится оптимальным, если любое изменение этого распределения ухудшает благосостояние хотя бы одного субъекта экономической системы.

Парето-оптимальное состояние рынка - ситуация, когда нельзя улучшить положение любого участника экономического процесса, одновременно не снижая благосостояния как минимум одного из остальных.

Согласно критерию Парето (критерию роста общественного благосостояния), движение в сторону оптимума возможно лишь при таком распределении ресурсов, которое увеличивает благосостояние по крайней мере одного человека, не нанося ущерба никому другому.

Говорят, что ситуация S* доминирует по Парето ситуацию S, если:

· для любого игрока его выигрыш в S<=S*

· есть хотя бы один игрок, для которого его выигрыш в ситуации S*>S

В задаче "дилемма заключенных" равновесию по Парето, когда улучшить положение ни одного из игроков, не ухудшая при этом положение другого, нельзя, соответствует ситуация квадрата (2;2).

Рассмотрим пример 1 .

Тема 4. Теория игр и моделирование взаимодействий.

1. Основные понятия теории игр.

2. Типы равновесия: равновесие по Нэшу, Штекельбергу, Парето-оптимальное равновесие, равновесие доминирующих стратегий.

3. Базовые модели теории игр.

Основные понятия теории игр.

Использование математических методов, к числу которых относится теория игр, в анализе экономических процессов позволяет выявить такие тенденции, взаимосвязи, которые остаются скрытыми при применении других методов и даже получить весьма неожиданные результаты.

Отметим, что теория игр относится к числу наиболее молодых математических дисциплин. Её возникновение как самостоятельной отрасли математики относят к середине 1950-х гг., когда вышла известная монография Ф.Неймана и О.Моргенштерна «Теория игр и экономического поведения». Истоки теории игр связанной с работами Э.Пореля (1921 г.)."

К настоящему времени теория игр превратилась в целое математическое направление, богатое интересными результатами и имеющее большое количество практических рекомендаций и приложений.

Рассмотрим основные предположения и понятия игровой модели межчеловеческих взаимодействий.

1. Число взаимодействующих индивидов равно двум. Индивиды называются игроками. Понятие игрока позволяет моделировать социальные роли индивида: продавца, покупателя, мужа, жены и пр. Игра есть упрощенное представление взаимодействий двух индивидов, имеющих различные или схожие социальные роли, например покупатель - продавец, продавец - продавец и др.



2. Каждый индивид имеет фиксированный набор вариантов поведения, или альтернатив. Число вариантов поведения у различных игроков может не совпадать.

3. Межличностное взаимодействие считается реализованным, если оба игрока одновременно выбирают варианты своего поведения и действуют в соответствии с ними. Единичный акт межчеловеческого взаимодействия называют ходом игры. Продолжительность акта взаимодействия полагают равной нулю.

4. Ход игры задается двумя целыми числами - выбранным номером варианта поведения (ходом) первого игрока и выбранным номером варианта поведения (ходом) второго игрока. Максимально возможное число различных ходов игры равно произведению общего числа ходов первого игрока и общего числа ходов второго игрока.

5. Каждое взаимодействие индивидов, или ход игры, получает свой порядковый номер: 1, 2, 3 и т.д. Не следует путать понятие «ход игры» (пара чисел) и «номер хода игры» (одно число). Предполагается, что взаимодействия происходят регулярно через равные промежутки времени, поэтому номер хода игры показывает продолжительность периода времени, в течение которого данные индивиды взаимодействуют друг с другом.

6. Каждый игрок стремится добиться максимального значения некоторого целевого показателя, который называют полезностью, или выигрышем. Таким образом, игрок обладает чертами «экономического человека». Выигрыш игрока может быть как положительным, так и отрицательным. Отрицательный выигрыш называют также проигрышем.

7. Каждому ходу игры (паре выбранных игроками альтернатив) отвечает единственная пара выигрышей игроков. Зависимость выигрышей игроков от выбранных ими ходов описывается игровой матрицей, или матрицей выигрышей. Строки этой матрицы отвечают альтернативам (ходам) первого игрока, а столбцы - альтернативам (ходам) второго игрока. Элементами игровой матрицы служат пары выигрышей, отвечающие соответствующим строке и столбцу (ходам игроков). Выигрыш первого игрока (первое число в клетке игровой матрицы) зависит не только от его хода (номера строки), но также от хода второго игрока (номера столбца). Поэтому до реализации взаимодействия индивид не знает точную величину своего выигрыша. Иными словами, выбор игроком варианта поведения осуществляется в условиях неопределенности, т. е. игрок обладает чертами «институционального человека».

8. Стратегия игрока есть привычный стереотип поведения, которому следует игрок при выборе альтернативы поведения в течение некоторого промежутка времени. Стратегия игрока задается значениями вероятностей (или частот) выбора всех возможных вариантов поведения. Другими словами, стратегия игрока представляет собой вектор, число координат которого равно общему числу возможных альтернатив, причем i-я координата равна вероятности (частоте) выбора i-й альтернативы. Понятно, что сумма значений всех координат данного вектора равна единице.

Если игрок на протяжении рассматриваемого периода времени выбирает только один вариант поведения, то стратегия игрока называется чистой.

Все координаты соответствующего вектора чистой стратегии равны нулю, кроме одной, которая равна единице.

Стратегия, не являющаяся чистой, называется смешанной.

В этом случае вектор стратегии игрока имеет как минимум две ненулевые координаты. Они отвечают активным вариантам поведения. Игрок, следующий смешанной стратегии, чередует активные варианты поведения в соответствии с заданными вероятностями (частотами) выбора. В дальнейшем для простоты изложения материала мы будем полагать, что игрок всегда следует какой-либо чистой стратегии, т. е. в рассматриваемый период времени он неизменно выбирает единственный вариант поведения из заданного множества альтернатив.

Институциональный человек характеризуется изменчивостью своего поведения, которое зависит от его внутреннего состояния, жизненного опыта, внешней социальной среды и пр. В рамках игрового подхода к исследованию институтов это свойство институционального человека выражается в возможности смены игроком его стратегии. Если бы среди стратегий игрока всегда существовала объективно лучшая, то он бы неизменно следовал ей и смена стратегии была бы бессмысленной. Но в реальной жизни человек обычно рассматривает несколько стратегий поведения. Выделить среди них объективно лучшую невозможно. Игровая модель межчеловеческих взаимодействий позволяет исследовать эту особенность институционального поведения, поскольку она охватывает ряд стратегий поведения, которые не исключают друг друга и отражают различные аспекты поведения институционального человека. Рассмотрим эти модели поведения.

Игровая матрица

Первый игрок Второй игрок
6; 15 2; 13 3; 11
1; 10 5; 14 4; 12
4; 12 4; 13 3; 13

Различают солидарные и несолидарные стратегии поведения. Первые наиболее характерны для «институционального человека», а вторые - для «экономического человека».

Несолидарные стратегии поведения характеризуются тем, что индивид выбирает вариант своего поведения независимо, при этом он либо вовсе не учитывает поведение другого индивида, либо на основе имеющегося опыта предполагает возможный вариант его поведения.

К основным видам несолидарного поведения относятся следующие: нерациональное , осторожное , оптимизирующее , отклоняющееся и инновационное .

1) Нерациональное поведение . Обозначим две стратегии первого игрока через А и В соответственно. Стратегия А называется доминирующей по отношению к стратегии В, если при любом ходе второго игрока выигрыш первого игрока, отвечающий стратегии А, больше его выигрыша, отвечающего стратегии В. Таким образом, стратегия В является объективно худшей по отношению к стратегии А.

Если стратегия А может всегда свободно выбираться игроком, то стратегию В вообще никогда не следует выбирать. Если все же стратегия В выбрана первым игроком, то его поведение в этом случае называют нерациональным. Для выявления нерационального поведения игрока достаточно проанализировать матрицу его выигрышей: матрица выигрышей другого игрока при этом не используется.

Отметим, что термин «нерациональное поведение» заимствован из неоклассической теории. Он означает лишь то, что выбор данной стратегии заведомо не является лучшим в ситуации, когда оба игрока находятся в антагонистическом противостоянии, характерном для «экономического человека». Но для «институционального человека», вступающего в межчеловеческие взаимодействия с другими людьми, нерациональное поведение не только возможно, но может оказаться наиболее разумным вариантом поведения. Примером этому служит игра «Дилемма заключенных».

2) Осторожное поведение . «Институциональный человек», в отличие от «экономического человека», не является абсолютно рациональным, т. е. он не всегда выбирает самый лучший вариант поведения, максимизирующий выигрыш. Ограниченная рациональность «институционального человека» выражается в его неспособности выбрать наилучший вариант поведения в связи с большим количеством альтернатив, сложным алгоритмом определения оптимальной альтернативы, ограниченностью времени принятия решения и т.д. В то же время понятие ограниченной рациональности предполагает, что с учетом всех сложностей выбора человек способен выбрать достаточно хорошую альтернативу.

При игровом подходе к исследованию институтов ограниченная рациональность индивида иллюстрируется осторожным поведением игрока.

Стратегия осторожного поведения - это такая стратегия игрока, которая гарантирует ему определенную величину выигрыша независимо от выбора (хода) другого игрока. Осторожную стратегию называют также максиминной, поскольку она рассчитывается посредством нахождения максимального значения из нескольких минимальных значений.

Осторожная стратегия первого игрока определяется следующим образом. В каждой строке матрицы его выигрышей находят минимальный элемент, а затем из таких минимальных элементов выделяют максимальный, или максимин первого игрока. Строка игровой матрицы, на которой расположен максимин первого игрока, соответствует его осторожной стратегии. Осторожная стратегия второго игрока получается аналогично. В каждом столбце матрицы его выигрышей находят минимальный элемент, а затем из таких минимальных элементов определяют максимальный. Столбец игровой матрицы, в котором расположен максимин второго игрока, отвечает его осторожной стратегии. Каждый игрок может иметь несколько осторожных стратегий, но все они характеризуются одним значением максимина (стратегия максимального минимума ), или гарантированного выигрыша. Осторожные стратегии существуют в любой матричной игре. Для выявления осторожной стратегии игрока достаточно проанализировать матрицу его выигрышей, а матрица выигрышей другого игрока при этом не используется. Эта особенность является общей для нерационального и осторожного поведения.

3) Оптимизирующее поведение . В хозяйственной практике нередко возникают ситуации, когда экономические агенты (например, продавец и постоянный покупатель) в ходе длительного взаимодействия друг с другом находят стратегии поведения, устраивающие обе стороны, а поэтому применяются «игроками» в течение длительного периода времени. При игровом подходе к исследованию институтов описанная ситуация моделируется с помощью понятия равновесных стратегий. Пара таких стратегий характеризуется следующим свойством: если первый игрок отклоняется от своей равновесной стратегии (выбирает какую-либо другую), а второй продолжает следовать своей равновесной стратегии, то первый игрок несет ущерб в виде уменьшения величины выигрыша. Клетка игровой матрицы, находящаяся на пересечении строки и столбца, отвечающих паре равновесных стратегий, называется точкой равновесия. Игровая матрица может иметь несколько точек равновесия, а может не иметь их вовсе.

Поведение игрока, следующего равновесной стратегии, называют оптимизирующим (минимаксное поведение или стратегия минимального максимума ).

Оно отличается от максимизирующего поведения. Во-первых, равновесный выигрыш игрока не является максимальным из всех возможных выигрышей. Он отвечает не глобальному максимуму, а локальному оптимуму Так, глобальный максимум функции, заданной на числовом отрезке, превышает каждый из ее локальных максимумов. Во-вторых, следование равновесной стратегии одним игроком влечет достижение им локального максимума лишь при условии сохранения равновесной стратегии другим игроком. Если второй игрок отклонится от равновесной стратегии, то дальнейшее использование первым игроком равновесной стратегии не даст ему максимизирующего эффекта.

Равновесные стратегии определяют по следующему правилу: клетка игровой матрицы считается равновесной, если соответствующий ей выигрыш первого игрока является максимальным в столбце, а соответствующий ей выигрыш второго игрока - максимальным в строке. Таким образом, в алгоритме поиска равновесных стратегий используются матрицы выигрышей обоих игроков, а не одна из них, как в случаях нерационального и осторожного поведения.

4) Отклоняющееся поведение . Институционализация равновесной стратегии в качестве базовой нормы поведения происходит в результате обобщения человеком своего опыта межчеловеческих взаимодействий, включающего опыт отклоняющегося поведения. Осознание человеком негативных последствий такого поведения, основанного на выборе неравновесных альтернатив, является решающим аргументом при выборе им оптимизирующей стратегии поведения. Таким образом, отклоняющееся поведение служит неотъемлемой составляющей жизненного опыта «институционального человека», выполняя роль эмпирического обоснования оптимизирующего поведения. Опыт отклоняющегося поведения дает человеку уверенность в том, что другой участник игры будет неизменно придерживаться равновесной стратегии. Тем самым такой опыт служит доказательством рациональности поведения другого игрока и предсказуемости будущих взаимодействий с ним.

5) Инновационное поведение . Выше было рассмотрено отклоняющееся поведение, главной целью которого служит эмпирическое обоснование и закрепление исходной равновесной стратегии. Однако цель отклонения от равновесной стратегии может быть принципиально иной. Инновационное поведение представляет собой систематическое отклонение от привычной равновесной стратегии с целью поиска другого равновесного состояния, более выгодного для игрока-новатора.

В рамках игровой модели межчеловеческих взаимодействий цель инновационного поведения может быть достигнута, если игровая матрица имеет другую равновесную точку, в которой выигрыш игрока-новатора больше, чем в исходном равновесном состоянии. Если же такой точки нет, то инновационное поведение, скорее всего, будет обречено на неудачу, а игрок-новатор вернется к исходной равновесной стратегии. При этом его потери от инновационного эксперимента будут равны суммарному эффекту отклонения за весь период эксперимента.

В реальной жизни взаимодействующие индивиды нередко договариваются следовать в будущем определенным стратегиям поведения. В этом случае поведение игроков называют солидарным .

Основные причины солидарного поведения:

а) выгодность солидарного поведения для обоих игроков. В рамках игровой модели взаимодействия такая ситуация иллюстрируется игровой матрицей, в одной клетке которой выигрыши обоих игроков максимальны, но при этом она не является равновесной и не отвечает паре осторожных стратегий игроков. Стратегии, отвечающие этой клетке, едва ли будут выбраны игроками, реализующими несолидарные модели поведения. Но если игроки придут к соглашению о выборе соответствующих солидарных стратегий, то впоследствии им будет невыгодно нарушать соглашение, и оно будет выполняться автоматически;

б) этичность солидарного поведения часто служит «внутренним» механизмом, обеспечивающим соблюдение соглашения. Моральные издержки в форме общественного осуждения, которые понесет индивид в случае нарушения им соглашения, могут иметь для него большее значение, чем достигнутый при этом прирост выигрыша. Этический фактор играет важную роль в поведении «институционального человека», но он фактически не учитывается в игровой модели межчеловеческих взаимодействий;

в) принуждение к солидарному поведению служит «внешним» механизмом, обеспечивающим соблюдение соглашения. Данный фактор институционального поведения также не находит адекватного отражения в игровой модели взаимодействий.


Типы равновесия: равновесие по Нэшу, Штекельбергу, Паретто-оптимальное равновесие, равновесие доминирующих стратегий.

В каждом взаимодействии могут существовать различные виды равновесий: равновесие доминирующих стратегии, равновесие по Нэшу, равновесие по Штакельбергу и равновесие по Парето. Доминирующей стратегией называется такой план действий, который обеспечивает участнику максимальную полезность вне зависимости от действий другого участника. Соответственно, равновесием доминирующих стратегий будет пересечение доминирующих стратегий обоих участников игры. Равновесие по Нэшу - ситуация, в которой стратегия каждого из игроков является лучшим ответом на действия другого игрока. Иными словами, это равновесие обеспечивает игрока максимумом полезности в зависимости от действий другого игрока. Равновесие по Штакельбергу возникает тогда, когда существует временной лаг в принятии решений участниками игры: один из них принимает решения, уже зная, как поступил другой. Таким образом, равновесие по Штакельбергу соответствует максимуму полезности игроков в условиях неодновременное принятия ими решений. В отличие от равновесия доминирующих стратегий и равновесия по Нэшу этот вид равновесия существует всегда. Наконец, равновесие по Парето существует при условии, что нельзя увеличить полезность обоих игроков одновременно. Рассмотрим на одном из примеров технологию поиска равновесий всех четырех видов.

Доминирующая стратегия - такой план действий, который обеспечивает участнику максимальную полезность вне зависимости от действий другого участника.

Равновесие по Нэшу - ситуация, в которой ни один из игроков не может увеличить свой выигрыш в одностороннем порядке, меняя свой план действий.

Равновесие по Штакельбергу - ситуация, когда ни один из игроков не может увеличить свой выигрыш в одностороннем порядке, а решения принимаются сначала одним игроком и становятся известными второму игроку.

Равновесие по Паретто - ситуация, когда нельзя улучшить положение ни одного из игроков, не ухудшая при этом положения другого и не снижая суммарного выигрыша игроков.

Пусть фирма А стремится нарушить монополию фирмы Б на выпуск определенного продукта. Фирма А решает, стоит ли ей входить на рынок, а фирма Б - стоит ли ей снижать выпуск в том случае, если А все же решает входить. В случае неизменного выпуска на фирме Б обе фирмы в проигрыше, если же фирма Б решает снизить выпуск, то она «делится» своей прибылью с А.

Равновесие доминирующих стратегий . Фирма А сравнивает свой выигрыш при обоих вариантах развития событий (-3 и О, если Б решает развязать ценовую войну) и (4 и 0, если Б решает снизить выпуск). У нее нет стратегии, обеспечивающей максимальный выигрыш вне зависимости от действий Б: 0 > -3 => «не входить на рынок», если Б оставляет выпуск на прежнем уровне, 4 > 0 => «входить», если Б снижает выпуск (см. сплошные стрелки). Хотя у фирмы А нет доминирующей стратегии, у Б такая стратегия есть. Она заинтересована снижать выпуск вне зависимости от действий А (4 > -2, 10 = 10, см. пунктирные стрелки). Следовательно, равновесие доминирующих стратегий отсутствует.

Равновесие по Нэшу. Лучший ответ фирмы А на решение фирмы Б оставить выпуск прежним - не входить, а на решение снизить выпуск - входить. Лучший ответ фирмы Б на решение фирмы А войти на рынок - снизить выпуск, при решении не входить - обе стратегии равнозначны. Поэтому два равновесия по Нэшу (А, А2) находятся в точках (4, 4) и (0, 10) - А входит, а Б снижает выпуск, или А не входит, а Б не снижает выпуск. Убедиться в этом достаточно легко, так как в этих точках никто из участников не заинтересован в изменении своей стратегии.

Равновесие по Штакельбергу. Предположим, первой принимает решение фирма А. Если она выбирает входить на рынок, то в конечном счете окажется в точке (4, 4): выбор фирмы Б однозначен в этой ситуации, 4 > -2. Если она решает воздержаться от входа на рынок, то итогом будут две точки (0, 10): предпочтения фирмы Б допускают оба варианта. Зная это, фирма А максимизирует свой выигрыш в точках (4, 4) и (0, 10), сравнивая 4 и 0. Предпочтения однозначны, и первое равновесие по Штакельбергу StA будет находиться в точке (4, 4). Аналогичным образом, равновесие по Штакельбергу StB, когда первой принимает решение фирма Б, будет находиться в точке (0, 10).

Равновесие по Парето. Чтобы определить оптимум по Парето, мы должны последовательно перебрать все четыре исхода игры, отвечая на вопрос: «Обеспечивает ли переход к любому другому исходу игры увеличение полезности одновременно для обоих участников?» Например, из исхода (-3, -2) мы можем перейти к любому другому исходу, выполняя указанное условие. Только из исхода (4, 4) мы не можем двинуться дальше, не уменьшая при этом полезности ни одного из игроков, это и будет равновесием по Парето, Р.

Применение принципа возможных перемещений

Принцип возможных перемещений очень эффективен при исследовании равновесия плоских механизмов, т.е. таких, звенья которых движутся в плоскостях, параллельных какой-то неподвижной плоскости. Упрощённо можно считать, что все точки и звенья его движутся по плоскости самого рисунка.

Считая, что все соединения звеньев механизма, как и внешние связи, являются идеальными, мы исключаем из рассмотрения их реакции. Это и определяет преимущества принципа возможных перемещений по сравнению с методами геометрической статики (уравнения равновесия).

Пренебрегая трением, найти соотношение между силами P и Q , при котором кривошипно-ползунный механизм будет находиться в равновесии, если сила перпендикулярна OA (рис. 2.8).

Сообщив механизму возможное перемещение, и приравнивая к нулю сумму работ сил P и Q на этом перемещении, получим

P ×dS В – Q×dS А = 0,

где dS A и dS B – модули возможных перемещений точек А и В .

Перемещение dS A перпендикулярно OA , dS B направлено по прямой OB. Для определения зависимости между dS B и dS A найдём МЦС звена АВ .Он лежит на пересечении перпендикуляров и к направлениям возможных перемещений точек А и В . Эти перемещения находятся в такой же зависимости, как скорости точек А и В , т.е.

Введя обозначения углов j и y , из по теореме синусов находим

Зависимость между возможными перемещениями dS A и dS B можно определить, используя теорему о проекциях скоростей точек A и B на прямую АВ . По этой теореме можно записать:

dS A cos = dS B ×cosy,

Рассмотренную задачу можно было бы решать, применяя методы статики твёрдого тела. Для этого нужно составить уравнения равновесия для каждого звена механизма (кривошипа ОА , шатуна АВ , ползуна В ); при этом пришлось бы принять во внимание неизвестные реакции связей (реакции в шарнирах А и В и реакцию направляющих, в которых движется ползун).

При решении задач подобного рода преимущество принципа возможных перемещений очевидно; этот метод позволяет исключить из рассмотрения неизвестные реакции связей, т.к. эти реакции в условие равновесия системы, выраженное принципом возможных перемещений, не входят.

2.6. Применение принципа возможных перемещений

к определению реакций связей

В формулировке принципа возможных перемещений силы реакции не фигурируют. Тем не менее, принцип возможных перемещений можно эффективно применять для определения этих сил, и чем сложней конструкция, тем больше преимущества принципа возможных перемещений по сравнению с методами, применяемыми в геометрической статике (составление и решение уравнений равновесия).



Статические сооружения (конструкции) имеют нулевую степень подвижности, т.е. находятся в равновесии благодаря наличию внешних и внутренних связей. Связь в виде жесткой заделки, наложенная на тело, ограничивает любые его перемещения, поэтому реакцию представляем в виде двух составляющих, направленных по осям координат, и реактивного момента. Шарнирно-неподвижная опора ограничивает перемещение тела по двум взаимно перпендикулярным направлениям, ее реакцию представляем в виде двух составляющих по осям координат.

Применяя принцип освобождаемости от связей, можно отбросить отдельно взятую связь, ограничивающую перемещение тела в одном направлении, заменив ее силой реакции.

В тех случаях, когда связь препятствует перемещению тела в нескольких направлениях (неподвижная шарнирная опора, жесткая заделка), она заменяется другим типом связи, допускающим перемещение в направлении той реакции, которую хотим определить.

Для определения реактивного момента в жесткой заделке она заменяется неподвижной шарнирной опорой и искомым реактивным моментом (рис. 2.9).

Для определения горизонтальной или вертикальной составляющей реакции жесткой заделки она заменяется связью типа стержень в направляющих и искомой реакцией (рис. 2.10, 2.11).

Таким способом можно последовательно определить реакции всех связей. При этом каждый раз отбрасывается та связь, реакцию которой требуется определить, и механическая система получает одну степень свободы.

В тех случаях, когда связь препятствует перемещению тела в нескольких направлениях (неподвижная шарнирная опора, жёсткая заделка), она отбрасывается не полностью, а лишь заменяется более простой. Как это делается, показано на рис. 2.12.

Покажем варианты замены шарнирно-неподвижной опоры при определении её реакций.

Рассмотрим примеры определения опорных реакций составных
конструкций.

Совмещая в едином графике линии спроса и предложения, полу­чаем графическое изображение равновесия в координатах Р, Q (рис. 2.6). Точка пересечения линий имеет координаты (Р * , Q*), где р* - равновесная цена, Q * - равновесный объем производства и потребле­ния.

Рыночное равновесие - это такое состояние рынка, при котором для данного уровня цены объем спроса равен объему предложения.

Лишь в точке равновесия Е рынок сбалансирован, ни у кого из рыночных агентов нет стимулов к изменению ситуации. Это означает, что рыночное равновесие обладает свойством устойчивости - в слу­чае возникновения неравновесного состояния рыночные агенты моти­вированы к возвращению рынка в равновесие. Для доказательства ус­тойчивости обычно применяют логику Л. Вальраса или А. Маршалла.

По Л. Вальрасу, при слишком высоких ценах возникает избыток предложения - перепроизводство (отрезок А-В на рис. 2.6я), такой рынок называется рынком покупателя, так как покупатель имеет воз­можность при заключении сделок требовать снижения цен. В такой ситуации не заинтересован прежде всего продавец, который вынуж­ден снижать цены и сокращать объемы производства. По мере сниже­ния цен объем спроса увеличивается, отрезок А- В сокращается, пока не становится точкой равновесия Е.

При низких ценах возникает избыток спроса - дефицит (отре­зок CFna рис. 2.6а), складывается рынок продавца. Покупатель вынуж-


ден сокращать потребление и переплачивать за дефицитный товар, вслед за повышением цены растет объем предложения, дефицит со­кращается, пока рынок не приходит в равновесие.

По А. Маршаллу (рис. 2.66), при малых объемах производства цена спроса превышает цену продавца, при больших объемах - наоборот. В любом случае ситуация дисбаланса стимулирует смещение цены или объема спроса и предложения в сторону равновесия. Равновесие (а) по Вальрасу - цена регулирует дисбаланс объемов спроса и предло­жения, (б) по Маршаллу - изменением объемов уравновешиваются цены покупателя и продавца.

Рис. 2.6. Установление рыночного равновесия: в) по Л. Вальрасу; б) по А. Маршаллу

Изменение рыночного спроса или предложения приводит к изме­нению равновесия (рис. 2.7). Если, например, рыночный спрос растет, то линия спроса сдвигается вправо, тогда равновесная цена и объем растут. Если рыночное предложение уменьшается, линия предложения сдви­гается влево, что приводит к увеличению цены и сокращению объемов.

Данная модель рынка является статической, так как в ней не фи­гурирует время.

«Паутинообразная» модель

В качестве примера динамической модели рыночного равновесия приведем простейшую «паутинообразную» модель. Предположим, объем спроса зависит от уровня цен текущего периода t, а объем пред­ложения - от цен предыдущего периода t-1:

Q d i = Q d i (P t) , Q s i = Q s i (P t -1) ,

где t = 0,1….T- дискретное значение временного периода.




Рис. 2.7. Изменение рыночного равновесия:

а) вследствие увеличения спроса; б) вследствие уменьшения

предложения

Рыночная цена P t может не совпадать с равновесной ценой р*, причем возможны три варианта динамики P t (рис. 2.8).

Вариант траектории развития в данной модели зависит от соот­ношения наклонов линий спроса и предложения.

Рис. 2.8. «Паутинообразная» модель рыночного равновесия:

а) отклонение от равновесия уменьшается; 5) отклонение

от равновесия увеличивается (модель «катастрофы»); в) рынок

циклически колеблется вокруг точки равновесия, но равновесие


В антагонистической игре естественно считать оптимальным такой исход, при котором ни одному из игроков невыгодно от него отклоняться. Подобный исход (x*,y*) называется ситуацией равновесия, а принцип оптимальности, основанный на отыскании ситуации равновесия, - принципом равновесия.

Определение . В матричной игре с матрицей размерности исход является ситуацией равновесия или седловой точкой, если

В седловой точке элемент матрицы является одновременно минимумом в своей строке и максимумом в своем столбце. В игре из примера 2 элемент a 33 является седловой точкой. Оптимальными в этой игре являются третьи стратегии для обоих игроков. Если первый игрок отклоняется от третьей стратегии, то он начинает выигрывать меньше, чем a 33 . Если второй игрок отклоняется от третьей стратегии, то он начинает проигрывать больше, чем a 33 . Таким образом, для обоих игроков нет ничего лучшего, чем последовательно придерживаться третьей стратегии.

Принцип оптимального поведения: если в матричной игре имеется седловая точка, то оптимальным является выбор стратегии, соответствующей седловой точке. Что будет, если в игре окажется более одной седловой точки?

Теорема . Пусть две произвольные седловые точки в матричной игре. Тогда:

Доказательство . Из определения ситуации равновесия имеем:

Подставим в левую часть неравенства (2.8) , а в правую - , в левую часть неравенства (2.9) - , в правую - . Тогда получим:

Откуда следует равенство:

Из теоремы следует, что функция выигрыша принимает одно и то же значение во всех ситуациях равновесия. Именно поэтому число называется ценой игры . А стратегии , соответствующие любой из седловых точек, называются оптимальными стратегиями игроков 1 и 2, соответственно. В силу (2.7) все оптимальные стратегии игрока взаимозаменяемы.

Оптимальность поведения игроков не изменится, если в игре множества стратегий остаются прежними, а функция выигрыша умножается на положительную константу (или к ней прибавляется постоянное число).

Теорема . Для существования в матричной игре cедловой точки (i*,j*) необходимо и достаточно, чтобы максимин был равен минимаксу:

(2.10)

Доказательство . Необходимость. Если (i*,j*) – седловая точка, то, согласно (2.6) :

(2.11)

Вместе с тем имеем:

(2.12)

Из (2.11) и (2.12) получаем:

(2.13)

Рассуждая аналогично, приходим к равенствам:

Таким образом,

С другой стороны, всегда выполняется обратное неравенство (2.5), поэтому справедливым оказывается (2.10).

Достаточность . Пусть справедливо (2.10). Докажем наличие седловой точки. Имеем:

Согласно равенству (2.10), неравенства (2.15) и (2.16) превращаются в равенства. После чего имеем:

Теорема доказана. Попутно доказано, что общее значение максимина и минимакса равно цене игры .

Смешанное расширение игры

Рассмотрим матричную игру G. Если в ней существует ситуация равновесия, то минимакс равен максимину. Причем каждый из игроков может сообщить другому игроку информацию о своей оптимальной стратегии. Его соперник не сможет извлечь из этой информации никакой дополнительной выгоды. Теперь предположим, что в игре G нет ситуации равновесия. Тогда:

В этом случае минимаксная и максиминная стратегии не являются устойчивыми. Игроки могут иметь стимулы к отклонению от своих осторожных стратегий, связанные с возможностью получения большего выигрыша, но и с риском проигрыша, то есть получения выигрыша меньшего, чем при применении осторожной стратегии. При применении рискованных стратегий передача информации о них противнику имеет пагубные последствия: игрок автоматически получает выигрыш меньший, чем при применении осторожной стратегии.

Пример 3 . Пусть матрица игры имеет вид:

Для такой матрицы , т.е. ситуации равновесия не существует. Осторожными стратегиями игроков являются i*=1, j*=2. Пусть игрок 2 придерживается стратегии j*=2, а игрок 1 выберет стратегию i=2. тогда последний получит выигрыш 3, что на две единицы больше, чем максимин. Если, однако, игрок 2 догадается о планах игрока 1, он сменит свою стратегию на j=1, и тогда первый получит выигрыш 0, то есть меньше своего максимина. Аналогичные рассуждения можно провести и для второго игрока. В целом можно сделать вывод, что применение авантюрной стратегии может в отдельной партии игры принести результат больший, чем гарантированный, но ее применение связано с риском. Возникает вопрос, нельзя ли скомбинировать надежную осторожную стратегию с авантюрной таким образом, чтобы увеличить свой средний выигрыш? По существу вопрос стоит о том, как разделить между игроками выигрыш (2.17)?

Оказывается, что разумным решением является применение смешанной стратегии, то есть случайный выбор чистых стратегий. Напомним, что стратегия игрока 1 называется смешанной , если выбор i-ой строки производится им с некоторой вероятностью p i . Такую стратегию можно отождествить с распределением вероятностей на множестве строк. Предположим, что первый игрок имеет m чистых стратегий, а второй – n чистых стратегий. Тогда их смешанные стратегии – это вероятностные вектора:

(2.18)

Рассмотрим две возможные смешанные стратегии первого игрока из примера 3: . Эти стратегии отличаются распределениями вероятностей между чистыми стратегиями. Если в первом случае строки матрицы выбираются игроком с равными вероятностями, то во втором случае – с разными. Когда мы говорим о смешанной стратегии, то имеем ввиду под случайным выбором не выбор «наобум», а выбор, основанный на работе случайного механизма, обеспечивающего нужное нам распределение вероятностей. Так для реализации первой из смешанных стратегий хорошо подходит подбрасывание монетки. Игрок выбирает первую строку или вторую в зависимости от того, как выпадет монетка. В среднем игрок будет одинаково часто выбирать как первую строку, так и вторую, однако выбор на конкретной итерации игры не подчинен никакому фиксированному правилу и обладает максимальной степенью скрытности: до реализации случайного механизма он неизвестен даже самому первому игроку. Для реализации второй смешанной стратегии хорошо подходит механизм жеребьевки. Игрок берет семь одинаковых бумажек, пометив три их них крестиком, и бросает в шапку. Затем, наудачу, извлекает одну из них. Согласно классической теории вероятностей он вытащит бумажку с крестиком с вероятностью 3/7, а чистую бумажку – с вероятностью 4/7. Подобный механизм жеребьевки способен реализовывать любые рациональные вероятности.

Пусть игроки придерживаются смешанных стратегий (2.18). Тогда выигрыш первого игрока на отдельно взятой итерации игры является случайной величиной: v(X,Y) . Поскольку игроки выбирают стратегии независимо друг от друга, то, согласно теореме умножения вероятностей, вероятность выбора исхода (i,j) с выигрышем равна произведению вероятностей . Тогда закон распределения случайной величины v(X,Y) задан следующей таблицей

Пусть теперь игра разыгрывается бесконечно долго. Тогда средний выигрыш в такой игре равен математическому ожиданию величины v(X,Y) .

(2.19)

При конечном, но достаточно большом числе итераций игры средний выигрыш будет незначительно отличаться от величины (2.19).

Пример 4. Рассчитаем средний выигрыш (2.19) для игры из примера 3 при использовании игроками следующих стратегий: . Матрица выигрышей и матрица вероятностей выглядят следующим образом:

Найдем среднее:

Таким образом, средний выигрыш (2.20) имеет промежуточное значение между максимином и минимаксом.

Поскольку для любой пары смешанных стратегий X и Y можно подсчитать среднее значение игры, то возникает задача о поиске оптимальной стратегии. Естественно начать с исследования осторожных стратегий. Осторожная стратегия первого игрока обеспечивает ему максимин. Осторожная стратегия второго игрока не позволяет первому выиграть более минимакса. Самым значительным результатом в теории игр с противоположными интересами можно считать следующий:

Теорема . Всякая матричная игра имеет ситуацию равновесия в смешанных стратегиях . Доказательство данной теоремы непросто. В данном курсе оно опускается.

Следствия : Существование ситуации равновесия означает, что максимин равен минимаксу, и следовательно, любая матричная игра имеет цену. Оптимальной стратегией первого игрока является максиминная стратегия. Оптимальной стратегией второго – минимаксная. Поскольку задача поиска оптимальных стратегий решена, то говорят, что любая матричная игра разрешима на множестве смешанных стратегий.

Решение игры 2х2

Пример 5. Решить игру . Не трудно убедиться, что седловой точки нет. Обозначим оптимальную стратегию первого игрока (х, 1-х) – это вектор столбец, но для удобства записываем его в виде строки. Оптимальную стратегию второго игрока обозначим (y,1-y) .

Выигрыш первого игрока есть случайная величина со следующим распределением:

v(x,y) 2 -1 -4 7
p xy x(1-y) (1-x)y (1-x)(1-y)

Находим средний выигрыш за итерацию первого игрока – математическое ожидание случайной величины v(x,y):

Преобразуем данное выражение:

Данное математическое ожидание состоит из константы (5/7) и переменной части: 14(x-11/14)(y-8/14) . Если значение y отличается от 8/14, то первый игрок всегда может выбрать х таким образом, чтобы сделать переменную часть положительной, увеличивая свой выигрыш. Если значение х отличается от 11/14, то второй игрок всегда может выбрать y таким образом, чтобы сделать переменную часть отрицательной, уменьшая выигрыш первого игрока. Таким образом, седловая точка определяется равенствами: x*=11/14, y*=8/14.

2.5 Решение игр

Способ решения подобных игр покажем на примере.

Пример 6. Решить игру . Убеждаемся, что седловой точки нет. Обозначим смешанную стратегию первого игрока X=(х, 1-х) – это вектор столбец, но для удобства записываем его в виде строки.

Пусть первый игрок применяет стратегию Х, а второй – свою j-ю чистую стратегию. Обозначим средний выигрыш первого игрока в этой ситуации как . Имеем:

Изобразим графики функций (2.21) на отрезке .

Ордината точки, находящейся на любом из отрезков прямых, соответствует выигрышу первого игрока в ситуации, когда он применяет смешанную стратегию (х,(1-х)) , а второй игрок – соответствующую чистую стратегию. Гарантированный результат первого игрока – это нижняя огибающая семейства прямых (ломанная АВС). Наивысшая точка этой ломанной (точка В) является максимальным гарантированным результатом игрока 1. Абсцисса точки В соответствует оптимальной стратегии первого игрока.

Поскольку искомая точка В является пересечением линий и , то ее абсцисса может быть найдена как решение уравнения:

Таким образом, оптимальная смешанная стратегия первого игрока – (5/9, 4/9). Ордината точки В является ценой игры. Она равна:

(2.22)

Заметим, что линия, соответствующая второй стратегии второго игрока проходит выше точки В. Это означает, что если первый игрок применяет свою оптимальную стратегию, а игрок 2 – вторую, то проигрыш второго увеличивается по сравнению с применением стратегий 1 или 3. Таким образом, вторая стратегия не должна участвовать в оптимальной стратегии второго игрока. Оптимальная стратегия игрока 2 должна иметь вид: . Чистые стратегии 1 и 3 второго игрока, имеющие в оптимальной стратегии ненулевые составляющие, принято называть существенными . Стратегия 2 называется несущественной . Из рисунка выше, а также из равенства (2.22) видно, что при применении первым игроком своей оптимальной стратегии выигрыш второго игрока не зависит от того, какую из своих существенных стратегий он применяет. Он может применить также любую смешанную стратегию, состоящую из существенных (в частности – оптимальную), выигрыш и в этом случае не изменится. Совершенно аналогичное утверждение справедливо и для противоположного случая. Если второй игрок применяет свою оптимальную стратегию, то выигрыш первого игрока не зависит от того, какую из своих существенных стратегий он применяет и равен цене игры. Пользуясь этим утверждением, найдем оптимальную стратегию второго игрока.