Файл: Клемин А.И. Инженерные вероятностные расчеты при проектировании ядерных реакторов.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 229

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

максимальную стратегию Sx. Очевидно, что в рассматриваемой

игре

св = ся

= v = 6, т. е. 6 — седловая точка. В этих условиях

стра­

тегия А3

будет искомой минимаксной оптимальной

стратегией.

Если таблица потерь имеет седловую точку, то

решением

игро­

вой задачи всегда является одна единственная стратегия (соответ­ ствующая седловой точке, А3). В этом случае говорят, что решение

получено в виде ч и с т о й

с т р а т е г и и .

Однако далеко не все

задачи имеют седловую точку. Очень часто оказывается, что

свфся.

Тогда решение может

быть

получено только в виде

с м е ш а н ­

н о й с т р а т е г и и .

Оно формулируется

так: поведение

игрока

оптимально, если в идентичных игровых ситуациях он

применяет

с определенными частотами

ph несколько действий Ah,

найденных

в процессе решения игровой задачи. Иными словами чередует (сме­ шивает) несколько определенных действий в определенной про­ порции. Причем это чередование должно производиться в случай­ ном порядке. Оптимальная смешанная стратегия считается изве­ стной, если найдены действия А к и частоты их применения pk.

Использование таких оптимальных стратегий позволяет умень­

шить

потери

одной стороны

по сравнению с верхней ценой

игры

св в

всегда

соответствует

какому-то одному действию At)

или

увеличить выигрыши другой стороны до величины большей, чем нижняя цена игры сн .

Вообще оптимальные смешанные стратегии обладают таким свойством, что если обе стороны придерживаются их, то потери и выигрыши сторон равны цене игры v [118—121]. Следует особо подчеркнуть, что если существуют чистые оптимальные стратегии, то при их реализации обеими сторонами св = сь = v. Если чистые стратегии отсутствуют, а обе стороны придерживаются оптималь­ ных смешанных стратегий, то св > v > сн . Так что v — проигрыш (выигрыш) при оптимальных стратегиях сторон. Поскольку чистую

стратегию

можно

считать частным случаем

смешанной (при

ph = 1, k

= 1), то

справедлива запись с в ^

v ^ сн .

Отклонение от оптимальной смешанной стратегии одной сто­ роны увеличивает проигрыш этой стороны и, следовательно, уве­ личивает выигрыш другой. Однако, если одна из сторон придер­ живается своей оптимальной смешанной стратегии, а другая при­ меняет действия своей смешанной стратегии, но смешивает их не оптимально, в произвольной пропорции, например использует только одно действие, то цена

игры все

равно остается

рав-

 

Т а б л и ц а

14.4

ной v. Проще всего найти опти­

Потери для игры 2 X 2

 

мальные

смешанные , стратегии

 

 

 

 

для игры 2 x 2

(табл.

14.4).

 

 

 

Если

нет

седловой

точки

 

 

 

(а наличие ее в матрице 2 x 2

го­

 

 

п•13

ворит о том, что не вычеркнута

 

 

додчиненная стратегия),

то

оп­

А,

П.

п1.

тимальные частоты рг и

р2 при-

•2

•21

22


менен н я

действий

Ах

и

Л2

соответственно

можно найти

сле­

дующим образом. Поскольку по определению цена

игры v

равна

потерям

При реализации

оптимальной смешанной стратегии,

сле­

довательно,

для случая,

когда

противник

применяет

только

стратегию

Sx, v =

PxTLxi

+

Рг

П 2 1 (v — математическое

ожида­

ние

потерь). Аналогично

для

S,

Рі

П 1 3

+ р 2

П 2 2 . Так

как

Рг =

1

 

рх,

то из двух

уравнении легко

находим

 

 

 

 

 

 

 

 

P l =

 

 

П 2 3

П 2 1

 

 

 

(14.6)

 

 

 

 

 

 

П п + П и — П і а — П 2

 

 

 

 

 

 

 

 

 

 

 

 

Решение игры 2 X її можно найти графическим способом. Про­

иллюстрируем это на следующем примере.

 

 

 

 

Пример.

 

Требуется выбрать оптимальный

образ

действий

при

решении вопроса: выводить реактор на новый, более высокий уро­

вень мощности — Ах

или не выводить — А2-

При этом

возможны

следующие

состояния

объекта: S x — аппарат

имеет

необходимый

резерв

для

форсирования мощности;

5 2

— в

одном

канале

запас

до кризиса теплообмена при кипении

недостаточен;

5 3 — в

10 ка­

налах

запас недостаточен; 5 4 — большая

часть зоны

не

имеет

запаса. Таблица

потерь для данной задачи

имеет вид (табл.

14.5).

 

 

 

 

 

 

 

 

 

Т а б л и ц а

14.5

 

 

 

П о т е р и д л я

и г р ы 2 x 4 , опт.

 

ед.

 

 

 

 

 

 

 

 

S.

 

 

S.

 

 

 

Ах

 

0

 

10

 

 

100

 

300

Аг

 

 

100

 

80

 

 

 

0

 

 

0

Видно, что 5 4

доминирует

над S3

(Ss

вычеркиваем).

Седловой

точки не имеется, стало быть, решение должно быть найдено в виде смешанной стратегии. Для отыскания графическим способом оптит мальных частот р х и р 2 (с которыми надо применять действия Ах и А 2 соответственно) необходимо из концов отрезка единичной длины (рис. 32) отложить по вертикалям величины потерь, соответствую­

щие стратегиям Slt

5 2 и 54 . На одной вертикали следует

отложить

потери, отвечающие

действию Аг, а на другой — Л 2 .

Соединив

прямыми одноименные точки Sj, находим линию максимальных потерь (жирная ломаная линия) и ее минимум — точку М. Ордината этой точки равна цене игры v — 75, а ее проекция N разбивает от-1-

резок

АхА2 на

две части, численно равные искомым частотам

Рх =

1/4 и р 2 =

3/4. (Заметим; что если Аг

применять с частотой

рх =

1, т. е. Л2

вовсе не применять, то возможные максимальные

потери "будут самыми большими, см.^точку S4

на левой вертикали.)

Итак, в одном случае из четырех нужно применять стратегию At, а в трех — Л2 , причем выбор стратегии в соответствии с этими час-


тотами следует производить случайным образом (например, всякий

раз

наугад вытягивая жетон из

урны, содержащей один жетон

Аг

и три жетона А2).

ситуация впредь не будет пов­

 

Если рассматриваемая игровая

торяться, т. е. является единственной в своем роде, то очевидно, что оптимальная смешанная стратегия полностью не сможет быть реализована. В этих условиях разумно принять решение (действие), отвечающее наибольшей частоте А2.

А1 р2 N Pf А2

Р и с . 32. Г р а ф и ч е с к о е р е ш е н и е и г р о в о й з а д а ч и 2 Х п .

Итак, рассмотрены методы решения игровых задач, имеющих седловую точку, размером 2 X 2 и 2 X л. Если же после удаления дублирующих и подчиненных стратегий седловая точка не найдена и размер матрицы превышает рассмотренный, то для поиска опти­ мальной смешанной стратегии можно воспользоваться методами линейного программирования [122—125] и последовательного приб­ лижения [120, 1213 (им специально посвящен § 14.3). Поиск седловой точки обязательно должен этому предшествовать, так как при наличии седловой точки найденная смешанная стратегия не будет оптимальной.

Критерий минимаксного риска. Он является модификацией пре­ дыдущего принципа (минимакса) [119]. При его использовании

Б рассмотрение принимаются не только максимальные, но и мини­ мальные потери. Для этого таблица потерь (см. табл. 14.1) заменяет­ ся на матрицу рисков. В данном случае риск для любой ячейки табл. 14.1 определяется как разность:

г а = П и -

П т и ф

(14.7)

где П м ш ц - — минимальные потери

для /-го столбца таблицы.

Есте­

ственно, чем больше потери (платеж), тем больше риск. В получен­ ной таблице выбирается строка (действие), имеющая наименьший

максимальный риск. Так, для

табл.

14.3 матрица

рисков

будет

иметь вид табл.

14.6.

 

 

 

 

 

 

 

Т а б л и ц а

14.6

 

Р и с к и ,

отн.

ед.

 

 

 

S,

 

S,

max

г . .

 

 

/

;

Л ,

6

0

4

 

6

А\

0

1

5

 

5

Л 4

2

0

10

10

Аь

6

9

0

 

9

Оптимальным будет действие А 3

, имеющее

минимальный риск

из максимальных. По двум критериям

(см. табл.

14.3), оптимальным

оказалось одно и то же действие А 3 . Однако в общем случае опти­ мальные по разным критериям действия могут быть различными.

Критерий «пессимизма — оптимизма» Гурвица. Оба предыдущих критерия очень осторожны. Они предполагают самые худшие ситуации, т. е. в определенной мере пессимистичны. Для того чтобы учитывать и лучшую ситуацию, был предложен третий критерий.

Для его применения задаются фиксированным числом 0 <

а < 1,

называемым показателем «пессимизма — оптимизма». Для

каждого

действия

А І вычисляются потери:

 

 

П а = а П ? + ( 1 — а ) П ? ,

(14.8)

где П/,

П" — соответственно наибольшие и наименьшие

потери

в строке і табл. 14.1. Предпочтительнее будет то действие, у которого'

П а

меньше. При а = 1 получаем минимаксный критерий, а при

о, = 0 — критерий миниминных потерь.

-

Критерий Лапласа. Три рассмотренных критерия обычно исполь-'

зуются, когда совершенно неизвестно, какое из состояний Sj в дей­ ствительности будет иметь место (т. е. каковы вероятности состоя­ ний). Если нет достаточного основания считать одно состояние более; вероятным, чем другое, то можно воспользоваться критерием Лап­ ласа, т. е. считать все состояния равновероятными. При этом нужно


вычислить математическое

ожидание

потерь для каждого дей­

ствия А І

 

 

ЛГ(П| ) =

^п( П а + П „

+ . . . + П , п )

и выбрать то, которому отвечает меньшее М г ).

Выбор стратегии при известных вероятностях состояний. Если известны (из предшествующего опыта) вероятности pj = Р [Sj] появления состояний Sj, то нет нужды вычеркивать подчиненные стратегии из табл. 14.1, а целесообразно выбрать такое действие (стратегию), которое имеет наименьшее математическое ожидание потерь:

 

 

 

М(Щ=ІІ,1р1

 

+ П п Р

і + ...+ТІіпрп.

 

 

(14.9)

Если

в примере

§ 14.1 известны вероятности состояний: рг =

0,03;

р2 =

0,02;

рз =

0,05;

р 4 =

0,90,

то наименьшее

математическое

ожидание

 

соответствует действию

А Ь .

 

 

 

Рассмотрен ряд критериев для выбора решения при неопреде­

ленности. Вопрос о том, какой из

критериев

предпочесть,

лежит

целиком

в

компетенции

инженера,

ставящего

и решающего

кон­

кретную

задачу,

которому

известны ее тонкости

и особенности.

§ 14.3. Нахождение оптимальных смешанных стратегий методами линейного программирования и последовательных приближений

Симплекс-метод. Игровые задачи могут быть просто сведены к задачам линейного программирования. В последних обычно тре­

буется минимизировать

(или

максимизировать)

линейную форму

 

 

 

Ф =

сххх +

с2 х2 +

... +

стхт

 

(14.10)

при

заданных

условиях:

 

 

 

 

 

 

 

 

 

 

а П х 1

"Т~ 0-гл.х1

~Ь ••• .~Г" йтіХт

Ьх\

 

 

 

 

 

CLxoXi

-f-

#22^2

" '

^ m % X m ~

^2>

ілл

i n

 

 

 

&lnxl

~f~ a2nx2

"T~ . . . ~b Gmnxm

b n . J

 

 

Иными словами, необходимо найти такую совокупность зна­

чений хх,

х2,

хт,

которая удовлетворяет условиям (14.11) и

при которой ф = min

(или max). Причем предполагается,

что

все

х£ ^

0 и

п ^

т.

 

 

 

 

X п имеет оптимальную

 

В свою очередь, если игра размером т

смешанную стратегию, то каково бы ни было состояние

природыу


/ = 1, 2, п, применяя эту стратегию, всегда получим потери, меньшие или равные цене игры v, т. е. можно записать:

Пц/>і +

П 2 1 р 2

+

... +

П т 1 р т

<

v;

 

П1 2 рі

+

П 2 2 р 2

+

... +

П

 

 

 

П1 7 1 рі

+

П 2 7 1 р 2

+

... +

П т п р т

<

v.

(14.12)

 

S P I = I

1=1

Эти неравенства легко превратить в равенства путем введения п до­ полнительных фиктивных переменных (по одному в каждое уравне­ ние) РІ^О, і = т + 1, т + 2, т + п. Например, п-е неравен­ ство превратится в равенство

v = n l n p 1 + n 2

n

р 2 + . . . + П т п рт +

 

(14.13)

Вычтем из этого равенства

последовательно по одному

из п — 1

предыдущих неравенств,

аналогично преобразованных.

Получим

( П 1 в - П 1 У ) P l + (П3 „ - П2}) р 2 + . . . + ( П т п

-

 

~ Umj)

Рт + Pm+n ~ Pm+j) = °>

 

(14.14)

 

 

 

 

i2= 1 РІ = 1; / = 1, 2,... ,п, р , ^ 0 , Z= 1,2,..., т

+ п .

Эту систему из п + 1 уравнений можно рассматривать как условия (14.11). В качестве линейной формы, которую необходимо мини­

мизировать,

выбираем уравнение (14.13),

зависящее

от

tn + 1

неизвестных

р х , р 2 ,

рт и фиктивного

 

рт+п.

 

 

Таким образом, задача нахождения смешанной стратегии свелась

к задаче линейного

программирования:

необходимо найти

такие

значения частот pt

применения действий

At

(см. табл.

14.1), при

которых цена игры минимальна и удовлетворяются условия (14.14). Подобного рода задачи линейного программирования решаются с помощью так называемого симплекс-метода*. Это метод последо­ вательных приближений, на каждом шаге которого, опираясь на некоторое приближение (опорный план), находят значение линей­ ной формы, меньшее, чем на предыдущем шаге.

Введем векторные обозначения. Обозначим вектором П 0 п чи­

с е л — свободных членов

уравнений системы

(14.14). Они будут

как бы составляющие вектора П 0 в n-мерном

пространстве

(проек­

ции на оси координат).

Коэффициенты при

рг обозначим

векто-

* С и м п л е к с о м в м а т е м а т и к е н а з ы в а е т с я я - м е р н ы й в ы п у к л ы й м н о г о г р а н ­ н и к , и м е ю щ и й п -f- 1 в е р ш и н у . Н а п р и м е р , д в у м е р н ы м с и м п л е к с о м я в л я е т с я т р е у г о л ь н и к , т р е х м е р н ы м — т е т р а э д р . У р а в н е н и е с и м п л е к с а , о т с е к а ю щ е г о

п

н а к о о р д и н а т н ы х о с я х е д и н и ч н ы е о т р е з к и , и м е е т в и д 2*i = 1 Н > 0.

1=1