Файл: Клемин А.И. Инженерные вероятностные расчеты при проектировании ядерных реакторов.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 229
Скачиваний: 1
максимальную стратегию Sx. Очевидно, что в рассматриваемой |
игре |
||
св = ся |
= v = 6, т. е. 6 — седловая точка. В этих условиях |
стра |
|
тегия А3 |
будет искомой минимаксной оптимальной |
стратегией. |
|
Если таблица потерь имеет седловую точку, то |
решением |
игро |
вой задачи всегда является одна единственная стратегия (соответ ствующая седловой точке, А3). В этом случае говорят, что решение
получено в виде ч и с т о й |
с т р а т е г и и . |
Однако далеко не все |
|||
задачи имеют седловую точку. Очень часто оказывается, что |
свфся. |
||||
Тогда решение может |
быть |
получено только в виде |
с м е ш а н |
||
н о й с т р а т е г и и . |
Оно формулируется |
так: поведение |
игрока |
||
оптимально, если в идентичных игровых ситуациях он |
применяет |
||||
с определенными частотами |
ph несколько действий Ah, |
найденных |
в процессе решения игровой задачи. Иными словами чередует (сме шивает) несколько определенных действий в определенной про порции. Причем это чередование должно производиться в случай ном порядке. Оптимальная смешанная стратегия считается изве стной, если найдены действия А к и частоты их применения pk.
Использование таких оптимальных стратегий позволяет умень
шить |
потери |
одной стороны |
по сравнению с верхней ценой |
игры |
св (св |
всегда |
соответствует |
какому-то одному действию At) |
или |
увеличить выигрыши другой стороны до величины большей, чем нижняя цена игры сн .
Вообще оптимальные смешанные стратегии обладают таким свойством, что если обе стороны придерживаются их, то потери и выигрыши сторон равны цене игры v [118—121]. Следует особо подчеркнуть, что если существуют чистые оптимальные стратегии, то при их реализации обеими сторонами св = сь = v. Если чистые стратегии отсутствуют, а обе стороны придерживаются оптималь ных смешанных стратегий, то св > v > сн . Так что v — проигрыш (выигрыш) при оптимальных стратегиях сторон. Поскольку чистую
стратегию |
можно |
считать частным случаем |
смешанной (при |
ph = 1, k |
= 1), то |
справедлива запись с в ^ |
v ^ сн . |
Отклонение от оптимальной смешанной стратегии одной сто роны увеличивает проигрыш этой стороны и, следовательно, уве личивает выигрыш другой. Однако, если одна из сторон придер живается своей оптимальной смешанной стратегии, а другая при меняет действия своей смешанной стратегии, но смешивает их не оптимально, в произвольной пропорции, например использует только одно действие, то цена
игры все |
равно остается |
рав- |
|
Т а б л и ц а |
14.4 |
|||
ной v. Проще всего найти опти |
Потери для игры 2 X 2 |
|
||||||
мальные |
смешанные , стратегии |
|
||||||
|
|
|
||||||
для игры 2 x 2 |
(табл. |
14.4). |
|
|
|
|||
Если |
нет |
седловой |
точки |
|
|
|
||
(а наличие ее в матрице 2 x 2 |
го |
|
|
п•13 |
||||
ворит о том, что не вычеркнута |
|
|
||||||
додчиненная стратегия), |
то |
оп |
А, |
П. |
п1. |
|||
тимальные частоты рг и |
р2 при- |
|||||||
•2 |
•21 |
22 |
менен н я |
действий |
Ах |
и |
Л2 |
соответственно |
можно найти |
сле |
|||||||
дующим образом. Поскольку по определению цена |
игры v |
равна |
||||||||||||
потерям |
При реализации |
оптимальной смешанной стратегии, |
сле |
|||||||||||
довательно, |
для случая, |
когда |
противник |
применяет |
только |
|||||||||
стратегию |
Sx, v = |
PxTLxi |
+ |
Рг |
П 2 1 (v — математическое |
ожида |
||||||||
ние |
потерь). Аналогично |
для |
S, |
Рі |
П 1 3 |
+ р 2 |
П 2 2 . Так |
как |
||||||
Рг = |
1 |
|
рх, |
то из двух |
уравнении легко |
находим |
|
|
|
|||||
|
|
|
|
|
P l = |
|
|
П 2 3 |
— П 2 1 |
|
|
|
(14.6) |
|
|
|
|
|
|
|
П п + П и — П і а — П 2 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|||||
Решение игры 2 X її можно найти графическим способом. Про |
||||||||||||||
иллюстрируем это на следующем примере. |
|
|
|
|
||||||||||
Пример. |
|
Требуется выбрать оптимальный |
образ |
действий |
при |
решении вопроса: выводить реактор на новый, более высокий уро
вень мощности — Ах |
или не выводить — А2- |
При этом |
возможны |
|||||||||
следующие |
состояния |
объекта: S x — аппарат |
имеет |
необходимый |
||||||||
резерв |
для |
форсирования мощности; |
5 2 |
— в |
одном |
канале |
запас |
|||||
до кризиса теплообмена при кипении |
недостаточен; |
5 3 — в |
10 ка |
|||||||||
налах |
запас недостаточен; 5 4 — большая |
часть зоны |
не |
имеет |
||||||||
запаса. Таблица |
потерь для данной задачи |
имеет вид (табл. |
14.5). |
|||||||||
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
14.5 |
||
|
|
|
П о т е р и д л я |
и г р ы 2 x 4 , опт. |
|
ед. |
|
|
|
|||
|
|
|
|
|
S. |
|
|
S. |
|
|
|
|
Ах |
|
0 |
|
10 |
|
|
100 |
|
300 |
|||
Аг |
|
|
100 |
|
80 |
|
|
|
0 |
|
|
0 |
Видно, что 5 4 |
доминирует |
над S3 |
(Ss |
вычеркиваем). |
Седловой |
точки не имеется, стало быть, решение должно быть найдено в виде смешанной стратегии. Для отыскания графическим способом оптит мальных частот р х и р 2 (с которыми надо применять действия Ах и А 2 соответственно) необходимо из концов отрезка единичной длины (рис. 32) отложить по вертикалям величины потерь, соответствую
щие стратегиям Slt |
5 2 и 54 . На одной вертикали следует |
отложить |
потери, отвечающие |
действию Аг, а на другой — Л 2 . |
Соединив |
прямыми одноименные точки Sj, находим линию максимальных потерь (жирная ломаная линия) и ее минимум — точку М. Ордината этой точки равна цене игры v — 75, а ее проекция N разбивает от-1-
резок |
АхА2 на |
две части, численно равные искомым частотам |
|
Рх = |
1/4 и р 2 = |
3/4. (Заметим; что если Аг |
применять с частотой |
рх = |
1, т. е. Л2 |
вовсе не применять, то возможные максимальные |
|
потери "будут самыми большими, см.^точку S4 |
на левой вертикали.) |
Итак, в одном случае из четырех нужно применять стратегию At, а в трех — Л2 , причем выбор стратегии в соответствии с этими час-
тотами следует производить случайным образом (например, всякий
раз |
наугад вытягивая жетон из |
урны, содержащей один жетон |
Аг |
и три жетона А2). |
ситуация впредь не будет пов |
|
Если рассматриваемая игровая |
торяться, т. е. является единственной в своем роде, то очевидно, что оптимальная смешанная стратегия полностью не сможет быть реализована. В этих условиях разумно принять решение (действие), отвечающее наибольшей частоте А2.
А1 р2 N Pf А2
Р и с . 32. Г р а ф и ч е с к о е р е ш е н и е и г р о в о й з а д а ч и 2 Х п .
Итак, рассмотрены методы решения игровых задач, имеющих седловую точку, размером 2 X 2 и 2 X л. Если же после удаления дублирующих и подчиненных стратегий седловая точка не найдена и размер матрицы превышает рассмотренный, то для поиска опти мальной смешанной стратегии можно воспользоваться методами линейного программирования [122—125] и последовательного приб лижения [120, 1213 (им специально посвящен § 14.3). Поиск седловой точки обязательно должен этому предшествовать, так как при наличии седловой точки найденная смешанная стратегия не будет оптимальной.
Критерий минимаксного риска. Он является модификацией пре дыдущего принципа (минимакса) [119]. При его использовании
Б рассмотрение принимаются не только максимальные, но и мини мальные потери. Для этого таблица потерь (см. табл. 14.1) заменяет ся на матрицу рисков. В данном случае риск для любой ячейки табл. 14.1 определяется как разность:
г а = П и - |
П т и ф |
(14.7) |
где П м ш ц - — минимальные потери |
для /-го столбца таблицы. |
Есте |
ственно, чем больше потери (платеж), тем больше риск. В получен ной таблице выбирается строка (действие), имеющая наименьший
максимальный риск. Так, для |
табл. |
14.3 матрица |
рисков |
будет |
|
иметь вид табл. |
14.6. |
|
|
|
|
|
|
|
Т а б л и ц а |
14.6 |
|
|
Р и с к и , |
отн. |
ед. |
|
|
|
S, |
|
S, |
max |
г . . |
|
|
/ |
; |
||
Л , |
6 |
0 |
4 |
|
6 |
А\ |
0 |
1 |
5 |
|
5 |
Л 4 |
2 |
0 |
10 |
10 |
|
Аь |
6 |
9 |
0 |
|
9 |
Оптимальным будет действие А 3 |
, имеющее |
минимальный риск |
из максимальных. По двум критериям |
(см. табл. |
14.3), оптимальным |
оказалось одно и то же действие А 3 . Однако в общем случае опти мальные по разным критериям действия могут быть различными.
Критерий «пессимизма — оптимизма» Гурвица. Оба предыдущих критерия очень осторожны. Они предполагают самые худшие ситуации, т. е. в определенной мере пессимистичны. Для того чтобы учитывать и лучшую ситуацию, был предложен третий критерий.
Для его применения задаются фиксированным числом 0 < |
а < 1, |
|
называемым показателем «пессимизма — оптимизма». Для |
каждого |
|
действия |
А І вычисляются потери: |
|
|
П а = а П ? + ( 1 — а ) П ? , |
(14.8) |
где П/, |
П" — соответственно наибольшие и наименьшие |
потери |
в строке і табл. 14.1. Предпочтительнее будет то действие, у которого'
П а |
меньше. При а = 1 получаем минимаксный критерий, а при |
о, = 0 — критерий миниминных потерь. |
|
- |
Критерий Лапласа. Три рассмотренных критерия обычно исполь-' |
зуются, когда совершенно неизвестно, какое из состояний Sj в дей ствительности будет иметь место (т. е. каковы вероятности состоя ний). Если нет достаточного основания считать одно состояние более; вероятным, чем другое, то можно воспользоваться критерием Лап ласа, т. е. считать все состояния равновероятными. При этом нужно
вычислить математическое |
ожидание |
потерь для каждого дей |
ствия А І |
|
|
ЛГ(П| ) = |
^п( П а + П „ |
+ . . . + П , п ) |
и выбрать то, которому отвечает меньшее М (Пг ).
Выбор стратегии при известных вероятностях состояний. Если известны (из предшествующего опыта) вероятности pj = Р [Sj] появления состояний Sj, то нет нужды вычеркивать подчиненные стратегии из табл. 14.1, а целесообразно выбрать такое действие (стратегию), которое имеет наименьшее математическое ожидание потерь:
|
|
|
М(Щ=ІІ,1р1 |
|
+ П п Р |
і + ...+ТІіпрп. |
|
|
(14.9) |
|
Если |
в примере |
§ 14.1 известны вероятности состояний: рг = |
0,03; |
|||||||
р2 = |
0,02; |
рз = |
0,05; |
р 4 = |
0,90, |
то наименьшее |
математическое |
|||
ожидание |
|
соответствует действию |
А Ь . |
|
|
|
||||
Рассмотрен ряд критериев для выбора решения при неопреде |
||||||||||
ленности. Вопрос о том, какой из |
критериев |
предпочесть, |
лежит |
|||||||
целиком |
в |
компетенции |
инженера, |
ставящего |
и решающего |
кон |
||||
кретную |
задачу, |
которому |
известны ее тонкости |
и особенности. |
§ 14.3. Нахождение оптимальных смешанных стратегий методами линейного программирования и последовательных приближений
Симплекс-метод. Игровые задачи могут быть просто сведены к задачам линейного программирования. В последних обычно тре
буется минимизировать |
(или |
максимизировать) |
линейную форму |
||||||||
|
|
|
Ф = |
сххх + |
с2 х2 + |
... + |
стхт |
|
(14.10) |
||
при |
заданных |
условиях: |
|
|
|
|
|
|
|
||
|
|
|
а П х 1 |
"Т~ 0-гл.х1 |
~Ь ••• .~Г" йтіХт |
— Ьх\ |
|
|
|||
|
|
|
CLxoXi |
-f- |
#22^2 |
" ' |
^ m % X m ~ |
^2> |
ілл |
i n |
|
|
|
|
&lnxl |
~f~ a2nx2 |
"T~ . . . ~b Gmnxm |
— |
b n . J |
|
|
||
Иными словами, необходимо найти такую совокупность зна |
|||||||||||
чений хх, |
х2, |
хт, |
которая удовлетворяет условиям (14.11) и |
||||||||
при которой ф = min |
(или max). Причем предполагается, |
что |
все |
||||||||
х£ ^ |
0 и |
п ^ |
т. |
|
|
|
|
X п имеет оптимальную |
|||
|
В свою очередь, если игра размером т |
||||||||||
смешанную стратегию, то каково бы ни было состояние |
природыу |
/ = 1, 2, п, применяя эту стратегию, всегда получим потери, меньшие или равные цене игры v, т. е. можно записать:
Пц/>і + |
П 2 1 р 2 |
+ |
... + |
П т 1 р т |
< |
v; |
|
|
П1 2 рі |
+ |
П 2 2 р 2 |
+ |
... + |
П |
|
|
|
П1 7 1 рі |
+ |
П 2 7 1 р 2 |
+ |
... + |
П т п р т |
< |
v. |
(14.12) |
|
S P I = I
1=1
Эти неравенства легко превратить в равенства путем введения п до полнительных фиктивных переменных (по одному в каждое уравне ние) РІ^О, і = т + 1, т + 2, т + п. Например, п-е неравен ство превратится в равенство
v = n l n p 1 + n 2 |
n |
р 2 + . . . + П т п рт + |
|
(14.13) |
Вычтем из этого равенства |
последовательно по одному |
из п — 1 |
||
предыдущих неравенств, |
аналогично преобразованных. |
Получим |
||
( П 1 в - П 1 У ) P l + (П3 „ - П2}) р 2 + . . . + ( П т п |
- |
|
||
~ Umj) |
Рт + Pm+n ~ Pm+j) = °> |
|
(14.14) |
|
|
|
|
|
|
i2= 1 РІ = 1; / = 1, 2,... ,п, р , ^ 0 , Z= 1,2,..., т |
+ п . |
Эту систему из п + 1 уравнений можно рассматривать как условия (14.11). В качестве линейной формы, которую необходимо мини
мизировать, |
выбираем уравнение (14.13), |
зависящее |
от |
tn + 1 |
||
неизвестных |
р х , р 2 , |
рт и фиктивного |
|
рт+п. |
|
|
Таким образом, задача нахождения смешанной стратегии свелась |
||||||
к задаче линейного |
программирования: |
необходимо найти |
такие |
|||
значения частот pt |
применения действий |
At |
(см. табл. |
14.1), при |
которых цена игры минимальна и удовлетворяются условия (14.14). Подобного рода задачи линейного программирования решаются с помощью так называемого симплекс-метода*. Это метод последо вательных приближений, на каждом шаге которого, опираясь на некоторое приближение (опорный план), находят значение линей ной формы, меньшее, чем на предыдущем шаге.
Введем векторные обозначения. Обозначим вектором П 0 п чи
с е л — свободных членов |
уравнений системы |
(14.14). Они будут |
|
как бы составляющие вектора П 0 в n-мерном |
пространстве |
(проек |
|
ции на оси координат). |
Коэффициенты при |
рг обозначим |
векто- |
* С и м п л е к с о м в м а т е м а т и к е н а з ы в а е т с я я - м е р н ы й в ы п у к л ы й м н о г о г р а н н и к , и м е ю щ и й п -f- 1 в е р ш и н у . Н а п р и м е р , д в у м е р н ы м с и м п л е к с о м я в л я е т с я т р е у г о л ь н и к , т р е х м е р н ы м — т е т р а э д р . У р а в н е н и е с и м п л е к с а , о т с е к а ю щ е г о
п
н а к о о р д и н а т н ы х о с я х е д и н и ч н ы е о т р е з к и , и м е е т в и д 2*i = 1 Н > 0.
1=1