Файл: Сирл, С. Матричная алгебра в экономике.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 16.10.2024

Просмотров: 186

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

4. М А Р К О В С К И Е Ц ЕП И С В О З Н А Г Р А Ж Д Е Н И Е М

До сих пор мы рассматривали лишь вероятность пребывания в раз­ личных состояниях в различные периоды времени. Теперь добавим информацию, касающуюся вознаграждения, или выплаты, которые могут быть получены при переходах. Пусть ri} — вознаграждение, соответствующее переходу из состояния i в состояние /'; его можно интерпретировать как вознаграждение непосредственно за переход, либо как вознаграждение за пребывание в состоянии i (либо в состоя­ нии /) в течение одного периода времени. Первая интерпретация соот­ ветствует, например, такому случаю, когда состояниями являются места города, а переходами — перевозки пассажиров такси; Гц будет тогда прибылью, входящей в плату за проезд из места i в место /. Вторая интерпретация соответствует, например, случаю, когда состоя­ ниями являются альтернативные состояния некоторой машины; r i} может быть, например, прибылью, полученной при пребывании в состоянии i за период времени, предшествовавший переходу.

Теперь рассмотрим общее вознаграждение, которого можно ожи­ дать после я переходов, от периода 0 до периода я. Для этого пред­ положим, что в системе имеется N состояний, и обозначим через R матрицу вознаграждений:

~г1г

г12

... гш

R = г?

 

2N

г

•**

Г

L 7 .VI

f N N - l

Предположим, что система начинает функционировать с состояния i\ пусть Vi (я) — суммарное ожидаемое вознаграждение после я пере­

ходов, начинающихся с состояния г. Тогда

[v (я)]' [ох (я) и2 (я)...

. . . V n (n)] — вектор суммарного ожидаемого

вознаграждения

за я

переходов для каждого из N возможных начальных состояний

систе­

мы. Теперь предположим, что за первый переход система переходит в состояние /. Вознаграждение за этот переход равно гц. Кроме того, когда система достигла состояния /, ожидаемое вознаграждение после всех п переходов можно выразить как гц + Vj (п — 1), где слагаемое

V] (я —•

1)

представляет

ожидаемое

вознаграждение за

оставшиеся

(я — 1)

переходы, когда система начинает с состояния /.

Однако ве­

роятность

перехода из

состояния /

в состояние i равна

рц. Таким

образом, суммарное ожидаемое вознаграждение за я переходов, начи­ нающихся с состояния г, может быть записано как

Vi ( п) = V Р и [ г и Vj ( я —

1)] ==

v Р и г и

+ 2 Р и VJ (« — !)•

(8 )

J=i

 

/ = 1

/ = 1

 

Теперь запишем

N

 

 

 

 

 

 

 

4 i

= 2

P i l ГИ ' '

 

(9)

 

/= 1

 

 

213


так что qt представляет ожидаемое вознаграждение за следующий пере­ ход при условии, что г — текущее состояние. Тогда

Щ (п) = Яг +

2lPijV] (п— 1).

( 10)

 

/

i = 1,

Теперь в силу того,что уравнения (9) и (10) справедливы для

2, ..., N, уравнение (10) может быть записано в векторной форме:

v (п) =

q + Pv (п — 1),

(11)

где q' — [q1q2 ... q^-]. Из уравнения (9) видно, что qt является i-м диа­ гональным элементом матрицы PR' и, следовательно, q' есть векторстрока, состоящая из диагональных элементов матрицы P R '.

Если марковская цепь регулярна, тогда существуют стационарные вероятности. Стационарное ожидаемое вознаграждение за период дли­ ной g, может быть записано как сумма взвешенных ожидаемых воз­ награждений <7г, полученных при переходах из состояния i, при этом весами служат я г — стационарные вероятности пребывания в состоя­ нии i:

8 = i

или в векторной форме

8 = х'<7.

(12)

где вектор х — Тлу n2...njV] представляет собой вектор стационарных вероятностей.

Пример. Предположим, что R есть матрица вознаграждений (в дол­ ларах) для примера с машиной, приведенного в начале главы:

 

. 1

— 1.

 

Это означает, что в случаях, когда

машина

нормально работает

до и после перехода,

прибыль равна 2 долларам; в тех случаях, когда

она начинает работу

в нормальном состоянии,

но затем требует регу­

лировки после перехода (либо наоборот), прибыль равна 1 доллару; наконец, если машина не отрегулирована ни до, ни после перехода, то

потери равны 1 доллару. Пусть,

как это было задано ранее,

 

р __ Г 0,7

0,3“

 

 

 

" [0,6

0,4

 

 

и

 

 

 

 

 

0,7

0,3

'2

1 '

1,7

0,4-

0,6

0,4

1

— 1

.1,6

0,2

Тогда из (9) имеем

 

 

 

 

 

 

q' =

11,7

0,2].

 

 

2 1 4


Следовательно, в уравнении (11)

v (я) ~1,7

4_

0,2

пг

о

о СО

0,6 0,4

v(n — 1),

где мы полагаем v (0) = 0.

Тогда

 

о(1)

= ^1(1) '

1,7

0,2

 

_»а(1).

т. е. если машина начинает с рабочего состояния, ожидаемая прибыль за один период времени равна 1,70 доллара; если она начинает с сос­ тояния, требующего ремонта, ожидаемая прибыль равна 20 центам.

Ожидаемая прибыль за два периода может быть вычислена подоб­ ным же образом с помощью формулы (11) при я = 2:

 

v(2) = q + Pv(l)

1,7

__L

0,7

0,3"

' 1,7 '

"2,95"

 

0,2

t

0,6

0,4

_0,2

1,30

Заметим, что применение уравнения (11)

при я =

2 требует зна­

ния

величины и (1), а

при я = 3 для

этого уравнения необходимо

v (2).

Таким образом,

вектор

v (я) может быть вычислен для любого

я на

основе v (1) путем рекурсивного

применения уравнения (11).

Стационарное ожидаемое вознаграждение g вычисляется из урав­

нения (12):

 

 

 

 

g = x'q =

'2

1 ■ U

'

1, 2 0 .

_3

3 . .0,2.

Таким образом, если система работала

в

течение многих периодов

и неизвестно ее текущее состояние, то ожидаемая прибыль за следую­ щий (и любой последующий) период равна 1,20 доллара.

5.ОПТИМАЛЬНЫЕ СТРАТЕГИИ В МАРКОВСКИХ ЦЕПЯХ

Впредыдущем параграфе матрицу вознаграждений R мы брали

всочетании с матрицей вероятностей переходов Р для задания марков­ ской цепи с вознаграждениями, и было показано, как вычислить век­ торы и (я), элементы которых описывают ожидаемое вознаграждение, выдаваемое системой за п периодов, как функцию исходного состоя­ ния системы. Вплоть до этого момента в рассмотрение не включались никакие решения; модель просто описывала систему, которая не пре­ доставляла никаких альтернатив. Теперь предположим, что введены некоторые альтернативные решения, касающиеся поведения системы.

Внашем примере с машиной рассмотрим правило, определяющее некоторое решение: всегда ремонтируйте машину, если она этого тре­ бует. Если в качестве матрицы вознаграждений по-прежнему взять матрицу, приведенную ранее, и если стоимость ремонта машины равна

215


0,90 доллара, то важно ответить на такой вопрос: этому ли правилу

нужно следовать или

целесообразнее предпочесть правило «ничего

не делать». (Напомним,

что с вероятностью 0,6 машина регулируется

сама.)

 

Общий подход к решению этой проблемы состоит в рассмотрении

К

различных правил, определяющих соответствующие решения.

В

общем случае альтернативные решения могут воздействовать как

на матрицу вознаграждений, так и на матрицу переходных вероятно­

стей. В соответствии с этим положим, что р(ц , Р (к\

, q{kP иqW

представляют соответствующие символы в случае, когда

выбрано £-е

решающее правило.

 

Заметим, что верхний индекс (£) в данном случае указывает, что выбрано £-е решение; он не означает возведения в степень. Теперь под vt (я) мы будем подразумевать максимальное ожидаемое вознагражде­ ние за п переходов при условии, что система находится в настоящее время в состоянии i и в каждом из последующих периодов принимаются оптимальные решения. Теперь щ (п) можно записать в следующем виде:

пг (я) = Max

v

р<*> [r\f + V j ( n

1)], г = 1, 2,

..., N.

W

j—i

 

 

 

Символ Мах указывает,

что производится максимизация по множеству

{k}

£ = 1 , 2 ,...,

К-

В матричных

обозначениях:

возможных решений,

v (я) = Мах {qW +

Р(/г) v (п — 1)}>

(13)

 

 

{*}

 

 

 

где прободятся N независимых максимизаций в уравнении (13) по од­

ной для каждого из

элементов v (я),

т. е. по одной для каждого

из возможных начальных состояний.

 

 

Решение проблемы выбора решений происходит следующим обра­ зом. Вначале решают все уравнения (13) при я = 1, находя для каждого начального состояния i оптимальное решение, т. е. то значе­ ние £, которое максимизирует правую часть соответствующего из урав­ нений (13)1. Пусть вектор оптимальных решений для случая, когда должны пройти я периодов, обозначается

d (я) = Ыг (я) d2(n) ... dN (я)]'.

Тогда dt (я) есть оптимальное решение для случая, когда система на­ ходится в состоянии г и должно пройти я периодов. Решение уравне­ ний (13) получается непосредственно, поскольку v (0) = 0, и уравне­ ния преобразуются к виду:

v (1) = Мах {<7(ft)}.

(14)

{*}

 

Максимизирующее значение k может быть найдено полным перебором.

2 1 6


Как только уравнения (13) решены для каждого элемента v (1), оп­ тимальные решения записываются в виде вектораd(\), где i-й элемент di (1) есть целое число в диапазоне от 1 до К, которое максимизирует ожидаемое вознаграждение за один переход при условии, что система

начинает с состояния i.

Затем уравнения (13) решают при п = 2,

записывая

оптимальные

решения в вектор й (2). Далее переходят

к п = 3, 4,

... и так далее до тех пор, пока не будет достигнуто желае­

мое число периодов. Затем рассматривают множество векторов опти­ мальных решений {d (n), d (п —■1), ..., d (1)}, задающее оптимальную стратегию. Оптимальная стратегия используется следующим обра­ зом: если должно пройти п периодов и система находится в состоянии г, то применяют решение k = di (/г). Затем после перехода система по­ падает в некоторое новое состояние (назовем его /'). Теперь остался (п — 1) период, и оптимальное решение есть k = dj (п — 1). Подоб­ ным образом векторы оптимальных решений позволяют нам принимать оптимальные решения безотносительно к тому, в какие состояния пе­ реходит система; как уже упоминалось, для случая, когда система, начинает с состояния i, максимальное ожидаемое вознаграждение за п периодов задается величиной vt (п).

Пример. В нашем примере с машиной положим в качестве решаю­ щего правила для k — 1 правило «не делать ничего», а для k = 2 — правило «всегда ремонтировать машину, если она этого требует». Пусть стоимость ремонта равна 0,90 доллара. При действии по пра­

вилу 1 (не делать ничего)

матрицы Р и R остаются такими же, как

и раньше:

 

 

 

 

р( 1)

0,7

0,3"

£<!)=:

2

0,6

0,4J ’

1

 

 

При действии по правилу 2 (всегда ремонтировать машину, если она этого требует) матрицы Р и R будут такими:

р (2 ) =

О V)

о со

Р<2> = Г

2

1 '

 

 

 

 

1

0 J

/ h —0,9

— 1 _

Мы видим, что в этих матрицах зафиксированы безусловный пе­ реход из состояния 2 в состояние 1 и стоимость ремонта (0,90 долла­ ра), связанного с этим переходом.

Зная Р(к) и R W , мы можем получить q(k\ воспользовавшись урав­ нениями (9):

?< Ч 1,7

1,7

 

 

 

 

7(2) =

 

 

 

 

L 0,2

0,1

 

 

 

 

Теперь мы запишем уравнения (13) для п =

1:

 

 

 

v (1) =^Мах{<7<*)} ^M ax ^ O ,

q(2)} =:Мах I

1,7

»

1,7

(15)

(А)

( .0,2

 

.0 ,1 .

 

2 1 7