4. М А Р К О В С К И Е Ц ЕП И С В О З Н А Г Р А Ж Д Е Н И Е М
До сих пор мы рассматривали лишь вероятность пребывания в раз личных состояниях в различные периоды времени. Теперь добавим информацию, касающуюся вознаграждения, или выплаты, которые могут быть получены при переходах. Пусть ri} — вознаграждение, соответствующее переходу из состояния i в состояние /'; его можно интерпретировать как вознаграждение непосредственно за переход, либо как вознаграждение за пребывание в состоянии i (либо в состоя нии /) в течение одного периода времени. Первая интерпретация соот ветствует, например, такому случаю, когда состояниями являются места города, а переходами — перевозки пассажиров такси; Гц будет тогда прибылью, входящей в плату за проезд из места i в место /. Вторая интерпретация соответствует, например, случаю, когда состоя ниями являются альтернативные состояния некоторой машины; r i} может быть, например, прибылью, полученной при пребывании в состоянии i за период времени, предшествовавший переходу.
Теперь рассмотрим общее вознаграждение, которого можно ожи дать после я переходов, от периода 0 до периода я. Для этого пред положим, что в системе имеется N состояний, и обозначим через R матрицу вознаграждений:
~г1г |
г12 |
... гш |
R = г? |
|
2N |
г |
•** |
Г |
L 7 .VI |
f N N - l |
Предположим, что система начинает функционировать с состояния i\ пусть Vi (я) — суммарное ожидаемое вознаграждение после я пере
ходов, начинающихся с состояния г. Тогда |
[v (я)]' — [ох (я) и2 (я)... |
. . . V n (n)] — вектор суммарного ожидаемого |
вознаграждения |
за я |
переходов для каждого из N возможных начальных состояний |
систе |
мы. Теперь предположим, что за первый переход система переходит в состояние /. Вознаграждение за этот переход равно гц. Кроме того, когда система достигла состояния /, ожидаемое вознаграждение после всех п переходов можно выразить как гц + Vj (п — 1), где слагаемое
V] (я —• |
1) |
представляет |
ожидаемое |
вознаграждение за |
оставшиеся |
(я — 1) |
переходы, когда система начинает с состояния /. |
Однако ве |
роятность |
перехода из |
состояния / |
в состояние i равна |
рц. Таким |
образом, суммарное ожидаемое вознаграждение за я переходов, начи нающихся с состояния г, может быть записано как
Vi ( п) = V Р и [ г и -у Vj ( я — |
1)] == |
v Р и г и |
+ 2 Р и VJ (« — !)• |
(8 ) |
J=i |
|
/ = 1 |
/ = 1 |
|
Теперь запишем |
N |
|
|
|
|
|
|
|
4 i |
= 2 |
P i l ГИ ' ' |
|
(9) |
|
/= 1 |
|
|