ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.03.2024
Просмотров: 61
Скачиваний: 0
27
x4(1) |
={S3' |
→ S4 }, |
x3(5) |
={S2''' → S3' }, |
x2(5) |
={S1'' |
→ S2''' }, |
|
x4(2) |
= {S3'' → S4 }, |
x3(6) |
= {S2''' → S3'' }, |
x2(6) = {S1''' → S2'' }, |
||||
x3 |
= {S2 |
→ S 3 }, |
x2 |
= {S1 |
→ S2 }, |
x2 |
= {S1 |
→ S2 }, |
(1) |
' |
' |
(1) |
' |
' |
(7) |
''' |
''' |
x3 |
= {S2 |
→ S 3 }, |
x2 |
= {S1 |
→ S2 }, |
x1 |
= {S0 |
→ S1}, |
(2) |
' |
'' |
(2) |
' |
'' |
(1) |
|
' |
x3(3) = {S2'' → S3' }, |
x2(3) = {S1'' → S2' }, |
x1(2) = {S0 → S1'' }, |
||||||
x3(4) |
= {S2'' |
→ S3'' }, |
x2(4) |
= {S1'' |
→ S2'' }, |
x1(3) = {S0 |
→ S1''' }. |
Для каждого шага запишем временные затраты wi в функции от состояния на предыдущем шаге и шагового управления. Обозначим их в соответствии с
шаговыми управлениями, приведенными выше; так w(5) |
означает время перевода G |
||
|
|
3 |
|
из S2''' в S3' , являющегося следствием управления x3(5) |
|
||
w(1) = 6, |
w(5) = 7, |
w(5) =10, |
|
4 |
3 |
2 |
|
w(2) = 5, |
w(6) = 2, |
w(6) =10, |
|
4 |
3 |
2 |
|
w(1) = 8, |
w(1) =11, |
w(7) =11, |
|
3 |
2 |
2 |
|
w(2) = 4, |
w(2) = 4, |
w(1) = 3, |
|
3 |
2 |
1 |
|
w(3) = 3, |
w(3) =1, |
w(2) = 6, |
|
3 |
2 |
1 |
|
w(4) = 5, |
w(4) = 8, |
w(3) =15. |
|
3 |
2 |
1 |
|
Запишем основное рекуррентное уравнение динамического программирования, используемое для условной оптимизации. Согласно (2.2), оно имеет вид
Wi (Si−1 )= min{wi +Wi+1 (Si )}
xi
Проведем условную оптимизацию, начиная с последнего, 4-го шага. Согласно
(2.3)
W4 (S3 )= min{w4 }
x4
Перед 4-м шагом состояние G может быть либо S3' , либо S3'' . В обоих случаях оптимальное шаговое управление – это перевод G в S4 . Значения условного оптимума целевой функции равны, соответственно
W4 (S3' )= w4(1) = 6,
W4 (S3'' )= w4(2) = 5.
Далее оптимизируем предпоследний, 3-й шаг. Для него
28
W3 (S2 )= min{w3 +W4 (S3 )}
x3
Если перед этим шагом G находился в состоянии S2' , имеем две возможности перевода G в S4 : либо через S3' (это займет 8 + 6 = 14 единиц времени), либо через S3'' . В последнем случае временные затраты равны 4 + 5 = 9,
поэтому этот вариант следует предпочесть и считать, что минимальное время достижения конечного состояния из S2' равно 11 единицам. Формально в случае,
если S2 = S2' , то имеется два управления x3(1) и x3(2) и условный оптимум целевой
функции
W3 (S2' )= min{[w3(1) +W4 (S3' )], [w3(2) +W4 (S3'' )]}= min{[8 + 6], [4 +5]}= 9,
и условное оптимальное управление в этом случае равно x3 (S2' )= x3(2) . Так же можно |
||
вычислить, что W3 (S2'' )= 9, |
x3 (S2'' )= x3(3); |
W3 (S2''' )= 7, x3 (S2''' )= x3(6). Переходим к |
оптимизации 2-го шага. Для него |
|
|
W2 |
(S1 )= min{w2 |
+W3 (S2 )}. |
|
x2 |
|
Если перед 2-м шагом G находился в состоянии S1' , то x2 {x2(1), x2(2)}, поэтому
W2 (S1' )= min{[w2(1) +W3 (S2' )], [w2(2) +W3 (S2'' )]}= min{[11 +9], [4 +9]}=13,
и условное оптимальное управление для состояния S1' равно x2 (S1' )= x2(2).
Аналогично проводятся расчеты и для других предыдущих состояний этого шага, а
затем |
рассчитывается |
1-й шаг, перед которым G всегда находится в S0 . Все |
||||
результаты условной оптимизации сведены в табл.2.1. |
|
|
||||
|
|
|
|
|
Таблица 2.1 |
|
Номер |
|
Исходное |
Условный минимум |
Условное опти- |
Состояние |
|
шага |
|
состояние |
целевой функции |
мальное управление |
после управ- |
|
i |
|
Si−1 |
Wi (Si−1 ) |
xi (Si−1 ) |
ления Si |
|
4 |
|
S3' |
6 |
x4(1) |
S4 |
|
|
S3'' |
5 |
x4(2) |
S4 |
|
|
|
|
|
||||
|
|
' |
9 |
(2) |
'' |
|
|
|
S2 |
9 |
x3 |
S3 |
|
3 |
|
S2'' |
x3(3) |
S3' |
|
|
|
|
S2''' |
7 |
x3(6) |
S3'' |
|
29
|
' |
13 |
|
(2) |
|
'' |
|
S1 |
10 |
|
x2 |
|
S2 |
2 |
S1'' |
|
x2(3) |
|
S2' |
|
|
S1''' |
18 |
|
x2(7) |
|
S2''' |
1 |
S0 |
16 |
x(1) |
или x(2) |
S ' |
или S '' |
|
|
|
1 |
1 |
1 |
1 |
На рис.2.9 стрелками показаны все условные оптимальные управления, а в кружочках проставлены значения условного минимума для всех состояний. Это то минимальное время, которое требуется для достижения S4 . Из рис.2.9 видно, что существует две различные оптимальные траектории, переводящие G из S0 в S4 .
Они могут быть записаны в виде следующих двух цепочек
S0 → S1' → S2'' → S31 → S4 ; S0 → S1'' → S2' → S3'' → S4
и эквивалентны по временным затратам (16 единиц).
|
' |
S2' |
S3' |
|
|
S1 |
9 |
6 |
|
|
13 |
|||
S0 |
|
|
S4 |
|
16 |
10 |
9 |
||
S2'' |
||||
|
S1'' |
|
||
|
18 |
7 |
5 |
|
|
S1''' |
S2''' |
S3'' |
Рис.2.9
2.3. Управление переходом организма в нормальное состояние в условиях неопределенности
До сих пор мы рассматривали детерминированную модель динамического программирования. В реальной жизни как на состояние системы, так и на целевую функцию влияют случайные факторы. В этом случае поведение системы зависит не только от начального состояния S0 и выбранного управления x , но и от случайности. Рассмотрим стохастическую модель задачи о кратчайшем пути на ациклической сети [12]. Допустим существование в системе условных вероятностей
Ρ(Si / Si−1 , xi ) того, что на i-м шаге управления система перейдет в состояние Si при
30
условии, что до этого она находилась в Si−1 и было применено управление xi . Это условие представляет собой допущение о марковском свойстве системы, согласно которому вероятность перехода системы в какое-либо состояние Si зависит только от состояния Si−1 , из которого совершается переход, и от применяемого управления xi , но никак не зависит от предыстории системы, предшествующей ее переходу в
Si−1 .
Таким образом, теперь управляющее воздействие xi на 1-м шаге управления может лишь изменить вероятности перехода из данного состояния Si−1 в другие состояния Si . Теперь, находясь в каком-либо состоянии и применяя некоторое
управление, можно говорить только о средних затратах W времени достижения конечного состояния, которые вычисляются как взвешенные по соответствующим вероятностям затраты, рассмотренные по всем возможным из данного состояния траекториям. В этом случае, очевидно, задача заключается в нахождении такого множества оптимальных управлений (по одному для каждого состояния), которое дает минимальное среднее значение времени перехода из S0 в Sm .
Применение принципа оптимальности к таким задачам приводит к стохастической модели динамического программирования. Пусть Si(j ) обозначает конкретное состояние системы, в которое она переходит на i-м шаге, wik(j ) -
временные затраты на перевод организма в состояние Si(j ) на i-м шаге из состояния
Si(−k1) . Допустим, что для части сети (рис.2.10) известны условные минимальные
средние временные затраты |
|
|
i+1 (Si ) |
на достижение конечного состояния из |
|||||||||||
W |
|||||||||||||||
|
Si (Si {Si(1), Si(2),K, Si(n)}). |
На |
рис.2.10 |
через |
p1 , p2 ,K, pn |
обозначены |
условные |
||||||||
|
|
|
p j = Ρ(Si(j ) | Si−1 , xi ), |
|
|
|
n |
|
|
||||||
вероятности перехода |
причем |
∑p j |
=1. Если, |
например, |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
j=1 |
|
|
находясь в состоянии Si−1 |
мы применяем управление xi , то средние затраты времени |
||||||||||||||
|
|
i (Si−1 | xi ) на достижение конечного состояния из Si−1 |
равны |
|
|||||||||||
W |
|
||||||||||||||
|
|
|
|
|
i (Si−1 | xi )= ∑n (wi(j ) + |
|
i+1 (Si(j ))) Ρ(Si(j ) | Si−1 , xi ). |
||||||||
|
|
|
W |
W |
|||||||||||
|
|
|
|
|
|
|
|
|
j=1 |
|
|
|
|
|
|