ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.03.2024

Просмотров: 61

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

27

x4(1)

={S3'

S4 },

x3(5)

={S2''' S3' },

x2(5)

={S1''

S2''' },

x4(2)

= {S3'' S4 },

x3(6)

= {S2''' S3'' },

x2(6) = {S1''' S2'' },

x3

= {S2

S 3 },

x2

= {S1

S2 },

x2

= {S1

S2 },

(1)

'

'

(1)

'

'

(7)

'''

'''

x3

= {S2

S 3 },

x2

= {S1

S2 },

x1

= {S0

S1},

(2)

'

''

(2)

'

''

(1)

 

'

x3(3) = {S2'' S3' },

x2(3) = {S1'' S2' },

x1(2) = {S0 S1'' },

x3(4)

= {S2''

S3'' },

x2(4)

= {S1''

S2'' },

x1(3) = {S0

S1''' }.

Для каждого шага запишем временные затраты wi в функции от состояния на предыдущем шаге и шагового управления. Обозначим их в соответствии с

шаговыми управлениями, приведенными выше; так w(5)

означает время перевода G

 

 

3

 

из S2''' в S3' , являющегося следствием управления x3(5)

 

w(1) = 6,

w(5) = 7,

w(5) =10,

 

4

3

2

 

w(2) = 5,

w(6) = 2,

w(6) =10,

 

4

3

2

 

w(1) = 8,

w(1) =11,

w(7) =11,

 

3

2

2

 

w(2) = 4,

w(2) = 4,

w(1) = 3,

 

3

2

1

 

w(3) = 3,

w(3) =1,

w(2) = 6,

 

3

2

1

 

w(4) = 5,

w(4) = 8,

w(3) =15.

 

3

2

1

 

Запишем основное рекуррентное уравнение динамического программирования, используемое для условной оптимизации. Согласно (2.2), оно имеет вид

Wi (Si1 )= min{wi +Wi+1 (Si )}

xi

Проведем условную оптимизацию, начиная с последнего, 4-го шага. Согласно

(2.3)

W4 (S3 )= min{w4 }

x4

Перед 4-м шагом состояние G может быть либо S3' , либо S3'' . В обоих случаях оптимальное шаговое управление – это перевод G в S4 . Значения условного оптимума целевой функции равны, соответственно

W4 (S3' )= w4(1) = 6,

W4 (S3'' )= w4(2) = 5.

Далее оптимизируем предпоследний, 3-й шаг. Для него


28

W3 (S2 )= min{w3 +W4 (S3 )}

x3

Если перед этим шагом G находился в состоянии S2' , имеем две возможности перевода G в S4 : либо через S3' (это займет 8 + 6 = 14 единиц времени), либо через S3'' . В последнем случае временные затраты равны 4 + 5 = 9,

поэтому этот вариант следует предпочесть и считать, что минимальное время достижения конечного состояния из S2' равно 11 единицам. Формально в случае,

если S2 = S2' , то имеется два управления x3(1) и x3(2) и условный оптимум целевой

функции

W3 (S2' )= min{[w3(1) +W4 (S3' )], [w3(2) +W4 (S3'' )]}= min{[8 + 6], [4 +5]}= 9,

и условное оптимальное управление в этом случае равно x3 (S2' )= x3(2) . Так же можно

вычислить, что W3 (S2'' )= 9,

x3 (S2'' )= x3(3);

W3 (S2''' )= 7, x3 (S2''' )= x3(6). Переходим к

оптимизации 2-го шага. Для него

 

W2

(S1 )= min{w2

+W3 (S2 )}.

 

x2

 

Если перед 2-м шагом G находился в состоянии S1' , то x2 {x2(1), x2(2)}, поэтому

W2 (S1' )= min{[w2(1) +W3 (S2' )], [w2(2) +W3 (S2'' )]}= min{[11 +9], [4 +9]}=13,

и условное оптимальное управление для состояния S1' равно x2 (S1' )= x2(2).

Аналогично проводятся расчеты и для других предыдущих состояний этого шага, а

затем

рассчитывается

1-й шаг, перед которым G всегда находится в S0 . Все

результаты условной оптимизации сведены в табл.2.1.

 

 

 

 

 

 

 

Таблица 2.1

Номер

 

Исходное

Условный минимум

Условное опти-

Состояние

 

шага

 

состояние

целевой функции

мальное управление

после управ-

 

i

 

Si1

Wi (Si1 )

xi (Si1 )

ления Si

 

4

 

S3'

6

x4(1)

S4

 

 

S3''

5

x4(2)

S4

 

 

 

 

 

 

'

9

(2)

''

 

 

 

S2

9

x3

S3

 

3

 

S2''

x3(3)

S3'

 

 

 

S2'''

7

x3(6)

S3''

 


29

 

'

13

 

(2)

 

''

 

S1

10

 

x2

 

S2

2

S1''

 

x2(3)

 

S2'

 

S1'''

18

 

x2(7)

 

S2'''

1

S0

16

x(1)

или x(2)

S '

или S ''

 

 

 

1

1

1

1

На рис.2.9 стрелками показаны все условные оптимальные управления, а в кружочках проставлены значения условного минимума для всех состояний. Это то минимальное время, которое требуется для достижения S4 . Из рис.2.9 видно, что существует две различные оптимальные траектории, переводящие G из S0 в S4 .

Они могут быть записаны в виде следующих двух цепочек

S0 S1' S2'' S31 S4 ; S0 S1'' S2' S3'' S4

и эквивалентны по временным затратам (16 единиц).

 

'

S2'

S3'

 

S1

9

6

 

13

S0

 

 

S4

16

10

9

S2''

 

S1''

 

 

18

7

5

 

S1'''

S2'''

S3''

Рис.2.9

2.3. Управление переходом организма в нормальное состояние в условиях неопределенности

До сих пор мы рассматривали детерминированную модель динамического программирования. В реальной жизни как на состояние системы, так и на целевую функцию влияют случайные факторы. В этом случае поведение системы зависит не только от начального состояния S0 и выбранного управления x , но и от случайности. Рассмотрим стохастическую модель задачи о кратчайшем пути на ациклической сети [12]. Допустим существование в системе условных вероятностей

Ρ(Si / Si1 , xi ) того, что на i-м шаге управления система перейдет в состояние Si при


30

условии, что до этого она находилась в Si1 и было применено управление xi . Это условие представляет собой допущение о марковском свойстве системы, согласно которому вероятность перехода системы в какое-либо состояние Si зависит только от состояния Si1 , из которого совершается переход, и от применяемого управления xi , но никак не зависит от предыстории системы, предшествующей ее переходу в

Si1 .

Таким образом, теперь управляющее воздействие xi на 1-м шаге управления может лишь изменить вероятности перехода из данного состояния Si1 в другие состояния Si . Теперь, находясь в каком-либо состоянии и применяя некоторое

управление, можно говорить только о средних затратах W времени достижения конечного состояния, которые вычисляются как взвешенные по соответствующим вероятностям затраты, рассмотренные по всем возможным из данного состояния траекториям. В этом случае, очевидно, задача заключается в нахождении такого множества оптимальных управлений (по одному для каждого состояния), которое дает минимальное среднее значение времени перехода из S0 в Sm .

Применение принципа оптимальности к таким задачам приводит к стохастической модели динамического программирования. Пусть Si(j ) обозначает конкретное состояние системы, в которое она переходит на i-м шаге, wik(j ) -

временные затраты на перевод организма в состояние Si(j ) на i-м шаге из состояния

Si(k1) . Допустим, что для части сети (рис.2.10) известны условные минимальные

средние временные затраты

 

 

i+1 (Si )

на достижение конечного состояния из

W

 

Si (Si {Si(1), Si(2),K, Si(n)}).

На

рис.2.10

через

p1 , p2 ,K, pn

обозначены

условные

 

 

 

p j = Ρ(Si(j ) | Si1 , xi ),

 

 

 

n

 

 

вероятности перехода

причем

p j

=1. Если,

например,

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

находясь в состоянии Si1

мы применяем управление xi , то средние затраты времени

 

 

i (Si1 | xi ) на достижение конечного состояния из Si1

равны

 

W

 

 

 

 

 

 

i (Si1 | xi )= n (wi(j ) +

 

i+1 (Si(j ))) Ρ(Si(j ) | Si1 , xi ).

 

 

 

W

W

 

 

 

 

 

 

 

 

 

j=1