Файл: Васильев Ф.П. Лекции по методам решения экстремальных задач.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 286

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ Ц

 

Схема Р. Веллмана. Проблема синтеза для дискретных систем

187

 

inf

Rk(x > и) ~

0,

k =

0,

1 , . . . ,

N — 1;

BN(x) =

Ф(х).

и 6D t W

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(20)

Кроме того, с помощью функций

(х,

и)

значение

функционала (9)

на любом управлении [щ]к 6 А* (х)

и х £

Xk выражается так:

 

 

 

 

 

 

h

(*,

[«/I*) =

" £ Ri (xi,

щ) +

Bk (x)

 

 

 

 

(21)

 

 

 

 

 

 

 

 

 

i=k

 

 

 

 

 

 

 

 

 

 

 

при

всех

& = 0,

1 , —

,

N — 1.

В самом деле, учитывая

равенство

Вм (х) 23 ф (х),

из (10),

(19)

имеем

 

 

 

 

 

 

 

 

 

 

N— 1

 

 

 

N—1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^

Ri ixi,

Щ) =

\.Bi+\ ixi+\) — Bi {xj) +

F° (xh

щ)\ =

B n (xn) —

i=k

 

 

 

 

i—k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

ВЛ Х) +

£

F°i(xi,

щ ) = 1 А(х,

[ui]k) — Bk {x)l

 

 

 

 

 

 

 

 

i=k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

что равносильно

(21).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т е о р е м а

2. Пусть выполнены условия теоремы

1

и множе­

ство

G0

ограничено. Пусть найдены функции Bk(x) из (13) и их

области

определения

Xh,

а также

функции

 

u = u k (x),

x e X h,

k = 0 , l , ... ,N — 1,

на которых

достигается

нижняя

грань

в

уравне­

нии

(13)

(или (20)). Тогда

оптимальное управление [« * ]0 и тра-'

ектория

[хг]0

для задачи

(5) — (8)

определяются

соотношениями

(16),

(17).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Д о к а з а т е л ь с т в о .

Прежде всего заметим,

что существова­

ние

*о 6 Х 0, удовлетворяющего

условию

(16), следует

из

полуне­

прерывное™ снизу Во(х) на ограниченном

замкнутом

множестве

JfosGo. Далее, из определения щ(х), [ц*]0,

[x*J0

и эквивалентно­

сти записей уравнения Веллмана

(13)

и (20)

имеем

 

 

 

 

 

 

 

 

Ri (Х1

«г) = 0 ,

 

i = 0,

1, . . . ,

N — 1.

 

 

 

(22)

Возьмем

произвольные

х ^ Х 0,

управление

[г^]0е Д 0 (х)

 

с соответ­

ствующей траекторией {х,-]б из

(6). Так как Ui^Di(Xi), то из урав­

нения (20) и определения щ(х)

следует

 

 

 

 

 

 

 

 

 

 

 

inf

 

Ri [xt, и) =

Ri (х{,

щ (jcj)) =

0 < R i (xir щ),

 

 

(23)

 

 

“6£,(*£>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i = 0, 1, . . . , N — 1.

 

 

 

 

 

 

 

С помощью формулы (21) при £ = 0 с у ч е т о м

соотношений (16),

(22),

(23)

получаем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


188

ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ. ПРОБЛЕМА

СИНТЕЗА

[ Г л . 4

 

 

N —1

 

 

 

(X, N o ) /o(-V'0 ,

= ^ [^i (Xit ^i)

Ui)]

-j-

,i=0

+

B0 ■—■B 0(Л'о)

0

для любых х £ Х 0 и [ы;]0 6 Д0(х). А

 

• Т е о р е м а -3. Пусть

известны В к {х),

х ^ Х к из (13), а также

функции ик (х), на которых достигается нижняя грань в уравне­

нии

(13) (или (20)).

Тогда

оптималные управления

 

 

и тра­

ектория

[-Vf]* для

задачи

 

(9) — (12)

определяются

формула­

ми

(18).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Д о к а з а т е л ь с т в о .

Возьмем

произвольное

управление

й е

Аи(х) и соответствующую траекторию

из

 

(10).

Очевид­

но, соотношения (22), (23) остаются справедливыми

и здесь при

всех

i— k, £ + 1 , ...,

N— 1. Поэтому

оптимальность

[щ\к

устанав­

ливается с помощью формулы

(21)

так же,

как в теореме 2.

^

 

Заметим, что

inf

I k (х ,

[щ]к) — I k (x,

[ и] к) =

Вк (х). Это сле­

дует

из формулы (21)

с учетом равенств

(22). Тем

самым

пока­

зано, что

функции

В к {х),

определяемые

из (13),

в

самом

деле

являются функциями Веллмана для задачи

(5) — (8).

 

 

 

 

4. В

теории оптимального управления и ее приложениях важ ­

ное место занимает так называемая проблема синтеза, заключаю­ щаяся в построении функции u= u(x,t), представляющей собой оптимальное управление при условии, что в момент t объект нахо­

дится в точке V фазового пространства. Такая функция u(x, t)

на­

зывается синтезирующей.

 

 

 

 

Теорема

3 показывает, что решение уравнения Веллмана

(13)

равносильно

решению проблемы

синтеза

для задачи

(5) — (8).

В самом деле, функция ик (х), на

которой

достигается

нижняя

грань в (13), является синтезирующей, так как если в момент k объект находится в точке х ^ Х к, то дальнейшее оптимальное дви­

жение объекта -определяется

условиями Xi+i — Fi(Xj, «,-(*,-)), i = k ,

ft+ 1, ..., N— \, xh= x , (если x

ф Хк,

то Вк{ х ) — 0 , т. е. движение

с соблюдением условий (10) — (12)

невозможно). Достаточные ус­

ловия существования синтезирующей функции для задачи (5) — (8) приведены в теореме 1.

5. В

практических задачах получить

явное

выражение для

функций

uk (x), на

которых достигается

нижняя

грань в уравне­

нии (13)

или (20),

часто бывает затруднительно,

да к тому же в

некоторых задачах указанная нижняя грань может вообще не до­ стигаться. Поэтому на практике часто приходится иметь дело с функциями uh(x), которые реализуют нижнюю грань в (13) или (20) лишь приближенно. Оказывается, при некоторых условиях такие функции ик (х) могут быть взяты в качестве приближенной синтезирующей функции для задачи (5) — (8).


£ 1\

Схема Р.

Веллмана.

Проблема

синтеза для

дискретных

систем 189

Т е о р е м а

4.

Пусть

функции

Bk (x),

x £ X k, k = 0,

1

N,

удовлетворяют

уравнению

Веллмана

(13),

и функции ukm (х) £ Dk (х),

m = 1, 2,

,

таковы, что lim Д£ (х, uini(x)) =

0. Пусть,

кроме того,

 

 

 

 

т-*оо

lim В 0 (хот) — inf В0(х).

Постро-

найдены точки хйп1d Х 0, для которых

 

 

 

 

 

т -*оо

 

х £ Х 0

 

следую­

им управление [w£„J0 и соответствующую

траекторию [х£т]0

щим образом:

 

 

 

 

 

 

 

 

и0т

Рцт (Лот) >?- -'-lml

ix 0nu

^om) >

и 1т

^1т {Х1т) > ••• >

 

 

 

X 'i\ m В j\ ; — 1 (.V д/— 1 t m , ^ Л '— 1 , ш ) *

 

 

Тогда последовательность [и£т]0 является минимизирующей для зада­

чи

(5) — (8), т.

е.

П т /0 (х0т,

[и/т]0) =

inf

inf /0 (jc,

[щ]0) =

&

 

 

 

т-»оо

 

 

 

 

 

х£Хо До(*)

 

 

 

 

 

Д о к а з а т е л ь с т в о .

 

Возьмем

 

произвольную

 

точку

х £ Х 0 и

произвольное управление

[и£]0 £ Л0 (х)

с

соответствующей траекторией

[*,]„ из (6). С помощью формулы (21)

при k — 0 .тогда имеем

 

h (xi No)

 

 

 

 

 

N —1

 

 

 

 

 

i (x im> u im )] "b

 

|/о!(ЛОт»

[u im]o)

^

 

 

(x i>

u i )

R

 

 

 

 

 

 

 

 

i=0

 

 

 

 

 

 

 

 

 

 

 

 

 

+

B0{x) — B0(x0m),

in]=

1,

2___

 

 

 

 

В этом равенстве можно перейти к

пределу

при т-^~ оо,

так как

правая часть по условию имеет предел. В

результате

получим

 

 

 

No) —lim/0(Xom, [u/m]о)

N—1

 

 

 

 

 

 

h i X,

 

 

 

 

Щ) +

 

 

 

 

 

ГП-*оо

 

 

 

 

 

i=0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

B0 (x) — inf B0 (x) >

0,

 

 

 

 

 

 

 

 

 

 

 

 

 

x B X „

 

 

 

 

 

 

 

 

 

так

как

# £(x£,

u£) > inf

Я £(х£> и) =

0 в силу (13) или (20). Из

произвольности х е Х 0 и [ыг]6 6 Л0 (х)

следует

/0* >

lim/0 (х0т, [u£mJ0).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т —>оо

 

С

другой

стороны,

/0 (х0т,

[uim]Q) >

/о,

 

in = 1,

2 , ------

Поэтому

П т /0 {хот, [^£т]о) =

/О-

А

 

 

 

 

 

 

 

 

 

 

 

 

 

ТП-*00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т е о р е м а

5.

Пусть

функции

£ f (x),

uim(x),

 

t'=&,

£ + 1 ,

N— 1, m = l , 2,

 

удовлетворяют

условиям

теоремы 4. Построим

управления

и соответствующие траектории [х,-,п]ь следующим

образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x km

х < ^km

^ km {x km )’

x k + i , m

В ^ ( х кт,

Ukm),

 

 

иА+1, m = u k + l , m (x k + l , m ),

■ ■ ■ , Xjifm = F ^ —i (Xjy—i, m ,

Mjv- I , * ) .



190

ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ.

ПРОБЛЕМА

СИНТЕЗА

[Гл. 4

Тогда последовательность

\ulw\k ( т = 1,

2,

. . . )

является минимизи­

рующей для задачи (9) — (12),

т.

е.

 

 

 

 

 

 

П т 4 (х, [uim]ft) =

/fe =

inf Ik (x,

[игу

=

Bk (x).

 

 

m-+oo

 

 

 

 

 

 

 

 

 

Д о к а з а т е л ь с т в о .

Возьмем произвольное

Аь.(x)

с со­

ответствующей траекторией [-4U из (10). С помощью формулы (21) тогда имеем

 

 

 

 

 

 

N—1

 

 

 

 

 

 

 

 

4

[^i]fc) '

Ik(x > [^irrtlfe) =

^

[ 4

(xiI ^i)

Ri ixlm> Uim)]>

 

 

 

 

 

 

 

i=k

 

 

 

 

 

 

 

 

 

 

 

 

m = 1,

2,

, . .

 

 

 

 

 

 

 

Теперь равенство

\\mlk {x,

[uim]k) — i l

доказывается

так

же, как

и в

 

 

 

ТП-*ОО

= Bk (х)

 

 

 

 

 

 

 

 

 

•теореме 4. Соотношение 4

следует

из

формул

(21)

при

Щ = Щт,

xl = xim> когда гп-+оо.

 

 

 

 

 

 

 

 

 

 

Как видим, функции щт(х)

из теоремы 4 дают приближенное

решение

проблемы синтеза

для

задачи

(5) — (8),

ибо

если в

мо­

мент k объект

находится

в

точке х ^ Х к, то движение

объекта

по

закону

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Х{+1,т =

4

(xim, uim {xim))t

i =

k,

k + 1 ,

. . . ,

N —

1,

 

 

 

 

xkm = x > « * = 1 , 2 , . . .

 

 

 

 

 

 

при больших m доставляет функционалу 4 ( * , tuf]ft) значения, как угодно близкие к оптимальному /*.

6. Резюмируя содержание настоящего параграфа, замети что метод динамического программирования позволяет свести за ­ дачу (5 )— (8) к последовательности, вообще говоря, более про­ стых задач минимизации функций меньшего числа переменных для определения B h(x), uh(x), определить абсолютный минимум функдионала (5) при условиях (6 )— (8), а также решить проблему син­ теза для этой задачи. Этот метод дает значительный выигрыш в объеме вычислений по сравнению с простым перебором всевозмож­ ных допустимых управлений и траекторий, поскольку при вычис­ лении B k (x)yUk(x) достаточно рассмотреть лишь такие управления, которые переводят точку х в точку xh+ i = F k (x, ц ), и дальнейшее движение из точки ,хь,+\ осуществить по оптимальной траек­ тории, отбрасывая все неоптимальные. Указанные достоинства ме­ тода динамического программирования, простота схемы и приме­ нимость к широкому классу задач с фазовыми ограничениями делают этот метод весьма привлекательным, и его широко исполь­ зуют при решении задач типа (5) — (8).