Файл: Методы оптимизации в статистических задачах управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 104

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Для расчета а = М {W0 (і -f А, у)\х {t) = х) воспользуемся разложением функции W 0 (t -f Д, у) в ряд Тейлора в окрест­ ности точки х:

а = М \W0 {t -f Д, х) + {у — X)*

d2W0 (t + A, X)

 

 

дх

Ч о” tr {y~x){lj — x)* d W 0 (t + Д, X)

+ о(||г/— *||)|x(() = xj,

дх дх*

 

 

где Iу — *|| — норма вектора — х).

Согласно определению вектора коэффициентов сноса и ма­ трицы коэффициентов диффузии для марковского процесса можно записать:

М \(у — х) I * (t) = х] — с ((, х) А + о (А);

М [(у х) (у х)*\х (t) = х] = Ѳ (t, х) А + о (А).

Поскольку для рассматриваемого здесь объекта управления, системой уравнений описываемого (342), справедливы соотно­ шения

 

 

с (t,

х)

=

/ {t, X, и),

 

 

 

 

то

 

Ѳ (t, X)

=

G (/)

Q (t) G* (t),

 

 

 

 

 

 

 

 

 

 

 

 

a W0 (t -)—A, x) +

f* (t

 

dWa (t +

Д, X)

 

, X, u) ■

dx

 

 

 

 

 

G(0Q(0G* (0

 

 

 

 

 

+

2 tr

 

dxdx*

 

A + o(A).

(352)

 

 

 

 

 

d W 0 (t + Д,

X)

После подстановки выражения (352) в формулу (351) и про­

стейших преобразований получим

 

 

 

 

 

 

W0(t, x) — W0 (t +

Д, х)

_

m in (cp (t,

X,

и) +

 

 

 

д

 

 

 

u£U

 

 

 

 

 

 

 

 

 

 

дх

 

 

 

 

+

j tr

[G (t)Q (t) G* (t)

 

 

 

+

o(A)

 

В пределе при А —>0 получим уравнение Веллмана:

ЗГ 0 (t, X)

m in

ф ((, X, и) +

 

 

dt

 

 

u(-U (

 

 

 

 

 

dWü (t,

X)

 

+

/*(*,

и)

дх

 

 

1

 

 

^IF0(6 х)_

(353)

+ T tv

G(t)Q(t)G*(t)-

дх дх*

155


У р а в н е н и е В ел л м а н а и м еет оч ев и д н ое гр а н и ч н о е у сл ов и е:

W0 (Т, х) = 1 (Т, X).

 

(354)

Обозначим через и 0 оптимальное

управление в поставленной

задаче, тогда согласно

формуле

(353)

минимальные

потери

W0 (t, х) удовлетворяют уравнению

 

 

 

 

dW0 (t, X) =

фУ,

X, и0) -f

 

 

dt

 

 

 

 

 

+

X, щ)

dWp (t, X)

,

 

 

 

 

дх

+

 

+ У tr

G(t)Q(t) G* (t)

d2Wо {t, X) 1

(355)

d x d x *

Поставим задачу определения уравнения, которому удовле­ творяют потери при произвольном, не обязательно оптимальном управлении. Вывод, который приводится ниже, наглядно показы­ вает связь уравнения Веллмана с уравнением Колмогорова для марковского процесса х (t).

Согласно формулам

(346), (347)

можно записать:

 

 

 

W

It,

X, и (т), т 6 U, Т] ]

=

 

= М 1 1

ф

[т,

X

(т), и (т) ]

dr +

К [Г, X (Т)] I X (t) =

X

 

 

т

 

 

 

 

 

 

 

= J

dxM (ф [т,

л: (т),

и (х)]\х (t) =

 

 

 

t

 

 

 

 

 

 

 

 

=

*} +

М [Т,

X (T)]\x(t)

= х}; =

 

 

Т

 

со

 

 

 

 

 

 

=

I

dx

J

dz/ф [т, у, и (т) ] р (т,

y\t, х) +

 

 

t

— со

 

 

 

 

 

 

 

 

+

со

dyl IT,

у ] р ( т , у 11, X).

(356)

 

 

J

00

Дифференцируем полученное выражение для оставшихся по­ терь по переменной t:

со

7ІГ = — j d&<P У. “ (01Р У, У\ t, X) +

Т

со

 

+ Jdx J фф[т, у, и (т)] др{х’ а(1-1, х) +

 

t

—со

 

 

+ JdyMT, y f i E ^ l .

(357)

 

— СО

 

156



П о с к о л ь к у

р (t, y\t, х) = Ö(у — х),

то

J dyq> It, у, и (/)] р (t, y\t, х) = ф U, Ху и (01. (358)

Согласно обратному уравнению Колмогорова для марков­ ского процесса х (t) (см. п. 4 гл. I) запишем:

др(т,

y\t .x )

X,

U) dp (т, y \ t , x )

 

dt

 

dx

-

2 tr G(t)Q(t) G*(t)

d2p ( t , у I t, x)~

dx dx*

Подставляя последнее уравнение и уравнение (358) в фор­ мулу (357), после несложных преобразований, связанных с изме­ нением порядка дифференцирования по переменной х и интегри­ рования по переменным т, у, получим

 

 

 

 

 

Т

со

~ Ж =

 

+ f* & х’

Ш

I dt I dy X

 

 

 

 

 

t

—03

X ф[т, у,

и (т)]р(т, y\t,

х ) +

I dyk[T, у] X

х р ( Т ,

y\t,

X ) + y t r

G(OQ(f)G*(0 X

а2

T

со

 

 

 

 

J dt

I dz/ф [т, у,

и (т)] р(т,

у I /, х) +

âxâx*

*—со

dy4T, у]р(Т, y\t, х)

Используя выражение (356), получим уравнение

3W

Ф

(І, X, и) + f* (t, X,

U)~^- +

dt

 

 

 

 

 

 

 

 

 

 

< з м >

где аргументы функций

W,

G,

Q для краткости опущены.

Таким образом, потери

W,

которые

имеют место в системе

на интервале времени [t, Т\ при произвольном управлении, удовлетворяют уравнению (359), а потери W0 в оптимальной

157


системе— уравнению (353). Сравнивая формулы (353) с (359), устанавливаем, что

+ 2"tr

Ф (*,

X, и0) +

/*(*,

X, u0) ^ f - +

 

GQG*

д2Г 0

q>(t,

X,

u) + f*(t, X, u ) ~

+

 

dx dx

GQG

dzW

(3601

 

 

+

d x d x *

при произвольном допустимом законе управления и С U. Нера­ венство (360) представляет собой достаточное условие оптималь­ ности управления и0.

2. Оптимальное линейное управление

Рассмотрим применение метода динамического программиро­ вания на примере управления линейным объектом при квадра­ тичном критерии качества.

Пусть объект управления описывается линейным дифферен­

циальным уравнением

 

X = А (/) X + В (t) и + G(t) I,

(361)

где X — вектор выходных координат п измерений; и — вектор управлений q измерений; £ — вектор возмущающих воздей­ ствий т измерений со статистическими характеристиками, опи­ сываемыми формулой (343); А (t), В (t), G (t) — матрицы пере­ менных коэффициентов соответствующих размерностей.

Требуется минимизировать квадратичный функционал

т

I Іх* (т) V (т) X (т) +

 

 

 

 

о

 

 

 

 

 

 

 

+

и* (т) / (т) и (т) ] dx +

X* (Т) Ах (DJ,

 

(362)

где V (т),

/

(т) — симметричные

положительно

определенные

матрицы переменных коэффициентов размерностей

[п,

п]

и [q, q]

соответственно; А — симметричная

положительно

определенная

матрица постоянных коэффициентов размерности [п,

п].

потери

В

п. П

данной главы показано,

что минимальные

W о (t,

х) на интервале

управления

 

U, Т] удовлетворяют урав­

нению Веллмана (353), (354), где

в соответствии

с

форму­

лами (361)

и (362)

 

 

 

 

 

 

 

 

 

Ф (t, X,

и) = x*V (t) X + u*J (t) u\

 

 

 

 

 

%(T,

x) = x*Ax\

 

 

 

 

 

/ (t, X, и) = А (t) X + В (t) u.

158