Файл: Методы оптимизации в статистических задачах управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 91

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

где К 2 (0 определяется тем же дифференциальным уравнением (370), (371), которое было получено в аналогичной задаче с точ­ ными измерениями фазовых координат.

Таким образом, для выработки оптимального управления необ­ ходимо сначала получить оценку фазовых координат объекта т (t) согласно формуле (418), а затем в соответствии с выражением (422) сформировать и0 (/). Иначе говоря, блок управления разделился на блок оптимальной обработки результатов измерений и опти­ мальный линейный регулятор, совпадающий с оптимальным ли­ нейным регулятором, в соответствующей детерминированной за­ даче. Этот результат является содержанием теоремы разделе­ ния [156].

6. Оптимальное управление линейным объектом при неточном знании времени управления

Рассмотрим управление линейным объектом, описываемым уравнением (361), при квадратичном показателе качества (362).

Впроцессе управления измеряётся вектор

у(/) = С (t) X + 1] (t).

Начальное распределение вектора фазовых координат объекта предполагается нормальным. Особенностью рассматриваемой за­ дачи является отсутствие точной информации о моменте оконча­ ния управления Т. Имеются лишь априорные сведения о моменте окончания управления, которые уточняются в процессе управле­ ния путем наблюдения процесса

z(t) =

T + v(t),

..

(425)

где V (t) является нормально

распределенным

«белым» шумом

с характеристиками

 

 

 

Л4ѵ (t) — 0;

Mv ( t j V (t2) = S (t,) 6 (*!— f2).

Задача решается в предположении, что Т является случайной величиной с априорным распределением

Ро (Т) = ^1 а)\ (b — Т) ехр -

1 ( Т - \ і о)2 ]

(427)

2

d0 _

 

 

Закон распределения (427) будет в дальнейшем называться «усеченным» нормальным законом распределения. Заметим, что параметры р 0 и d0 усеченного нормального закона не являются математическим ожиданием и дисперсией случайной величины Т . Множитель Іг является нормирующим.

Случайные процессы І (t), г) (t), v (t), а также случайная величина Т считаются независимыми.

12 А . М . Б а т к о в

177


Предполагается, что момент окончания управления Т, прини­ мающий случайное значение в интервале [а, Ь], фиксируется

всистеме, т. е. для t^> Т процесс управления прекращается.

Вп. 4 настоящей главы было показано, что апостериорное распределение вектора х (t) является нормальным с характери­ стиками m (t) и D (t), удовлетворяющими уравнениям (418), (419). Апостериорная плотность распределения Т определяется выра­ жением

Я it, Т) = /21 (Т - а) 1 (Ь - Т) ехр { -

} , (428)

где /2— нормирующий множитель, а параметры ц (t) и d (t) удовлетворяют следующей системе дифференциальных уравнений:

(X - — [id

-j- zd

;

d = d2- ^ ;

(429)

Ц (0) = |x0;

d(0) =

d0.

Таким образом, апостериорный закон распределения Т яв­ ляется усеченным нормальным. Этот результат получен из урав­ нения для апостериорных вероятностей (411) при соответствующих задаче значениях параметров.

Поскольку «динамика» случайной величины Т отражается диф­ ференциальным уравнением

Т = 0,

то в формуле (411) следует положить / = 0, G = 0. Тогда, учи­ тывая формулу (425), на основании выражения (411) получим сле­ дующее уравнение относительно апостериорной плотности рас­ пределения q (t, Т):

dq(t, Т)

= Т

Т) Mt{z

Л 2 —

( г - Г ) 2

(430)

dt

 

 

4 S ( t )

 

Sit) .

Можно убедиться в том, что закон распределения (428) удовлет­ воряет уравнению (430).

'При выводе формулы (428) не было учтено, что, кроме выра­ жения (425), есть еще один источник информации относительно Т. Как указывалось выше, в каждый момент времени t известно, закончен ли в данный момент процесс управления. Условие, что процесс управления не закончен к моменту времени t {t >>а), означает, что Т >■ t. Следовательно, нижняя граница усечения случайной величины Т равна t. Это означает, что соотношение (428) справедливо при t <і а, а при произвольном моменте управ-

178


ления 0 <

t <

b можно записать следующее выражение для

Я V, Т):

q (t,

Т) = l (t)\ (Г — ä)\ (Т — t)\(b — Т) X

 

 

 

 

 

X exp

1 ( Т - и (0)21

(431)

 

 

2

d { t ) J ’

 

 

 

 

где (я (t) и

d (t)

удовлетворяют

уравнениям (429).

 

Поскольку апостериорная дисперсионная матрица D (t) фазо­ вых координат объекта и параметр d (t) закона распределения Т (431) могут быть рассчитаны априори согласно уравнениям (419), (429), то достаточными координатами в рассматриваемой задаче управления являются вектор m (t) и скаляр р (t). Таким образом, оптимальное управление и функция Веллмана зависят от аргу­

ментов t,

m, р : и0 (t,

пг, р) и W 0

(t, пг, р).

В связи с тем, что момент окончания управления Т является

случайной

величиной,

уравнение

Веллмана имеет определен­

ные особенности. Рассматривая полную группу несовместных со­

бытий t <3 Т < і + А и ^ + А < ' Т '

<

Ь, представим W 0 (t,

m, р)

согласно формуле полной вероятности:

 

 

 

 

 

 

 

Г 0 (t, m, р)

=

min (Р, [^ <

 

£ + А]

X

 

 

 

 

и

( т )

£ [ / (

 

 

 

 

 

 

 

 

 

 

x£[f, &]

 

 

 

 

 

 

 

 

X М J (х* (т) V (т) X (т) + и* (т) J (т) и (т)) dx +

 

 

 

+ X * (Т) Ах (Т) I t <3 Г < t + А, m (t) = m,

 

 

 

Р (t) = Р

-f

РД і -(- А

Г с

6]

X

 

 

 

 

X М } (х* (т) V (т) X (т) +

 

 

 

 

 

+ «* (т) J (т) и (т)) dx +

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

+ j (х* (т)

V (т) л; (т) +

и* (т) J (т) и (т)) dx+

 

 

 

t + A

 

 

 

 

 

 

 

 

 

 

 

+ X *

{Т) Ах (Т) I t + Д <

Т < b,

m (t)

пг,

р (t)

= р

(432)

В соотношении (432) под Pt [t <і Т

t

t

А]

понимается апо­

стериорная вероятность события t

■< Т с

+

А, которая с точ­

ностью до о (А) равна

Aq (t, T)\T=t

= Aq

{t,

t).

Аналогичный

смысл

вкладывается в

Pt [t

А <і Т

< Ь ] .

Указанные

апосте­

риорные вероятности согласно формуле (431) полностью опреде­ ляются значением р (t), причем при t < a, q (t, t) = 0.

12*

179


Несложные преобразования выражения (432) приводят к сле­ дующему соотношению:

W 0 (t, т, р) = min {Aq (t, t) [m*Am + tr (D (t) Л)] + U(ZU

+ А [m*V (t) m + tr (D (t), V (f)) + u*J (t) u] +

 

+ [1 — Aq (t,

t)) M {W0 (t +

A, m (t + A),

 

 

p (t -f

А) I m (t) = m, p

(t)

= p]}.

 

 

Теперь, применяя

описанную в и. I гл.

IV процедуру разло­

жения

W 0 (t + A, m (t +

A);

p (t + А))

в окрестности

точки

t + A,

m, p, получим

с

использованием уравнений

(418),

(429)

в пределе при. А —>0 следующее уравнение Веллмана:

 

 

 

dw0 (t т, ц) _

mjn ( ^

^ \т*Ат +

tr (D (/) Л)] -f-

 

 

0t

и (Z и

I

 

 

 

 

 

 

+ \m*V (t) т +

tr {D (t) V (/)) +

и*J {t) и] —

 

 

. -

q(i,t)W0 (t, m, p) +

[A(t) m + В (/) u f dW°{t^

^ +

 

 

+ 4 - tr ГD{t)C*{t)R-'(t)C{t)D{t)

d2W0 (t, m, p)

 

 

 

 

 

 

 

 

 

dm dm*

 

 

 

+

1

d2(t)

d*W0(t,m,ii)

 

 

(433)

 

2

S(t)

öpa

 

 

 

Уравнение (433) должно решаться при условии

 

 

 

W 0 (Ь, т,

р) = т*Ат + tr[D

(b) Л].

 

(434)

В связи со сложным характером зависимости q (/, t) от коор­ динаты р общего решения уравнения (433) найти не удается. Рассмотрим частный случай, когда отсутствуют измерения z (t), что равносильно S —>■оо. При этом р (t) — р 0 = const, d (t) = = d0 — const и согласно формуле (431)

q (t, t) = l (t) 1 (t a)

1 (b t) exp

1 Р-Цо)2]

(435)

2

d0 _

 

 

 

может быть рассчитано априорно. Величина р (t)

исключается

из числа достаточных координат и уравнение Веллмана (433)

принимает следующий

вид:

 

dW0 (t

от) _

mjn ( ^ ^ [m*Aт +

tr (D (t) Л)] f

0t

uflD'*

 

+ [m*V (t) m -f u*J (t) u] q (t, t) W0(t, m) +

 

-ИЛ ( t ) m ^ B ( t )

} +

— tr

D(t) C* (t) R-1 (t) C (i) D (/) d2r 0 (t, H l)

2 v

 

 

dm dm* j

180


При отсутствии жесткого ограничения на управление проце­ дура решения уравнения Веллмана не отличается от описанной в п. 2 гл. IV. При этом функция Беллмйна W 0 (і, т) представ- ■- ляется квадратичной формой по переменной т:

Wq (t, т) = ko (t) + kl (t) m + m K2 (t) m,

где k 0 (t), k ! (t) и K 2 (/) удовлетворяют системе уравнений

ko = — ± - k \ B J - 1B'kl +

+tr (DC*R~jCDK2) + tr (DV)

— q {t, t) (k0— tr (DA));

^436)

k x = A* k 1K^BJ^Bkx q (t, t) ki,

— K 2 = V + A*Ka + K 2A — .

— KzBJ-1B*K2 + q ( t , t ) ( A — Kz).

Поскольку функция Веллмана удовлетворяет условию (4341, то коэффициенты k 0, k x, имеют следующие значения при t — b:

ko (b) = tr

(D (b) Л); I

 

ki (Ь)

=

0;

-

(437)

К 2 (Ь)

=

А.

J

 

Из формул (436), (437) следует,

что

k x (t)

= 0.

j Согласно уравнению Веллмана оптимальное управление свя

зано с функцией Веллмана

следующим соотношением:

иО—

i_ j~lß* dw° В’ т)

2

dm

Подставляя выражение для W0 (t, т) в виде квадратичной формы и учитывая, что k x (і) = 0, получим:

и 0 — J~1B*K2m.

Пример. Рассмотрим задачу оптимального управления объектом второго порядка, описываемым дифференциальным уравнением

Хі

0 1

хх

+

0 и +

h

 

0 1

*2

1

§2

. Параметры критерия оптимальности (362) матрицы V, J, А предполагаются не зависящими от времени:

»11

»12

I ; J = 1 Л =

Хц

^22

»21

»22

1

Я2і

181