Файл: Методы оптимизации в статистических задачах управления..pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 96
Скачиваний: 0
Измеритель также |
предполагается линейным |
|
|
h (t, X) = С (t) X, |
(414) |
где С (і) — матрица |
переменных коэффициентов |
размерности |
[г, п\. Допустим, что начальное распределение вероятностей
вектора х нормально, т. е. |
|
Ро (х) = ]f(2n)n\D0 exp |
{x — mü)*D0l {x— m0) . (415) |
При сформулированных условиях уравнение (411) прини мает вид
A S BTL = ~ ( i ) * m ( t ) x + B(t)u)q(i, х)] +
+ 4 - t r ( G ( / ) Q ( / ) G * ( n ^ # ) +
+ -у <7(*» х) [Mt (у — С (О X)* R ' 1(/) {у— С (t) х) —
- ( y - C ( t ) x ) * R - ' ( t ) ( y - C { t ) x ) ] . |
(416) |
Нетрудно убедиться, что уравнению (416) при выполнении условия (415) удовлетворяет решение
q (t, x) = |
е х р ---- -- |
(х — т (t))*D~x(t) (х ■ m (/))], |
]Л(2я)« | D ( 0
(417)
где функции m (t), D (t) удовлетворяют системе обыкновенных дифференциальных уравнений
т — А т В и ^ \ - DC*R~X{у — Ст)\ |
(418) |
||
b = ADA-DA* + GQG*— DC*R-1CD |
(419) |
||
при начальных условиях |
= |
т 0; |
|
т (0) |
|
||
D (0) |
= |
D 0. |
|
Этот результат можно получить с помощью перехода в выра жении (416) от q ( t , х) к характеристической функции g ( t , X), как это было сделано в п. 4 гл. I.
Апостериорная характеристическая функция g (t, 7,) удовле творяет следующему уравнению в частных производных:
д8іа ~ ~ = X* А (0 -д8^ і ~ + ß*B (t) ug (t, X) —
— ±-X*G(t)Q(t)G*(t)Kg(t, X) +
173
+ 4 - 8 (t, Ц Mt [(у - C (t) x f |
R-1 (0 ( у - C (i) X)] - |
|
• - 4 - S (t, *•) У* R-1(*) У - І ( ^ y |
§ {t, ц C* (t) R' 1(t) у + |
|
+ 4 - tr ( c * ( 0 /? - 1( 0 C ( 0 ^ ^ - ) . |
(420) |
|
i |
|
|
При отсутствии измерений фазовых координат объекта, что равносильно условию R (і) оо или R " 1 (t) —* 0, уравнение (420) совпадает с полученным ранее уравнением (111).
Таким образом, в рассматриваемом частном случае апосте риорный закон распределения фазовых координат объекта х (t) явдяется нормальным. Согласно формуле (419) апостериорная дисперсионная матрица D (t) не зависит от измерений у (t) и может быть рассчитана априорно. Тогда вектор апостериорного математического ожидания т (t) является решением линейного нестационарного дифференциального уравнения (418). Этот ре зультат, впервые порученный Калманом [133], был развит дру гими авторами [5, 15, 58, 91, 134, 155].
Решение уравнения (411) для апостериорных вероятностей
вобщем случае нелинейного объекта и нелинейного измерителя возможно лишь приближенными численными методами. Один из таких методов [28] дает возможность составить систему обык новенных дифференциальных уравнений для семиинвариантов закона распределения q (t, х). Эта система не замкнута. Однако учитывая быструю сходимость к нулю семиинвариантов при воз растании их порядка, можно положить равными нулю семиинва рианты порядка выше k (выбор k связан с условиями задачи). Это дает замкнутую систему обыкновенных дифференциальных уравнений, приближенно определяющих семиинварианты до k-ro порядка. Если положить k = 2, то описываемый подход будет равносилен проведению статистической линеаризации.
5.Достаточные координаты
Вп. 3 настоящей главы указывалось, что при наличии шумов
вканале измерения фазовых координат объекта управление является функционалом относительно апостериорной плотности вероятностей q (t, х) фазовых координат объекта (381). То же можно сказать и о функции Веллмана W 0, которая является теку щей оценкой минимальных потерь на интервале времени [t, Т]:
т
W0= min М I ф [т, X (т), и (т)] dr + к [Т, X (Т)\ I q (/, х)
и (т)££/ т£[*, Г]
= W0 (t,q(t,x)). |
(421) |
174
Апостериорная плотность распределения вероятностей q (t, х) является случайной, так как в соответствии с формулой (411) зависит от случайных наблюдений у (t). Однако значения q (t, х) измеряются точно. Таким образом, путем перехода от л: (t) к q (/, х) задача сведена к случаю точного наблюдения координат, но при этом размерность наблюдаемого вектора возросла от п до бесконечности. Это обстоятельство и объясняет сложность решения задачи оптимального управления при неточных изме рениях. Функция Веллмана (421) должна определяться из функ ционального уравнения, которое несложно получить, повторяя рассуждения, приведенные в п. 1 данной главы:
W0 (t, q (t, x) = min ІА f dxq {t, x) ф (t, я, и) -f о (А) +
u(lU { |
J |
|
+ N1 [WQ(t -)- A, |
q (t -f- A, x)) I q (t, x)]j. |
(422) |
Математическое ожидание в формуле (422) должно вычисляться в соответствии с выражением (411). Решение уравнения (422)
должно удовлетворять очевидному условию |
|
|
W0 (T, q(T, x)) = \dxq{T, х)Х(Т, |
х). |
(423) |
Решение задачи существенно упрощается, если удается опре' |
||
делить конечное число достаточных координат |
[94]. |
К достаточ |
ным координатам предъявляются следующие требования. Прежде всего они должны быть достаточны для вычисления текущих потерь. Обозначим через у (t) вектор достаточных координат. Сформулированное требование означает, что в формулах (422), (423)
J dxq (t, |
х) ф ( t, X, и) = |
а ( t, у (t))\ |
J dxq (Т, |
X) X (Т , X) = |
ß (Г, у (Т)). |
Другое требование к достаточным координатам состоит в том что они должны полностью определять будущую эволюцию фазо вых координат объекта. И, наконец, они должны быть достаточны для указания ограничений выбора управления на любом интер вале времени.
Если удается определить конечное число достаточных коор
динат |
у (/), |
то оптимальное управление и функция Веллмана |
могут |
быть |
представлены в форме и0 (t, у (t)), W0 (t, у (t)). |
Соответственно поскольку достаточные координаты точно наблю даемы, задача расчета оптимального управления сводится к рас смотренной в п. 1 настоящей главы.
В качестве примера применения идеи достаточных координат рассмотрим управление линейным объектом, описываемым урав нением (361), при критерии оптимальности (362), когда измеряется вектор
у = С (t) X + г] (t).
175
Предполагается, что на управление и (t) не наложено жесткого ограничения, а начальное распределение х нормально.
Выше было показано, что при сформулированных условиях апостериорный закон распределения х (t) является нормальным. Следовательно, апостериорные математическое ожидание т (t) и дисперсионная матрица D (t) являются достаточными статисти ками закона распределения и полностью определяют будущую эволюцию поведения фазовых координат объекта. Нетрудно ви деть, что т (t) и D (t) удовлетворяют всем требованиям, предъяв ляемым к достаточным координатам. Координаты D (t) могут быть рассчитаны априорно согласно формуле (419), так как не связаны с управлением и (t) и измерениями (/ (t). Поэтому D (t), как извест ная априорно функция времени, может быть исключена из числа достаточных координат. Таким образом, управление и функция Веллмана являются функциями времени і и т (t).
Вывод уравнения в частных производных для функции Велл мана
( Т
IV0 (t, m) = min М I [ [х* (т) V (т) х (т) +
u ( x ) f - U /
т€ [С п
+и* (т) J (т) и (т)] dr 4 - X* (Т) Ах (Т) \m(t) — m
проводится с использованием уравнения (418) методом, изложен ным в п. I данной главы. При этом необходимо учесть, что нали чие в формуле (418) члена DC*R~X (у — Cm) означает воздействие «белого» шума интенсивности DC* R ~ 1CD. В результате получим уравнение
— |
(J; m) = min |
(m*V (0 m + tr [D(t) V (01 + |
|||
|
at |
u^U- |
\ |
|
|
+ |
u*J (0 U+ [A (t)m + B (0 ul* dW°^m m)- + |
||||
|
tr |
D (0 c* (0 |
R -1 (t) C (0 |
D |
d W { t, m) 1) |
|
dm dm* _ } ’ |
||||
|
|
|
|
|
W0 (T , m) = m*Am + tr[D (T) Л].
Как и при решении задачи управления линейным объектом при точном измерении фазовых координат (см. п. 2 гл. IV), функция Веллмана ищется в виде квадратичной формы:
Wo (0 |
m) = ko (0 + |
k\ (0 m + |
m R 2 (0 m - |
Здесь k0 (0; |
&i (0 и Кг (0 |
имеют то |
же содержание, что и |
в формуле (368). Повторяя тот же ход решения уравнения Велл
мана, что и в п. 2, гл. IV, |
получим |
|
«о (0 |
= — J - 1 В*Кгт, |
(424) |
176