2. Оптимизация управления линейным объектом по квадратичному критерию
Рассмотрим применение стохастического принципа макси мума к задаче определения оптимального закона управления ли нейным объектом:
|
|
= |
Лх + Ви + |
|
I, |
X (0) |
= |
х°, |
(482) |
где х, и, g — векторы |
размерности |
п, |
q |
и |
п |
соответственно; |
А и В — зависящие от времени |
матрицы |
размерности [п, п] и |
ln, |
q\. |
является белым шумом, т. е. |
|
|
Процесс I (t) |
|
|
|
|
М U (*)] |
= |
0; |
|
|
|
|
|
|
|
М U(*i) £* (*а)1 = |
|
|
|
|
|
|
= Q( t i ) b( t 1— |
ti), |
|
|
|
где |
Q (ti) — матрица |
размерности |
[п, |
п]. |
|
|
|
|
Предположим, что управление и (t) осуществляется на основе |
наблюдения вектора у (/) размерности г вида |
|
|
|
|
у (t) = Сх (t) + |
г) (і), |
|
|
где С — матрица |
размерности |
[г, п]. |
|
|
|
|
|
Процесс г) (t) |
является белым шумом, т. е. |
|
|
|
|
М [г] (0 ] |
= |
0; |
|
|
|
|
М bl ( t j |
i f (^ )l = |
R (^) 6 (tt — |
Іг). |
Управление и (t) определено на интервале (0, Т) и оптимально, если оно минимизирует квадратичный функционал
|
I |
|
/ = М |
(Т) Ах (Т) + \ и* (0 J (t) и (t) dt |
(483) |
где Л — положительная матрица размерности [п, п], J (t) — по ложительно определенная матрица размерности [q, q].
Согласно выражению (479) управление, обеспечивающее ми нимум функционала (483), определяется из условия
max М [Я (х, ф, и, t) |
= 0. |
(484) |
и а) |
|
|
На основании определения функции Я для объекта (482) и функционала (479) имеем
Я (х, ф, и, f) = ф* (t) [Ах +
+ Ви + I (t)] + фо u*Ju. |
(485) |
Система уравнений для вектор-функции ф(^) из |
системы (477) |
и условий (468) запишется: |
|
-£■ = _ Л* ф; ф (7) = — 2Ах (Т). |
(486) |
Рассмотрим случай, когда на и (t) не наложено ограничений. Покажем, что при этом максимум, определяемый формулой (484), является стационарной точкой условного математического ожи дания функции Н (ф, X, и, t). Для этого найдем управление из условия равенства нулю частной производной по векторфункции и {t):
Поскольку и (t) является физически осуществимым управле нием, т. е. зависит только от прошлых значений у (t), оно является не случайным по отношению к операции условного усреднения в формуле (487) и может быть вынесено за знак математического ожидания. Отсюда, выполняя дифференцирование выражения (487) при условии (485), получаем, что и (t) определяется соотно шением
Решение системы (486) при заданных конечных условиях ф (Т) может быть представлено в виде
ф (і) = W* (Т, t) ф (Г),
где W (t, т) — матрица импульсных переходных функций си стемы (486), удовлетворяющая системе дифференциальных урав нений
|
dW(i, т) |
= AW (t, т); |
|
|
dt |
|
|
|
W (т, т) = Е, |
|
где Е — единичная |
матрица |
размерности [п, п]. |
|
Следовательно, |
с учетом |
уравнений (486), можно записать: |
и (О - |
J-1B*W* (Т, f) AM ['*(7)1,$] |
(489) |
Отсюда следует, что оптимальное управление определяется
вкаждый момент времени оценкой значений фазовых координат
вмомент окончания управления.
Оценка конечного значения фазовой координаты может быть выражена для линейного объекта (482) через оценку текущего значения вектора х (t) на основе наблюдения у (t) на интервале
(О, О .
Обозначая |
для |
сокращения |
записи |
|
|
|
|
|
|
|
G (7, 0 |
= J~1B*W* (7, О Л; |
|
|
|
|
|
|
|
м [х |
|
= |
х м |
|
( 490) |
и учитывая, |
что |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X (Т) — W (7, О X (0 + |
} Г (Г, т) X |
|
|
|
|
|
|
|
г |
|
|
|
|
|
|
|
|
X [Вы (т) + I* (т)] dr\ |
|
|
|
|
|
|
|
|
|
4 І Г 0’ |
x > t ; |
|
|
|
|
|
получаем |
Af [и ( X ) l^] |
= G(7, T )M [x (T ) |
Vo I’ |
|
|
|
|
|
|
|
|
|
|
|
|
|
М[х(Т)\у^ = W(T, |
t)x(t) + |
|
|
|
|
J W(T, T ) |
BG (T, T ) dxM\x{T) ! |
4 |
|
Решение этой системы линейных алгебраических уравнений |
может быть представлено в виде |
|
|
|
|
|
|
М |
|
|
q - 1 (7 , t) |
№ (7, |
t) |
X |
( О , |
(491) |
где д~г — матрица, |
обратная |
матрице |
|
|
|
|
|
|
|
|
|
т |
|
|
|
|
т) |
|
|
|
q (T ,f) |
= Е — J |
W (Т , т) BG (7, |
dr. |
|
|
|
|
|
t |
|
|
|
|
|
|
) |
|
|
|
|
|
|
|
|
|
|
|
Подставляя выражение (491) в формулу (489) и учитывая |
соотношение (490), получаем окончательно: |
|
|
|
|
|
и (0 = |
G (7, |
f) q - 1 (7, i) |
W (7, |
t) x (t). |
(492) |
Связь и (t) с X |
(t) может быть представлена в виде |
|
|
|
и {t) = |
J~1B*a (t) X (t), |
|
|
|
|
(493) |
где матрица a (t) размерности [п, п ] является решением дифферен циального уравнения типа Риккати.
Действительно, сравнивая выражения (493) и (492) и учиты вая формулы (489) и (490), получим
a (t) = W* (7, t) Л<7-1 (7, 0 W (7, t). |
(494) |
Преобразуем формулу (494). Для этого умножим выражение (494) на а (t), W * ' 1, W*, q (Т , t), А-1 и, используя выражение (490), получим
W (Т, t) а - 1 (t) W* (Т , і) =
т
= Л -1 — { W (Т, т) BJW* (Т, %) dr. t
Дифференцируя обе части этого выражения по t и умножая на а (t) слева и справа, получим
-jjj-a (t) = — аА — А * а — aBJ~1B*a. |
(495) |
Граничное условие для уравнения (494) определяется при t = T \
а (Т) = А.
При выводе уравнения (495) были использованы соотношения
|
JWJZlI L = — W (Т, t) А (0; |
W (Т, |
Т) = Е\ |
|
dt |
|
|
|
|
dW* (Т, t) _ |
■А* (t) W* (T, |
t), W(T, |
T) — E. |
|
dt |
|
|
|
|
Оценка текущих фазовых координат х (t) может быть опре делена решением уравнений Калмана, вывод которых приведен
в предыдущей |
главе: |
|
|
|
~ |
= А х + |
В и + |
DC*R-1 [у (t) — Сх]\ |
(496) |
|
X (0) = |
М [X0]; |
|
|
dD = AD + DA* — DC*R~1CD + Q; |
(497) |
|
dt |
|
|
|
D ( 0 ) = M |
{[x° - |
X (*„)] [x° - X (/„)]*}, |
|
где D (t) — дисперсионная матрица оценки x (t).
3. Задача оптимизации при жестком ограничении управления
Рассмотрим применение стохастического принципа максимума к задаче определения оптимального управления и (t) линейным объектом
в случае, |
когда управление в каждой реализации |
принадлежит |
к замкнутой области U с фиксированной границей |
|
|
и (0 6 U0. |
(499) |
Например, для скалярного управления условие (499) имеет вид |
|
I и (і) I < U (t), где U > 0. |
(500) |
Пусть, |
как и ранее, управление, минимизирующее функционал |
|
I = М [х* (Т) Ах (Г)], |
|
осуществляется на основе измерения вектора у |
(і) размерности г |
Поскольку |
у = Сх + |
г]. |
|
|
|
|
Н {х, ф, |
и, t) = ф* (t) |
[Ах+ Ви + |
И; |
5 = - Л * ф; Ф(Т’) = — 2Ах(Т), |
(501) |
|
управление должно |
обеспечивать максимум |
|
|
М |ф* (t) Ви (t) |
|
при выполнении условия (500).
Очевидно, что максимум этой функции достигается на физи
чески |
осуществимом |
управлении |
|
|
|
|
и (0 = и (у*0, |
t) |
|
вида |
|
|
|
|
|
и (t) |
= U (t) sign В* ф (t), |
(502) |
где |
|
|
|
|
|
|
ф (0 = Л4 [ф (f) |
|
|
|
|
+ 1, если В *ф (/) |
> 0 . |
|
sign 5*ф (t) = |
|
|
|
|
— 1, если B*ty(t)<<0. |
Для |
определения |
ф (t) применим |
метод дифференциальных |
уравнений типа Калмана. |
|
|
Введем вектор z (t) размерности 2п: |
|
|
|
|
Ф (о |
|
|
|
|
2(0 |
|
|
|
|
X (0 |
|
|
удовлетворяющий векторному уравнению |
|
|
^ |
= а г + b u + |
h (0. |
|