Файл: Методы оптимизации в статистических задачах управления..pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 91
Скачиваний: 0
где К 2 (0 определяется тем же дифференциальным уравнением (370), (371), которое было получено в аналогичной задаче с точ ными измерениями фазовых координат.
Таким образом, для выработки оптимального управления необ ходимо сначала получить оценку фазовых координат объекта т (t) согласно формуле (418), а затем в соответствии с выражением (422) сформировать и0 (/). Иначе говоря, блок управления разделился на блок оптимальной обработки результатов измерений и опти мальный линейный регулятор, совпадающий с оптимальным ли нейным регулятором, в соответствующей детерминированной за даче. Этот результат является содержанием теоремы разделе ния [156].
6. Оптимальное управление линейным объектом при неточном знании времени управления
Рассмотрим управление линейным объектом, описываемым уравнением (361), при квадратичном показателе качества (362).
Впроцессе управления измеряётся вектор
у(/) = С (t) X + 1] (t).
Начальное распределение вектора фазовых координат объекта предполагается нормальным. Особенностью рассматриваемой за дачи является отсутствие точной информации о моменте оконча ния управления Т. Имеются лишь априорные сведения о моменте окончания управления, которые уточняются в процессе управле ния путем наблюдения процесса
z(t) = |
T + v(t), |
.. |
(425) |
где V (t) является нормально |
распределенным |
«белым» шумом |
|
с характеристиками |
|
|
|
Л4ѵ (t) — 0;
Mv ( t j V (t2) = S (t,) 6 (*!— f2).
Задача решается в предположении, что Т является случайной величиной с априорным распределением
Ро (Т) = ^1 (Т — а)\ (b — Т) ехр - |
1 ( Т - \ і о)2 ] |
(427) |
||
2 |
d0 _ |
|||
|
|
Закон распределения (427) будет в дальнейшем называться «усеченным» нормальным законом распределения. Заметим, что параметры р 0 и d0 усеченного нормального закона не являются математическим ожиданием и дисперсией случайной величины Т . Множитель Іг является нормирующим.
Случайные процессы І (t), г) (t), v (t), а также случайная величина Т считаются независимыми.
12 А . М . Б а т к о в |
177 |
Предполагается, что момент окончания управления Т, прини мающий случайное значение в интервале [а, Ь], фиксируется
всистеме, т. е. для t^> Т процесс управления прекращается.
Вп. 4 настоящей главы было показано, что апостериорное распределение вектора х (t) является нормальным с характери стиками m (t) и D (t), удовлетворяющими уравнениям (418), (419). Апостериорная плотность распределения Т определяется выра жением
Я it, Т) = /21 (Т - а) 1 (Ь - Т) ехр { - |
} , (428) |
где /2— нормирующий множитель, а параметры ц (t) и d (t) удовлетворяют следующей системе дифференциальных уравнений:
(X - — [id |
-j- zd |
; |
d = —d2- ^ ; |
(429) |
|
Ц (0) = |x0; |
d(0) = |
d0. |
Таким образом, апостериорный закон распределения Т яв ляется усеченным нормальным. Этот результат получен из урав нения для апостериорных вероятностей (411) при соответствующих задаче значениях параметров.
Поскольку «динамика» случайной величины Т отражается диф ференциальным уравнением
Т = 0,
то в формуле (411) следует положить / = 0, G = 0. Тогда, учи тывая формулу (425), на основании выражения (411) получим сле дующее уравнение относительно апостериорной плотности рас пределения q (t, Т):
dq(t, Т) |
= Т |
Т) Mt{z |
Л 2 — |
( г - Г ) 2 |
(430) |
dt |
|
|
4 S ( t ) |
|
Sit) . |
Можно убедиться в том, что закон распределения (428) удовлет воряет уравнению (430).
'При выводе формулы (428) не было учтено, что, кроме выра жения (425), есть еще один источник информации относительно Т. Как указывалось выше, в каждый момент времени t известно, закончен ли в данный момент процесс управления. Условие, что процесс управления не закончен к моменту времени t {t >>а), означает, что Т >■ t. Следовательно, нижняя граница усечения случайной величины Т равна t. Это означает, что соотношение (428) справедливо при t <і а, а при произвольном моменте управ-
178
ления 0 < |
t < |
b можно записать следующее выражение для |
|||
Я V, Т): |
q (t, |
Т) = l (t)\ (Г — ä)\ (Т — t)\(b — Т) X |
|
||
|
|
||||
|
|
X exp |
1 ( Т - и (0)21 |
(431) |
|
|
|
2 |
d { t ) J ’ |
||
|
|
|
|
||
где (я (t) и |
d (t) |
удовлетворяют |
уравнениям (429). |
|
Поскольку апостериорная дисперсионная матрица D (t) фазо вых координат объекта и параметр d (t) закона распределения Т (431) могут быть рассчитаны априори согласно уравнениям (419), (429), то достаточными координатами в рассматриваемой задаче управления являются вектор m (t) и скаляр р (t). Таким образом, оптимальное управление и функция Веллмана зависят от аргу
ментов t, |
m, р : и0 (t, |
пг, р) и W 0 |
(t, пг, р). |
В связи с тем, что момент окончания управления Т является |
|||
случайной |
величиной, |
уравнение |
Веллмана имеет определен |
ные особенности. Рассматривая полную группу несовместных со
бытий t <3 Т < і + А и ^ + А < ' Т ' |
< |
Ь, представим W 0 (t, |
m, р) |
|||||||||
согласно формуле полной вероятности: |
|
|
|
|
|
|
||||||
|
Г 0 (t, m, р) |
= |
min (Р, [^ < |
|
£ + А] |
X |
|
|
||||
|
|
и |
( т ) |
£ [ / ( |
|
|
|
|
|
|
|
|
|
|
x£[f, &] |
|
|
|
|
|
|
|
|
||
X М J (х* (т) V (т) X (т) + и* (т) J (т) и (т)) dx + |
|
|
||||||||||
|
+ X * (Т) Ах (Т) I t <3 Г < t + А, m (t) = m, |
|
|
|||||||||
|
Р (t) = Р |
-f |
РД і -(- А |
Г с |
6] |
X |
|
|
|
|||
|
X М } (х* (т) V (т) X (т) + |
|
|
|
|
|||||||
|
+ «* (т) J (т) и (т)) dx + |
|
|
|
|
|
||||||
|
т |
|
|
|
|
|
|
|
|
|
|
|
|
+ j (х* (т) |
V (т) л; (т) + |
и* (т) J (т) и (т)) dx+ |
|
|
|||||||
|
t + A |
|
|
|
|
|
|
|
|
|
|
|
+ X * |
{Т) Ах (Т) I t + Д < |
Т < b, |
m (t) — |
пг, |
р (t) |
= р |
• |
(432) |
||||
В соотношении (432) под Pt [t <і Т |
t |
t |
А] |
понимается апо |
||||||||
стериорная вероятность события t |
■< Т с |
+ |
А, которая с точ |
|||||||||
ностью до о (А) равна |
Aq (t, T)\T=t |
= Aq |
{t, |
t). |
Аналогичный |
|||||||
смысл |
вкладывается в |
Pt [t |
А <і Т |
< Ь ] . |
Указанные |
апосте |
риорные вероятности согласно формуле (431) полностью опреде ляются значением р (t), причем при t < a, q (t, t) = 0.
12* |
179 |
Несложные преобразования выражения (432) приводят к сле дующему соотношению:
W 0 (t, т, р) = min {Aq (t, t) [m*Am + tr (D (t) Л)] + U(ZU
+ А [m*V (t) m + tr (D (t), V (f)) + u*J (t) u] +
|
+ [1 — Aq (t, |
t)) M {W0 (t + |
A, m (t + A), |
|
|||||
|
p (t -f |
А) I m (t) = m, p |
(t) |
= p]}. |
|
|
|||
Теперь, применяя |
описанную в и. I гл. |
IV процедуру разло |
|||||||
жения |
W 0 (t + A, m (t + |
A); |
p (t + А)) |
в окрестности |
точки |
||||
t + A, |
m, p, получим |
с |
использованием уравнений |
(418), |
(429) |
||||
в пределе при. А —>0 следующее уравнение Веллмана: |
|
|
|||||||
|
— dw0 (t т, ц) _ |
mjn ( ^ |
^ \т*Ат + |
tr (D (/) Л)] -f- |
|
||||
|
0t |
и (Z и |
I |
|
|
|
|
|
|
|
+ \m*V (t) т + |
tr {D (t) V (/)) + |
и*J {t) и] — |
|
|
||||
. - |
q(i,t)W0 (t, m, p) + |
[A(t) m + В (/) u f dW°{t^ |
^ + |
|
|||||
|
+ 4 - tr ГD{t)C*{t)R-'(t)C{t)D{t) |
d2W0 (t, m, p) |
|
|
|||||
|
|
|
|
|
|
|
dm dm* |
|
|
|
+ |
1 |
d2(t) |
d*W0(t,m,ii) |
|
|
(433) |
||
|
2 |
S(t) |
öpa |
|
|
|
|||
Уравнение (433) должно решаться при условии |
|
|
|||||||
|
W 0 (Ь, т, |
р) = т*Ат + tr[D |
(b) Л]. |
|
(434) |
В связи со сложным характером зависимости q (/, t) от коор динаты р общего решения уравнения (433) найти не удается. Рассмотрим частный случай, когда отсутствуют измерения z (t), что равносильно S —>■оо. При этом р (t) — р 0 = const, d (t) = = d0 — const и согласно формуле (431)
q (t, t) = l (t) 1 (t — a) |
1 (b — t) exp |
1 Р-Цо)2] |
(435) |
||
2 |
d0 _ |
||||
|
|
|
|||
может быть рассчитано априорно. Величина р (t) |
исключается |
из числа достаточных координат и уравнение Веллмана (433)
принимает следующий |
вид: |
|
|
— dW0 (t |
от) _ |
mjn ( ^ ^ [m*Aт + |
tr (D (t) Л)] f |
0t |
uflD'* |
|
|
+ [m*V (t) m -f u*J (t) u] — q (t, t) W0(t, m) + |
|||
|
-ИЛ ( t ) m ^ B ( t ) |
} + |
|
— tr |
D(t) C* (t) R-1 (t) C (i) D (/) d2r 0 (t, H l) |
||
2 v |
|
|
dm dm* j |
180
При отсутствии жесткого ограничения на управление проце дура решения уравнения Веллмана не отличается от описанной в п. 2 гл. IV. При этом функция Беллмйна W 0 (і, т) представ- ■- ляется квадратичной формой по переменной т:
Wq (t, т) = ko (t) + kl (t) m + m K2 (t) m,
где k 0 (t), k ! (t) и K 2 (/) удовлетворяют системе уравнений
—ko = — ± - k \ B J - 1B'kl +
+tr (DC*R~jCDK2) + tr (DV) —
— q {t, t) (k0— tr (DA)); |
^436) |
—k x = A* k 1— K^BJ^Bkx — q (t, t) ki,
— K 2 = V + A*Ka + K 2A — .
— KzBJ-1B*K2 + q ( t , t ) ( A — Kz).
Поскольку функция Веллмана удовлетворяет условию (4341, то коэффициенты k 0, k x, имеют следующие значения при t — b:
ko (b) = tr |
(D (b) Л); I |
|
||
ki (Ь) |
= |
0; |
- |
(437) |
К 2 (Ь) |
= |
А. |
J |
|
Из формул (436), (437) следует, |
что |
k x (t) |
= 0. |
j Согласно уравнению Веллмана оптимальное управление свя
зано с функцией Веллмана |
следующим соотношением: |
|
иО— |
i_ j~lß* dw° В’ т) |
|
2 |
dm |
Подставляя выражение для W0 (t, т) в виде квадратичной формы и учитывая, что k x (і) = 0, получим:
и 0 — —J~1B*K2m.
Пример. Рассмотрим задачу оптимального управления объектом второго порядка, описываемым дифференциальным уравнением
Хі |
0 1 |
хх |
+ |
0 и + |
h |
|
0 1 |
*2 |
1 |
§2 |
. Параметры критерия оптимальности (362) матрицы V, J, А предполагаются не зависящими от времени:
»11 |
»12 |
I ; J = 1 Л = |
Хц |
^22 |
»21 |
»22 |
1 |
Я2і |
181