Файл: Специальные разделы теории управления. Оптимальное управление.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 05.05.2024
Просмотров: 75
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
x) – минимальное значение критерия качества (43) на оптимальных траекториях системы
(41), начинающихся в точке (t, x) и заканчивающихся в фиксированной точке (t
1
, x
1
),
∫
∈
=
1
)
,
,
(
min
)
,
(
0
t
t
U
dt
t
f
t
V
m
u
x
x
u
(44) на траекториях (1) из (t, x) в (t
1
, x
1
).
Функция V(t, x) является аналогом «действия» в аналитической механике и «экстремального интеграла» в классическом вариационном исчислении.
Если функция V(t, x) существует и является непрерывно дифференцируемой по (t, x), то она удовлетворяет основному уравнению динамического программирования, которое является необходимым и достаточным условием, – дифференциальному уравне- нию в частных производных первого порядка (уравнению Гамильтона–Беллмана)
0
)
,
,
,
(
min
=
∂
∂
+
∂
∂
∈
u
x
x
u
V
t
H
t
V
m
U
(45) с граничным условием
0
)
,
(
1 1
=
x
t
V
; (46) здесь
)
,
,
(
)
,
,
(
)
,
,
,
(
0
u
x
f
u
x
u
x
x
x
t
V
t
f
V
t
H
+
=
, (47) где
x
x
∂
∂
=
V
V
(см. табл. 2).
Уравнение (45) аналогично уравнению Гамильтона–Якоби классического вариационного исчисления – достаточное ус- ловие:
0
)
,
,
(
=
∂
∂
+
∂
∂
x
x
H
V
t
t
V
, (48) где функция H получена в результате подстановки в функцию
)
,
,
,
(
u
x
x
V
t
H
управления
)
,
,
(
0 0
x
x
u
u
V
t
=
, найденного из условия стационарности этой функции,
)
,
1
(
0
m
j
u
H
j
=
=
∂
∂
. (49)
Из (45) можно определить оптимальный закон управления
∂
∂
=
∂
∂
=
=
∈
x
x
u
u
x
x
x
v
u
u
V
t
V
t
H
t
m
U
,
,
,
,
,
min arg
)
,
(
*
*
*
. (50)
Геометрический смысл условия (50) пояснен на рис. 3.8. Если функция V(t, x) найдена путем решения уравнения (45) с условием (46), то проблема синтеза решена, так как для известной функции V(t, x) имеем
)
,
(
)
,
(
,
,
*
*
*
x
v
x
x
x
u
u
t
t
V
t
=
∂
∂
=
. (51)
Рис. 3.8. Геометрический смысл условия
)]
,
,
(
[
min
)
,
,
,
(
min
u
x
u
x
x
u
x
u
t
f
V
V
t
H
m
m
U
U
∈
∈
=
:
,
0
,
2
,
)],
(
[
min
)
,
(
0
=
=
=
∂
∂
=
=
∈
f
m
n
V
V
t
u
J
t
V
m
U
x
x
x
u
*
x& – оптимальная фазовая скорость:
)
,
,
(
*
*
u
x
f
x
t
=
&
;
u
*
(t, x) – оптимальное управление:
)
,
,
,
(
min arg
*
u
x
u
x
u
V
t
H
m
U
∈
=
;
x
*
– оптимальная траектория
Подобно тому, как принцип максимума Понтрягина придает удобную форму и уточняет условие Вейерштрасса (см. п.
9.3) для основной задачи оптимального программного управления в случае замкнутой области значений управления
m
U
, так и уравнение Гамильтона–Беллмана является уточнением и обобщением уравнения Гамильтона–Якоби. Уточнение состоит в том, что вместо условия стационарности
0
=
∂
∂
u
H
там, где оно не отвечает существу дела, в (45) используется условие
∂
∂
∈
u
x
x
u
,
,
,
min
V
t
H
m
U
В приведенном условии (45) требование непрерывной дифференцируемости (гладкости) функции V(t, x) является суще- ственным. Но в отличие от принципа максимума, где утверждается существование необходимой для него вектор-функции
)
(t
λ
, существование гладкого потенциала V(t, x) в методе динамического программирования не доказывается. Это снижает ценность необходимого условия (45), так как для негладкой функции V(t, x) трудно сохранить необходимость его в полном объеме.
5.3. Ослабленное необходимое условие
Уточненное необходимое условие для основной задачи оптимального координатного управления на основе принципа оптимальности, частично свободное от требования непрерывной дифференцируемости функции V(t, x), формулируется сле- дующим образом.
Формулировка задачи
.
Пусть краевые условия имеют вид
0
))
(
,
(
;
)
(
1 1
0 0
=
=
t
t
t
x
q
x
x
. (52)
Минимизируемый функционал имеет вид
dt
t
f
t
t
t
J
t
t
)
,
,
(
))
(
,
(
]
,
,
[
2 1
0 1
1 0
0
u
x
x
u
x
∫
+
Φ
=
(53) и определен на траекториях системы (41) с управлением
)
,
(
)
(
x
u
t
U
t
m
∈
Закон управления v(t, x) считается допустимым, если u(t) = v(t, x(t)),
)
,
(
))
(
,
(
x
x
v
t
U
t
t
m
∈
, и является кусочно- непрерывным.
Если управление u = u*(t),
1 0
t
t
t
≤
≤
доставляет минимум функционалу J, то ему соответствует оптимальная траектория
x
*
(t).
Пусть
)
54
(
))
(
),
(
,
(
))
(
,
(
)
,
,
(
))
(
,
(
min
)
,
(
*
1 0
1 0
*
*
0
*
1
*
1 0
1 1
0 0
dt
t
t
t
f
t
t
dt
t
f
t
t
t
V
t
t
t
t
U
m
∫
∫
+
Φ
=
=
+
Φ
=
∈
u
x
x
u
x
x
x
u
Тогда
∫
+
Φ
≤
1 0
))
(
),
(
,
(
))
(
,
(
)
,
(
0 1
1 0
0
t
t
dt
t
t
t
f
t
t
t
V
u
x
x
x
, где u(t) произвольно.
Необходимые условия
.
Предполагается, что искомое оптимальное управление u* = v
*
(t, x) существует. Тогда можно ус- тановить необходимые условия для основной задачи оптимального координатного управления.
Пусть в области G пространства состояний
n
X
выполняются следующие условия.
1. Для
G
x
∈ в момент t функция
∑
=
∂
∂
+
=
∂
∂
n
i
i
i
t
f
x
V
t
f
V
t
H
1 0
)
,
,
(
)
,
,
(
,
,
,
u
x
u
x
u
x
x
имеет абсолютный минимум по u, т.е.
)
,
,
(
min
*
x
u
x V
t
H
H
=
при
)
,
,
(
)
,
(
*
*
*
x
x
u
x
v
u
V
t
t
=
=
по всем допустимым
)
,
(
)
(
x
u
t
U
t
m
∈
, где
x
x
∂
∂
= V
V
– градиент V(t, x).
2. Решение x(t) системы (41) существует и является непрерывной функцией для всех допустимых
)
,
(
)
(
x
u
t
U
t
m
∈
3. Функция
)
,
,
(
0
u
x
t
f
непрерывна по t.
4. Функция
t
V
t
V
t
∂
∂
=
)
,
( x
непрерывна по t и x; вектор-функции
)
,
( x
x
t
V
и f(t, x, u) либо непрерывны по t и x, либо имеют равные левый и правый пределы для скалярного произведения f
x
V
вдоль любой траектории x(t) системы (41):
))]
(
),
(
,
(
)
,
(
[
lim
))]
(
)),
(
,
(
)
,
(
[
lim
0 0
0 0
t
t
t
t
V
t
t
t
t
V
t
t
t
t
u
x
f
x
u
x
f
x
x
x
−
→
+
→
=
5. Существует оптимальное движение для каждого начального
G
x
∈
0
в некоторое состояние, удовлетворяющее усло- вию
0
)
,
(
1 1
=
x
q t
, и причем такое, что траектория не выходит из G.
6. Каждая точка в G, не удовлетворяющая условию q(t, x) = 0, имеет окрестность, целиком лежащую в G.
Тогда функция V(t, x) в области G удовлетворяет уравнению Гамильтона–Беллмана
0
))
(
),
(
,
(
min
0
=
+
∈
t
t
t
f
dt
dV
m
U
u
x
u
u
, (55) или
0
))
,
(
,
,
(
)
,
(
)
),
,
(
,
,
(
min
)
,
(
)
,
,
(
)
,
,
(
)
,
(
)
,
(
min
*
0
=
+
∂
∂
=
=
+
∂
∂
=
=
+
+
∂
∂
∈
∈
x
x
x
u
x
x
x
u
x
u
x
f
x
x
x
x
u
x
u
t
V
t
H
t
t
V
t
V
t
H
t
t
V
t
f
t
t
V
t
t
V
m
m
U
U
(55') с граничным условием
)
,
(
)
,
(
x
x
t
t
V
Φ
=
(55") на гиперповерхности q(t, x) = 0.
Здесь обозначено
)
),
,
(
,
,
(
min
))
,
(
,
,
(
*
u
x
x
x
x
x
u
x
t
V
t
H
t
V
t
H
m
U
∈
=
;
u
dt
dV
– полная производная вдоль траектории, реализуемой под действием управления u.
Так как при известной функции V(t, x)
)
,
(
*
))
,
(
,
,
(
min arg
*
*
x
v
x
x
u
u
x
u
t
t
V
t
H
m
U
=
=
=
∈
, то найденное решение V(t, x) уравнения (55) одновременно дает решение проблемы синтеза оптимального закона управле- ния.
З а м е ч а н и я .
1. Требование 4 влечет за собой непрерывность функций
u
dt
dV
и V(t, x) по времени t.
2. Когда
x
V
V
t
,
и
i
f
непрерывны по t и x, уравнение (55) представляет собой уравнение Гамильтона–Якоби.
Общая последовательность действий, которой целесообразно придерживаться при решении задачи синтеза оптимально- го закона управления методом динамического программирования, представлена в табл. 2.
2. Последовательность действий при использовании метода динамического программирования
Шаг
Последовательность действий
1
Образуется функция H, в которой сопряженные перемен- ные
i
λ заменяются на компоненты вектора
∂
∂
∂
∂
∂
∂
=
=
=
n
x
x
t
V
x
t
V
x
t
V
V
t
V
d
dV
)
,
(
,...,
)
,
(
,
)
,
(
)
,
(
grad
2 1
x
x
x
x
x
x
, т.е.
)
,
,
(
)
,
,
(
)
,
,
,
(
0
u
x
u
x
f
u
x
x
x
t
f
t
V
V
t
H
+
=
2
Минимизируется
)
,
,
,
(
x
u
x
V
t
H
по
m
U
∈
u
и находится явная зависимость управления u
*
от компонент вектора
x
V
:
)
,
,
,
(
min arg
)
,
,
(
*
*
x
u
x
u
x
x
u
u
V
t
H
t
V
m
U
∈
=
=
3
Находится минимальное значение H
*
путем подстановки в
H значения
)
,
,
(
*
x
x
u
V
t
:
)
),
,
,
(
,
,
(
)
,
,
(
*
*
x
x
x
x
u
x
x
V
V
t
t
H
V
t
H
=
4
Решается дифференциальное уравнение в частных производных Гамильтона–Беллмана
0
)
,
,
(
*
=
∂
∂
+
t
V
V
t
H
x
x
с соответствующим граничным условием для функции
V(t, x)
)
,
(
)
,
(
x
x
t
t
V
Φ
=
на гиперповерхности q(t, x) = 0 5
Подставляя результаты шага 4 в выражение для
)
,
,
(
*
x
x
u
V
t
, получаем закон управления с обратной связью
∂
∂
=
=
x
x
x
u
x
v
u
)
,
(
,
,
)
,
(
*
*
*
t
V
t
t
5.4. Сводка общих процедур метода динамического
программирования для вычисления оптимального закона
управления
u
*
= v
*
(t, x)
П р и м е р 2. Синтез оптимального закона управления для линейной системы с квадратичным критерием качества. Про- блема аналитического конструирования оптимальных автопилотов.
Пусть нестационарная линейная система описывается векторным линейным дифференциальным уравнением
)
(
)
(
)
(
t
C
t
B
t
A
f
u
x
x
+
+
=
&
(I) с начальным условием
1 0
0
;
)
(
t
t
t
t
≤
≤
= x
x
, (II) где
1
t
– фиксировано;
0 0
, x
t
– известные величины (которые, однако, специально не выбираются), и пусть критерий качест- ва имеет вид
)
III
(
)
)
(
)
(
)
(
)
(
(
2 1
)
(
)
(
)
(
2 1
]
[
1 0
1 1
1 1
1
∫
+
+
+
+
+
+
+
+
+
=
t
t
T
dt
t
P
t
N
t
N
t
Q
t
t
t
R
J
u
u
x
u
u
x
x
x
u
l
x
l
x
x
x
l
u
T
T
T
T
T
3
T
2
T
T
Здесь
T
n
T
n
f
f
x
x
x
)
...,
,
(
;
)
...,
,
,
(
1 2
1
=
=
f
x
; C, A(t) – матрицы размерности n
× n;
)
(
,
)
...,
,
(
1 1
1
t
u
u
T
m
x
x
u
=
=
; B(t), N(t) – мат- рицы размерности n
× m;
)
(
,
1
t
Q
R
– положительно полуопределенные симметричные матрицы размерности n
× n; P(t) – положительно определенная симметричная матрица размерности m
× m; P(t) – известная функция времени;
)
(
,
2 1
t
l
l
,
)
(
,
2 1
t
l
l
– n-мерные векторы;
)
(
3
t
l
– m-мерный вектор.
Напомним, что симметричная матрица Q называется положительно полуопределенной, если все ее собственные значе- ния неотрицательны или если соответствующая ей квадратичная форма неотрицательна, т.е.
0
≥
x
x Q
T
для всех
0
)
...,
,
,
(
2 1
≠
=
T
n
x
x
x
x
. Для того чтобы матрица Q была положительно полуопределенной, необходимо и достаточно, чтобы все главные (а не только угловые!) миноры были неотрицательны:
)
,
1
;
1
(
0 2
1 2
1 2
1
n
p
n
i
i
i
i
i
i
i
i
i
Q
p
p
p
=
≤
<
<
<
≤
≥
Предполагается, что на значения управляющего вектора u не накладывается каких-либо ограничений, а матрицы Q(t),
N(t), P(t) таковы, что выполняется условие
0
)
(
)
(
)
(
)
(
1
≥
−
−
t
N
t
P
t
N
t
Q
T
(это условие гарантирует отсутствие сопряженных точек в данной задаче).
Необходимо найти закон управления с обратной связью
u
*
= v
*
(x, t), минимизирующий критерий J[u]. Заметим, что значения вектора фазовых координат x при
1
t
t
=
не заданы (т.е. рассматри- ваемая задача относится к числу задач оптимального управления со свободным правым концом).
Пусть V(t, x) – минимальное значение критерия качества J[u] при движении системы (I) из произвольной начальной точки (t, x) (нижний индекс «0» опущен) на отрезке времени
1 1
],
,
[
t
(41), начинающихся в точке (t, x) и заканчивающихся в фиксированной точке (t
1
, x
1
),
∫
∈
=
1
)
,
,
(
min
)
,
(
0
t
t
U
dt
t
f
t
V
m
u
x
x
u
(44) на траекториях (1) из (t, x) в (t
1
, x
1
).
Функция V(t, x) является аналогом «действия» в аналитической механике и «экстремального интеграла» в классическом вариационном исчислении.
Если функция V(t, x) существует и является непрерывно дифференцируемой по (t, x), то она удовлетворяет основному уравнению динамического программирования, которое является необходимым и достаточным условием, – дифференциальному уравне- нию в частных производных первого порядка (уравнению Гамильтона–Беллмана)
0
)
,
,
,
(
min
=
∂
∂
+
∂
∂
∈
u
x
x
u
V
t
H
t
V
m
U
(45) с граничным условием
0
)
,
(
1 1
=
x
t
V
; (46) здесь
)
,
,
(
)
,
,
(
)
,
,
,
(
0
u
x
f
u
x
u
x
x
x
t
V
t
f
V
t
H
+
=
, (47) где
x
x
∂
∂
=
V
V
(см. табл. 2).
Уравнение (45) аналогично уравнению Гамильтона–Якоби классического вариационного исчисления – достаточное ус- ловие:
0
)
,
,
(
=
∂
∂
+
∂
∂
x
x
H
V
t
t
V
, (48) где функция H получена в результате подстановки в функцию
)
,
,
,
(
u
x
x
V
t
H
управления
)
,
,
(
0 0
x
x
u
u
V
t
=
, найденного из условия стационарности этой функции,
)
,
1
(
0
m
j
u
H
j
=
=
∂
∂
. (49)
Из (45) можно определить оптимальный закон управления
∂
∂
=
∂
∂
=
=
∈
x
x
u
u
x
x
x
v
u
u
V
t
V
t
H
t
m
U
,
,
,
,
,
min arg
)
,
(
*
*
*
. (50)
Геометрический смысл условия (50) пояснен на рис. 3.8. Если функция V(t, x) найдена путем решения уравнения (45) с условием (46), то проблема синтеза решена, так как для известной функции V(t, x) имеем
)
,
(
)
,
(
,
,
*
*
*
x
v
x
x
x
u
u
t
t
V
t
=
∂
∂
=
. (51)
Рис. 3.8. Геометрический смысл условия
)]
,
,
(
[
min
)
,
,
,
(
min
u
x
u
x
x
u
x
u
t
f
V
V
t
H
m
m
U
U
∈
∈
=
:
,
0
,
2
,
)],
(
[
min
)
,
(
0
=
=
=
∂
∂
=
=
∈
f
m
n
V
V
t
u
J
t
V
m
U
x
x
x
u
*
x& – оптимальная фазовая скорость:
)
,
,
(
*
*
u
x
f
x
t
=
&
;
u
*
(t, x) – оптимальное управление:
)
,
,
,
(
min arg
*
u
x
u
x
u
V
t
H
m
U
∈
=
;
x
*
– оптимальная траектория
Подобно тому, как принцип максимума Понтрягина придает удобную форму и уточняет условие Вейерштрасса (см. п.
9.3) для основной задачи оптимального программного управления в случае замкнутой области значений управления
m
U
, так и уравнение Гамильтона–Беллмана является уточнением и обобщением уравнения Гамильтона–Якоби. Уточнение состоит в том, что вместо условия стационарности
0
=
∂
∂
u
H
там, где оно не отвечает существу дела, в (45) используется условие
∂
∂
∈
u
x
x
u
,
,
,
min
V
t
H
m
U
В приведенном условии (45) требование непрерывной дифференцируемости (гладкости) функции V(t, x) является суще- ственным. Но в отличие от принципа максимума, где утверждается существование необходимой для него вектор-функции
)
(t
λ
, существование гладкого потенциала V(t, x) в методе динамического программирования не доказывается. Это снижает ценность необходимого условия (45), так как для негладкой функции V(t, x) трудно сохранить необходимость его в полном объеме.
5.3. Ослабленное необходимое условие
Уточненное необходимое условие для основной задачи оптимального координатного управления на основе принципа оптимальности, частично свободное от требования непрерывной дифференцируемости функции V(t, x), формулируется сле- дующим образом.
Формулировка задачи
.
Пусть краевые условия имеют вид
0
))
(
,
(
;
)
(
1 1
0 0
=
=
t
t
t
x
q
x
x
. (52)
Минимизируемый функционал имеет вид
dt
t
f
t
t
t
J
t
t
)
,
,
(
))
(
,
(
]
,
,
[
2 1
0 1
1 0
0
u
x
x
u
x
∫
+
Φ
=
(53) и определен на траекториях системы (41) с управлением
)
,
(
)
(
x
u
t
U
t
m
∈
Закон управления v(t, x) считается допустимым, если u(t) = v(t, x(t)),
)
,
(
))
(
,
(
x
x
v
t
U
t
t
m
∈
, и является кусочно- непрерывным.
Если управление u = u*(t),
1 0
t
t
t
≤
≤
доставляет минимум функционалу J, то ему соответствует оптимальная траектория
x
*
(t).
Пусть
)
54
(
))
(
),
(
,
(
))
(
,
(
)
,
,
(
))
(
,
(
min
)
,
(
*
1 0
1 0
*
*
0
*
1
*
1 0
1 1
0 0
dt
t
t
t
f
t
t
dt
t
f
t
t
t
V
t
t
t
t
U
m
∫
∫
+
Φ
=
=
+
Φ
=
∈
u
x
x
u
x
x
x
u
Тогда
∫
+
Φ
≤
1 0
))
(
),
(
,
(
))
(
,
(
)
,
(
0 1
1 0
0
t
t
dt
t
t
t
f
t
t
t
V
u
x
x
x
, где u(t) произвольно.
Необходимые условия
.
Предполагается, что искомое оптимальное управление u* = v
*
(t, x) существует. Тогда можно ус- тановить необходимые условия для основной задачи оптимального координатного управления.
Пусть в области G пространства состояний
n
X
выполняются следующие условия.
1. Для
G
x
∈ в момент t функция
∑
=
∂
∂
+
=
∂
∂
n
i
i
i
t
f
x
V
t
f
V
t
H
1 0
)
,
,
(
)
,
,
(
,
,
,
u
x
u
x
u
x
x
имеет абсолютный минимум по u, т.е.
)
,
,
(
min
*
x
u
x V
t
H
H
=
при
)
,
,
(
)
,
(
*
*
*
x
x
u
x
v
u
V
t
t
=
=
по всем допустимым
)
,
(
)
(
x
u
t
U
t
m
∈
, где
x
x
∂
∂
= V
V
– градиент V(t, x).
2. Решение x(t) системы (41) существует и является непрерывной функцией для всех допустимых
)
,
(
)
(
x
u
t
U
t
m
∈
3. Функция
)
,
,
(
0
u
x
t
f
непрерывна по t.
4. Функция
t
V
t
V
t
∂
∂
=
)
,
( x
непрерывна по t и x; вектор-функции
)
,
( x
x
t
V
и f(t, x, u) либо непрерывны по t и x, либо имеют равные левый и правый пределы для скалярного произведения f
x
V
вдоль любой траектории x(t) системы (41):
))]
(
),
(
,
(
)
,
(
[
lim
))]
(
)),
(
,
(
)
,
(
[
lim
0 0
0 0
t
t
t
t
V
t
t
t
t
V
t
t
t
t
u
x
f
x
u
x
f
x
x
x
−
→
+
→
=
5. Существует оптимальное движение для каждого начального
G
x
∈
0
в некоторое состояние, удовлетворяющее усло- вию
0
)
,
(
1 1
=
x
q t
, и причем такое, что траектория не выходит из G.
6. Каждая точка в G, не удовлетворяющая условию q(t, x) = 0, имеет окрестность, целиком лежащую в G.
Тогда функция V(t, x) в области G удовлетворяет уравнению Гамильтона–Беллмана
0
))
(
),
(
,
(
min
0
=
+
∈
t
t
t
f
dt
dV
m
U
u
x
u
u
, (55) или
0
))
,
(
,
,
(
)
,
(
)
),
,
(
,
,
(
min
)
,
(
)
,
,
(
)
,
,
(
)
,
(
)
,
(
min
*
0
=
+
∂
∂
=
=
+
∂
∂
=
=
+
+
∂
∂
∈
∈
x
x
x
u
x
x
x
u
x
u
x
f
x
x
x
x
u
x
u
t
V
t
H
t
t
V
t
V
t
H
t
t
V
t
f
t
t
V
t
t
V
m
m
U
U
(55') с граничным условием
)
,
(
)
,
(
x
x
t
t
V
Φ
=
(55") на гиперповерхности q(t, x) = 0.
Здесь обозначено
)
),
,
(
,
,
(
min
))
,
(
,
,
(
*
u
x
x
x
x
x
u
x
t
V
t
H
t
V
t
H
m
U
∈
=
;
u
dt
dV
– полная производная вдоль траектории, реализуемой под действием управления u.
Так как при известной функции V(t, x)
)
,
(
*
))
,
(
,
,
(
min arg
*
*
x
v
x
x
u
u
x
u
t
t
V
t
H
m
U
=
=
=
∈
, то найденное решение V(t, x) уравнения (55) одновременно дает решение проблемы синтеза оптимального закона управле- ния.
З а м е ч а н и я .
1. Требование 4 влечет за собой непрерывность функций
u
dt
dV
и V(t, x) по времени t.
2. Когда
x
V
V
t
,
и
i
f
непрерывны по t и x, уравнение (55) представляет собой уравнение Гамильтона–Якоби.
Общая последовательность действий, которой целесообразно придерживаться при решении задачи синтеза оптимально- го закона управления методом динамического программирования, представлена в табл. 2.
2. Последовательность действий при использовании метода динамического программирования
Шаг
Последовательность действий
1
Образуется функция H, в которой сопряженные перемен- ные
i
λ заменяются на компоненты вектора
∂
∂
∂
∂
∂
∂
=
=
=
n
x
x
t
V
x
t
V
x
t
V
V
t
V
d
dV
)
,
(
,...,
)
,
(
,
)
,
(
)
,
(
grad
2 1
x
x
x
x
x
x
, т.е.
)
,
,
(
)
,
,
(
)
,
,
,
(
0
u
x
u
x
f
u
x
x
x
t
f
t
V
V
t
H
+
=
2
Минимизируется
)
,
,
,
(
x
u
x
V
t
H
по
m
U
∈
u
и находится явная зависимость управления u
*
от компонент вектора
x
V
:
)
,
,
,
(
min arg
)
,
,
(
*
*
x
u
x
u
x
x
u
u
V
t
H
t
V
m
U
∈
=
=
3
Находится минимальное значение H
*
путем подстановки в
H значения
)
,
,
(
*
x
x
u
V
t
:
)
),
,
,
(
,
,
(
)
,
,
(
*
*
x
x
x
x
u
x
x
V
V
t
t
H
V
t
H
=
4
Решается дифференциальное уравнение в частных производных Гамильтона–Беллмана
0
)
,
,
(
*
=
∂
∂
+
t
V
V
t
H
x
x
с соответствующим граничным условием для функции
V(t, x)
)
,
(
)
,
(
x
x
t
t
V
Φ
=
на гиперповерхности q(t, x) = 0 5
Подставляя результаты шага 4 в выражение для
)
,
,
(
*
x
x
u
V
t
, получаем закон управления с обратной связью
∂
∂
=
=
x
x
x
u
x
v
u
)
,
(
,
,
)
,
(
*
*
*
t
V
t
t
5.4. Сводка общих процедур метода динамического
программирования для вычисления оптимального закона
управления
u
*
= v
*
(t, x)
П р и м е р 2. Синтез оптимального закона управления для линейной системы с квадратичным критерием качества. Про- блема аналитического конструирования оптимальных автопилотов.
Пусть нестационарная линейная система описывается векторным линейным дифференциальным уравнением
)
(
)
(
)
(
t
C
t
B
t
A
f
u
x
x
+
+
=
&
(I) с начальным условием
1 0
0
;
)
(
t
t
t
t
≤
≤
= x
x
, (II) где
1
t
– фиксировано;
0 0
, x
t
– известные величины (которые, однако, специально не выбираются), и пусть критерий качест- ва имеет вид
)
III
(
)
)
(
)
(
)
(
)
(
(
2 1
)
(
)
(
)
(
2 1
]
[
1 0
1 1
1 1
1
∫
+
+
+
+
+
+
+
+
+
=
t
t
T
dt
t
P
t
N
t
N
t
Q
t
t
t
R
J
1 2 3 4 5 6 7 8 9 10 ... 15
u
u
x
u
u
x
x
x
u
l
x
l
x
x
x
l
u
T
T
T
T
T
3
T
2
T
T
Здесь
T
n
T
n
f
f
x
x
x
)
...,
,
(
;
)
...,
,
,
(
1 2
1
=
=
f
x
; C, A(t) – матрицы размерности n
× n;
)
(
,
)
...,
,
(
1 1
1
t
u
u
T
m
x
x
u
=
=
; B(t), N(t) – мат- рицы размерности n
× m;
)
(
,
1
t
Q
R
– положительно полуопределенные симметричные матрицы размерности n
× n; P(t) – положительно определенная симметричная матрица размерности m
× m; P(t) – известная функция времени;
)
(
,
2 1
t
l
l
,
)
(
,
2 1
t
l
l
– n-мерные векторы;
)
(
3
t
l
– m-мерный вектор.
Напомним, что симметричная матрица Q называется положительно полуопределенной, если все ее собственные значе- ния неотрицательны или если соответствующая ей квадратичная форма неотрицательна, т.е.
0
≥
x
x Q
T
для всех
0
)
...,
,
,
(
2 1
≠
=
T
n
x
x
x
x
. Для того чтобы матрица Q была положительно полуопределенной, необходимо и достаточно, чтобы все главные (а не только угловые!) миноры были неотрицательны:
)
,
1
;
1
(
0 2
1 2
1 2
1
n
p
n
i
i
i
i
i
i
i
i
i
Q
p
p
p
=
≤
<
<
<
≤
≥
Предполагается, что на значения управляющего вектора u не накладывается каких-либо ограничений, а матрицы Q(t),
N(t), P(t) таковы, что выполняется условие
0
)
(
)
(
)
(
)
(
1
≥
−
−
t
N
t
P
t
N
t
Q
T
(это условие гарантирует отсутствие сопряженных точек в данной задаче).
Необходимо найти закон управления с обратной связью
u
*
= v
*
(x, t), минимизирующий критерий J[u]. Заметим, что значения вектора фазовых координат x при
1
t
t
=
не заданы (т.е. рассматри- ваемая задача относится к числу задач оптимального управления со свободным правым концом).
Пусть V(t, x) – минимальное значение критерия качества J[u] при движении системы (I) из произвольной начальной точки (t, x) (нижний индекс «0» опущен) на отрезке времени
1 1
],
,
[
t