Файл: Методы оптимизации в статистических задачах управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 102

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Таким образом, оптимальное управление должно быть опре­ делено решением уравнения Веллмана

dW°dt

Х> ~ m * n \ Х*Ѵ ( 0 .

х +

U*J ( 0

и +

 

 

+ [A(t)x + B(t)u]*d-

^ ^ +

 

 

 

tr

G(t)Q(t)G*(t)

d2Wp(t,x)

I)

(363)

 

 

 

 

дх dx*

J )

 

при граничном

условии

 

 

 

 

 

 

W0 (Т, х) =

х*Ах.

 

(364)

Предположим, что на управление не наложено жестких огра­ ничений, так что любая из компонент вектора и удовлетворяет условию —оо <; и{ <С°°, г = 1, 2, . . ., q. При этом предполо­ жении условие минимума по и произвольной функции а (t, х, и) запишется в виде системы q алгебраических уравнений:

да (t, к, и)

ди и—и о

= 0.

Применительно к уравнению (363) эта система принимает следующий вид:

и (t) + J* (t)] u0+ В* (t) - 0£ - x)-= о.

(365)

Учитывая симметричность матрицы J (t) и умножая выраже­ ние (385) на (t) слева, получим следующее выражение для

оптимального управления:

=

(t)~W°^

.

(366)

Уравнение (366) дает функциональную связь оптимального

управления с функцией Веллмана W0

(t,

х). После подстановки

аналитического выражения для W0 (t,

х)

в формулу (366) опти­

мальное управление

будет представлено

функцией

времени t

и фазовых координат объекта х, что, как отмечалось выше, удобно при реализации управления в структуре с обратной связью.

Для нахождения W0 (t, х) подставим выражение (366) в фор­ мулу (363). Получим уравнение в частных производных:

_ д № ) = м ( і ) х - ± . ( X

X B(t) J-1(t)B* (t)

d W 0 (t , X) ) +

x*A* (t)

d W 0 (t , X)

 

 

dx

d w 0 (t , X)

dx

1

G(t)Q(t)G*(t)

(367)

+ i - tr

dx dx*

159


Будем искать решение уравнения (367) в виде квадратичной формы:

Wq (t, х) = ko (t) + ki (t) X + х*К2 (t) X,

(368)

где k 0 (t) — скалярная функция, а k x (t) и К 2 (0 — соответственно вектор и матрица. После подстановки решения (368) в урав­ нение (367) и приравнивая в обеих частях уравнения членов, не зависящих от х, линейных по л: и квадратично зависящих от х, получим следующую систему обыкновенных дифференциальных

уравнений относительно функций k 0 (t), ki

(t), K 2 (t):

k (0 = -

X k\ (t) В (t) J - 1(t) B'

(t) ki (t) +

+

tr [G (0 Q (0 G* (0 /C2

 

k (t) ^ — K2{t)B{t)j^{t)B*(t) M O +

+(0 kl (0;

- Aa (0 = v (0 + Л* (0 /С* (0 + (0 Л (0 - ,

(0 5 (0 У-1 (/) 5* (0 7C2 (t).

Начальные условия для полученной системы могут быть запи­ саны на основании формулы (364):

ko (Т) = 0; ki (Т) = 0; ІС2 (Г) = Л.

Нетрудно видеть, что функция (z1), удовлетворяющая линей­ ному однородному дифференциальному уравнению при нулевом

начальном условии, тождественно равна нулю.

Отсюда сле­

дует, что

 

W о (t, х) = k0 (t) + х*К2 (0 л,

(369)

где &о (^) и элементы симметричной матрицы К 2 (0 удовлетворяют системе обыкновенных дифференциальных уравнений

k0 - t r

[GQG*tf2];

 

(370)

— К 2 = Ѵ + А*К2+

К 2А - K 2BJ - 'B*K2

 

при начальных условиях

 

 

 

 

ko (Т) =

0;

К 2 (Т) =

Л.

(371)

Теперь в соответствии с формулой (366) оптимальное упра­

вление

(372)

и 0 = ~ J - 1B*K2x.

Таким образом, оптимальная стратегия является линейной функцией фазовых координат объекта, что характерно для задач оптимизации управления линейным объектом при квадратичном критерии качества.

160


Если случайные возмущения на входе объекта отсутствуют, следует положить Q (t) = 0. Заметим, что это не отразится на значении оптимального управления (372). Следовательно, опти­ мальный регулятор в стохастической задаче не отличается от регулятора соответствующей детерминированной задачи опти­ мального управления. Возмущения на входе объекта g (/) влияют лишь на значение функции потерь, которая при наличии помех имеет нерегулируемую составляющую k 0 (t).

Если матрицы А, В, V, J постоянны, то матрица К 2 (t) со­ гласно формуле (370) является решением матричного уравнения Риккати [142, 154]. Путем замены переменных матричное урав­ нение Риккати может быть сведено к линейному дифференциаль­ ному уравнению второго порядка.

Поскольку начальное условие для системы уравнений (370) задано на правом конце, целесообразно ее решать в «обратном времени», сделав замену независимой переменной:

т = T — t.

Тогда при условии постоянства матриц А, В, V, J система (370) принимает вид

%(т) = tr [GQG*K2 (т)];

К2 (т) = V + А*К2 (т) +

+ К 2 (т) А Ко (Т) B J - lB*K2 (т);

(373)

ko (0) = 0;

К 2 (0) = Л ,

где

ko (т) = ko ( Т - т), К 2 (т) = К 2 ( Т - т).

Если Т —>°°, то при решении в обратном времени для опре­

деления К 2 следует устремить т —>оо. При этом К 2 стремится к решению алгебраического уравнения

0 = V + А*Кг + КгА K2BJ~1B*K2.

Таким образом, оптимальный регулятор

«о = — J~1B*K2x

является стационарным.

Возникает вопрос об устойчивости оптимальной системы. Согласно второму методу Ляпунова [64] система асимптотически устойчива, если существует такая функция ф (л:), называемая функцией Ляпунова, которая положительна и имеет строгий минимум в начале координат ф (0) = 0, а также существует

11 А. М. Батков

161


полная производная по времени, вычисленная вдоль траекторий системы,

dty

_ /

dty \ *

dx

dt

\

dx )

dt ’

отрицательная вне сколь угодно малой окрестности начала координат.

Проверим на устойчивость оптимальную стационарную си­ стему управления при отсутствии возмущающих воздействий на объект I (t). В этом случае Q = 0 и согласно формуле (373) k0 (t) = 0. Поэтому' согласно выражению (369)

Г 0 (jc) = х*К2х.

(374)

Отметим, что в рассматриваемом случае функция Веллмана не зависит от времени.

Функция Веллмана (374) удовлетворяет всем условиям тео­ ремы об асимптотической устойчивости и потому является функ­

цией Ляпунова.

Действительно, W 0 (0) = 0

и при любом х ф 0

Го (х) > 0, так

как W'0 (х) характеризует

оставшиеся потери,

которые при X =h 0 отличны от нуля и положительны вследствие положительной определенности критерия качества (362). Таким образом, W0 (х) имеет строгий минимум в начале координат. Полная производная по времени функции Веллмана на фазовых

траекториях

системы

 

 

 

dW0

 

 

 

 

 

*-%>- = ( Ах+ Ви0)*

 

 

 

 

 

 

 

 

 

дх

 

 

и согласно

формуле

(363)

в рассматриваемом

случае,

когда

dW0

л

о

л

 

 

 

 

 

 

—Qf-

= 0

и Q = 0, удовлетворяет уравнению

 

 

 

 

 

= (Ах +

Вио)*

 

[*Ѵ* + u0JuQ].

(375)

Поскольку квадратичная

форма

в

правой

части

уравне­

ния

(375)

положительно определена,

то d^(°- ■< 0 при

х =£ 0.

Существование функции Ляпунова для оптимальной стацио­ нарной системы в отсутствие помех доказывает ее асимптоти­ ческую устойчивость.

Безусловно, не всегда функция Веллмана является функцией Ляпунова оптимальной системы (при Т —» оо), так что проверка системы на устойчивость оказывается значительно более сложной задачей, чем рассмотренная выше. При наличии в системе случай­ ных возмущений необходимо пользоваться статистическими кри­ териями устойчивости систем [107]. Нетрудно показать, что при наличии случайных возмущений | (t) в рассмотренном выше при­ мере система асимптотически устойчива в среднем.

162


3. Оптимизация управления при неточных измерениях. Апостериорное распределение вероятностей вектора фазовых координат системы

До сих пор рассматривалась задача управления объектом в предположении наличия идеального измерителя в блок-схеме системы, показанной на рис. 38, т. е. когда фазовые координаты объекта точно известны в процессе управления. Более близок к задачам практики случай неполной информации о состоянии объекта управления. Предположим, что в процессе управления измеряется значение процесса

у (/) = h (t, х) + ц (/),

(376)

где у и h — векторы г измерений; т| (£) — нормально-распределен­ ный белый шум, являющийся вектором г измерений с харак­ теристиками

Мц (/) = 0;

Щ (/і) i f (t2) = R (tj) 6 (ti — tj .

Объект управления задан дифференциальным уравнением (342), где возмущающие воздействия имеют характеристики (343). Предполагается, что случайные процессы £ (t) и ц (t) некоррелированы.

Начальное состояние объекта управления считается случай­ ным и заданным плотностью распределения вероятностей век­ тора * в момент t = 0:

р (t, x)\t=o = Po (х).

(378)

Задача состоит в выборе управления, минимизирующего показатель (344). В отличие от рассмотренных в п. 1 и 2 гл. IV задач оптимального управления при точном измерении фазовых координат объекта х, когда управление и (t, х) является функцией времени t и текущего состояния объекта х, в случае измерений на фоне помех управление является функционалом относительно всех проведенных измерений до текущего момента времени:

и = и U, у (г), Tg [0, t]).

(379)

Соотношение (379) отражает тот факт, что оптимальное упра­ вление должно вырабатываться на основании всей располагаемой информации о состоянии объекта к моменту t. Поэтому блок устройства управления (см. рис. 39) должен быть инерционным устройством, учитывающим не только текущие, но и прошлые измерения. Вся располагаемая информация о текущем состоянии объекта может быть представлена не только в измерениях у (т), т g [0, t], но и в виде апостериорной плотности распределения вероятностей:

х) = р {t, х\ у (т), TglO, И).

(380)

11*

ГбЗ