Файл: Основы автоматического управления..pdf

Скачать файл (24,30Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 316

Скачиваний: 15

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 16.3. Д И Н А М И Ч ЕС К О Е П РО ГРА М М И РО В А Н И Е			657
Таким образом, минимизируя (16.3.4)		по переменной и (N — 1),
определяем функцию S	(у (N — 1),	(N — 1)).	t ^ N T п,
Перейдем теперь к интервалу времени (N — 2) Ти ^

состоящему из последнего и предпоследнего участков. Этому

интервалу соответствует сумма,		входящая	в	(16.3.2),
I n - 2	= F ( y ( N - 2),	u ( N - 2))	+	І м_,.	(16.3.6)
Так же, как и	ранее, состояние	у (N — 2)	считаем известным.

Тогда на основании принципа оптимальности состояние у (N — 2) и цель управления — минимизация I п - 2 — определяют опти

мальное управление на интервале ((N — 2) Тп, NTn). Определим

минимум I N —2 п0 и (N — 2) и и (N — 1),	обозначив	его через
S ".
SN-z ( y ( N - 2))= min	IN-2.	(16.3.7)
\|u(2V-2)\|<4?

Учитывая, что минимум I N-i по и (N — 1) уже определен и равен

s n - i (У {N — 1)>	(N — 1))> а У Ф		— 1)	зависит		от	у (N — 2)
и и (N — 2) согласно уравнению			(16.3.1),		выражение (16.3.7)
запишем в виде
$N-2 (У (N — 2)) ~	min	{F(y(N — 2),u(N — 2)) +
	\u(N—2)\^R
+ S„-l ( y ( N - 2 ) + f ( y { N - 2 ) ,			u ( N - 2), (N-2)))}. (16.3.8)
Минимизация здесь производится			также	по	одной		переменной
и (N — 2) при	заданной	координате у (N — 2).				В	результате

определяем оптимальное значение и* (N — 2 ) и 5 „ . г (у (N — 2))

как функции			у (N — 2).			процедуру	оптимизации		по		шагам
	Продолжая		описанную
от конечного момента времениN к начальному,								получим рекуррент
ную формулу
SN_h(y(N — k))=				min	{F (у (N — к), u {N — k)) +
			\u(N-h)\^R
	+ SN-h+i(y ( N - k ) + f ( y ( N - k ) , u ( N - k ) ,							(N — k)))},			(16.3.9)
в	которой	минимизация				производится	по	одной	переменной
и (N — к).		В	результате			оптимальное	управление		и* (N — к)
в	момент	времени		t =	(N — к) Ти определяется как					функция
У	{N — к).									1, . . ., N,
	Применяя формулу (16.3.9) последовательно для к =

определяем управления и* (N — к) и, наконец, приходим к зна чению к = N, при котором определяем и* (N — N) = и* (0) — управление в начальный момент времени, зависящее от начального известного состояния объекта у (0) = у 0. В результате полностью определяется оптимальное управление на заданном промежутке времени.

42 под ред. В. С. Пугачева

658 Г Л . 16. М Е Т О Д Ы О П Р Е Д Е Л Е Н И Я ОПТИ М А ЛЬН О ГО У П Р А В Л Е Н И Я

Весц изложенный алгоритм справедлив и для многомерных систем с любым числом управлений щ, . . ип. Для применения его необходимо заменить скаляры у, и, / в приведенных формулах соответственно векторами у , u , f . В результате потребуется на каж дом этапе минимизировать функцию г переменных щ (N — к), . . .

. . .,	ит(N — к).	При этом на каждом этапе вычислений необхо
димо	определять	и запоминать две функции	S N^ (у (N — к))
и Sjv-fc+i {у (N — к + 1)) п переменных. Это			требует большого

объема памяти при вычислениях на машине. В этом состоят вычислительные трудности метода динамического программи рования.

П р и м е р 16.3.1. Решим задачу, рассмотренную в примере 16.2.4, применив метод динамического программирования. Для этого заменим диффе ренциальное уравнение разностным, а интегральный критерий — суммой. В результате приходим к задаче отыскания оптимального управления в дис кретной системе, описываемой уравнением

Vh+i = Ук+ (“ft — 0,6yk) At

(к = 0, 1, . . N).

Допустим, что объект управления имеет 6 дискретных состояний: 0, 2, 4, 6,

8 , 10. Требуется определить оптимальные управления и*, ограниченные по модулю, I Mft I < 25, при которых объект переходит из начального состояния у0 = 0 в состояние yN = 10 за время Т = 1, так, чтобы минимизировать величину

N -	1
/ = 2	(yh+ l,252ug)At.

ft= 0

Для решения задачи методом динамического программирования примем постоянный интервал дискретности At = 0,2 и, значит, N = 5. Определим сначала траектории, ведущие в конечную точку у$ = 10 из любого положе ния 1/4, в котором система может быть к моменту <4, и вычислим для них значения критерия по формуле

h = (yl + 1,252ц!) At.

Вычисленные значения / 4 приведены в таблице 16.3.1. Там же показаны значения соответствующих управлений ц4.

					ТАБЛИЦА	16.3.1
Уі	0	2	4	6	8	10
h	782	529	332	177	81	31
“ 4	50	41,2	32,4	23,6	14,8	6

На рис. 16.3.1 изображены точки, характеризующие возможные состоя ния объекта. На этом же рисунке прямыми линиями изображены траектории перехода объекта из одного состояния в другое. Над отрезками прямых даны значения критерия / 4 для соответствующих переходов. Из результатов вычис-

§ 16.3. Д И Н А М И Ч ЕС К О Е ПРОГРА М М И РО ВА Н И Е

659

лений и таблицы 16.3.1 следует, что возможны только три траектории пере хода, для которых I іі4 I < 25. Эти траектории отмечены сплошными отрез ками прямых, а остальные — пунктиром. Следовательно, в момент времени t4 — 0 ,8 объект может находиться

в трех положениях: 6 , 8 или 1 0 . На следующем этапе вычи

сляем

^= (»1+ 1,25«» At+ Л

иопределяем траектории перехода в состояние г/g = 10 из различных состояний в момент t3. Надо най


ти для каждого исходного поло
жения		этого этапа		единственный
оптимальный путь, имеющий наи
меньшее значение І 3 и допустимое
и3. На рис. 16.3.1 сплошными ли
ниями показаны эти оптимальные
пути	с обозначением соответству
ющих		значений	А І3 =		І 3 — / 4.
	На следующем и вообще нэ
каждом текущем участке тоже для
каждого исходного положения вы
бирается единственная					оптималь
ная	траектория		с	наименьшим
значением критерия, удовлетворя
ющая		ограничению			\| и \| < 25.	Рис. 16.3.1.
В результате такого целенаправ

ленного перебора возможных ре
шений,		на каждом следующем расчетном этапе для каждого исходного состоя
ния	исключаются			неоптимальные варианты и выбирается только одип —

оптимальный вариант. Продолжая таким образом вычисления и построения оптимальных траекторий из каждой исходной точки, доходим до последнего этапа, на котором рассматривается одна исходная точка у0 — 0. Для этой точки строятся траектории в точке 0, 2, 4, 6 , 8 , 10, и для них вычисляются управления и критерий

/o = (»?+ l,25*«»A t+ /1.

После этого определяется, на какой траектории суммарный критерий мини мален. Минимальное значение критерия в данном случае S0 — 268 дости гается для траектории, показанной на рис. 16.3.1 жирной линией. В табли це 16.3.2 приведены отрезки оптимальной траектории, соответствующие

оптимальные управления и% и значения критерия АІк на этих отрезках.

					ТАБЛИЦА 16.3.2
Ук	0	2	4	6	8	10
t	0	0 ,2	0,4	0 ,6	0 ,8	1
ик	10	1 1 , 2	12,4	13,6	14,8
АІк	31	40	51	65	81	2 = 268

42*

660 ГЛ . 16. М ЕТО ДЫ О П Р Е Д Е Л Е Н И Я ОПТИМ АЛЬНОГО У П Р А В Л Е Н И Я

§16.4. Применение динамического программирования

кнепрерывным системам

Метод динамического программирования может быть при некоторых допущениях распространен также на непрерывные системы и приводит к своеобразному дифференциальному уравне нию в частных производных.

Рассмотрим задачу оптимизации управления при интеграль ном критерии и заданном начальном состоянии объекта. Конечное состояние объекта может быть фиксированным или произвольным. Пусть поведение объекта описывается системой уравнений в век

торной форме
У = / (у, и, t), у (t0) = У о,	(16.4.1)

где у и и — векторы, размерности п, г соответственно, г ^ п. Предположим, что управление объектом производится на заданном интервале времени (t0, tK) и требуется выбрать вектор управления и, принадлежащий области R, и £ R, минимизирующий функцио нал

I (*к) = j F(y(t), и (t), t)dt + Q (у (*„)),

(16.4.2)

где F — заданная интегрируемая функция, Q — заданная функция конечного состояния объекта. Обозначим через и* (t) вектор оптимального управления, а через у (t) траекторию объекта при

оптимальном управлении. Для этой оптимальной траектории введем функцию Веллмана

4к

S(y(t), *) = m m [ j F (у (т), и (т), т) т + <? (»/(«„))]\ (16.4.3)

Она в общем случае зависит от координат оптимизируемого интер вала и самого момента времени t.

Выведем уравнение, которому удовлетворяет функция S, применив принцип оптимальности. Для этого возьмем бесконечно малый интервал (t, t + At) и предположим, что оптимальное управ ление для интервала (< + At, tK) найдено. Перепишем формулу

(16.4.3) в виде

t+At