Файл: Основы автоматического управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 316

Скачиваний: 15

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 16.3. Д И Н А М И Ч ЕС К О Е П РО ГРА М М И РО В А Н И Е

657

Таким образом, минимизируя (16.3.4)

по переменной и (N — 1),

определяем функцию S

(у (N — 1),

(N — 1)).

t ^ N T п,

Перейдем теперь к интервалу времени (N 2) Ти ^

состоящему из последнего и предпоследнего участков. Этому

интервалу соответствует сумма,

входящая

в

(16.3.2),

 

I n - 2

= F ( y ( N - 2),

u ( N - 2))

+

І м_,.

(16.3.6)

Так же, как и

ранее, состояние

у (N — 2)

считаем известным.

Тогда на основании принципа оптимальности состояние у (N — 2) и цель управления — минимизация I п - 2 — определяют опти­

мальное управление на интервале ((N — 2) Тп, NTn). Определим

минимум I N —2 п0 и (N — 2) и и (N — 1),

обозначив

его через

S ".

 

 

SN-z ( y ( N - 2))= min

IN-2.

(16.3.7)

|u(2V-2)|<4?

 

 

Учитывая, что минимум I N-i по и (N — 1) уже определен и равен

s n - i (У {N — 1)>

(N — 1))> а У Ф

1)

зависит

от

у (N — 2)

и и (N — 2) согласно уравнению

(16.3.1),

выражение (16.3.7)

запишем в виде

 

 

 

 

 

 

 

$N-2 (У (N — 2)) ~

min

{F(y(N — 2),u(N — 2)) +

 

 

 

\u(N—2)\^R

 

 

 

 

 

 

+ S„-l ( y ( N - 2 ) + f ( y { N - 2 ) ,

u ( N - 2), (N-2)))}. (16.3.8)

Минимизация здесь производится

также

по

одной

переменной

и (N — 2) при

заданной

координате у (N — 2).

В

результате

определяем оптимальное значение и* (N — 2 ) и 5 „ . г (у (N — 2))

как функции

у (N — 2).

 

процедуру

оптимизации

по

шагам

 

Продолжая

описанную

от конечного момента времениN к начальному,

получим рекуррент­

ную формулу

 

 

 

 

 

 

 

 

 

SN_h(y(N — k))=

min

{F (у (N к), u {N — k)) +

 

 

 

 

 

 

\u(N-h)\^R

 

 

 

 

 

 

 

+ SN-h+i(y ( N - k ) + f ( y ( N - k ) , u ( N - k ) ,

(N — k)))},

(16.3.9)

в

которой

минимизация

производится

по

одной

переменной

и (N к).

В

результате

оптимальное

управление

и* (N к)

в

момент

времени

t =

(N к) Ти определяется как

функция

У

{N к).

 

 

 

 

 

 

 

 

1, . . ., N,

 

Применяя формулу (16.3.9) последовательно для к =

определяем управления и* (N к) и, наконец, приходим к зна­ чению к = N, при котором определяем и* (N N) = и* (0) — управление в начальный момент времени, зависящее от начального известного состояния объекта у (0) = у 0. В результате полностью определяется оптимальное управление на заданном промежутке времени.

42 под ред. В. С. Пугачева


658 Г Л . 16. М Е Т О Д Ы О П Р Е Д Е Л Е Н И Я ОПТИ М А ЛЬН О ГО У П Р А В Л Е Н И Я

Весц изложенный алгоритм справедлив и для многомерных систем с любым числом управлений щ, . . ип. Для применения его необходимо заменить скаляры у, и, / в приведенных формулах соответственно векторами у , u , f . В результате потребуется на каж­ дом этапе минимизировать функцию г переменных щ (N к), . . .

. . .,

ит(N к).

При этом на каждом этапе вычислений необхо­

димо

определять

и запоминать две функции

S N^ (у (N к))

и Sjv-fc+i {у (N к + 1)) п переменных. Это

требует большого

объема памяти при вычислениях на машине. В этом состоят вычислительные трудности метода динамического программи­ рования.

П р и м е р 16.3.1. Решим задачу, рассмотренную в примере 16.2.4, применив метод динамического программирования. Для этого заменим диффе­ ренциальное уравнение разностным, а интегральный критерий — суммой. В результате приходим к задаче отыскания оптимального управления в дис­ кретной системе, описываемой уравнением

Vh+i = Ук+ (“ft — 0,6yk) At

= 0, 1, . . N).

Допустим, что объект управления имеет 6 дискретных состояний: 0, 2, 4, 6,

8 , 10. Требуется определить оптимальные управления и*, ограниченные по модулю, I Mft I < 25, при которых объект переходит из начального состояния у0 = 0 в состояние yN = 10 за время Т = 1, так, чтобы минимизировать величину

N -

1

/ = 2

(yh+ l,252ug)At.

ft= 0

Для решения задачи методом динамического программирования примем постоянный интервал дискретности At = 0,2 и, значит, N = 5. Определим сначала траектории, ведущие в конечную точку у$ = 10 из любого положе­ ния 1/4, в котором система может быть к моменту <4, и вычислим для них значения критерия по формуле

h = (yl + 1,252ц!) At.

Вычисленные значения / 4 приведены в таблице 16.3.1. Там же показаны значения соответствующих управлений ц4.

 

 

 

 

 

ТАБЛИЦА

16.3.1

Уі

0

2

4

6

8

10

h

782

529

332

177

81

31

“ 4

50

41,2

32,4

23,6

14,8

6

На рис. 16.3.1 изображены точки, характеризующие возможные состоя­ ния объекта. На этом же рисунке прямыми линиями изображены траектории перехода объекта из одного состояния в другое. Над отрезками прямых даны значения критерия / 4 для соответствующих переходов. Из результатов вычис-


§ 16.3. Д И Н А М И Ч ЕС К О Е ПРОГРА М М И РО ВА Н И Е

659

лений и таблицы 16.3.1 следует, что возможны только три траектории пере­ хода, для которых I іі4 I < 25. Эти траектории отмечены сплошными отрез­ ками прямых, а остальные — пунктиром. Следовательно, в момент времени t4 0 ,8 объект может находиться

в трех положениях: 6 , 8 или 1 0 . На следующем этапе вычи­

сляем

^= (»1+ 1,25«» At+ Л

иопределяем траектории перехода в состояние г/g = 10 из различных состояний в момент t3. Надо най­

ти для каждого исходного поло­

 

жения

этого этапа

единственный

 

оптимальный путь, имеющий наи­

 

меньшее значение І 3 и допустимое

 

и3. На рис. 16.3.1 сплошными ли­

 

ниями показаны эти оптимальные

 

пути

с обозначением соответству­

 

ющих

значений

А І3 =

І 3 — / 4.

 

 

На следующем и вообще нэ

 

каждом текущем участке тоже для

 

каждого исходного положения вы­

 

бирается единственная

оптималь­

 

ная

траектория

с

наименьшим

 

значением критерия, удовлетворя­

 

ющая

ограничению

| и | < 25.

Рис. 16.3.1.

В результате такого целенаправ­

 

ленного перебора возможных ре­

 

шений,

на каждом следующем расчетном этапе для каждого исходного состоя­

ния

исключаются

неоптимальные варианты и выбирается только одип —

оптимальный вариант. Продолжая таким образом вычисления и построения оптимальных траекторий из каждой исходной точки, доходим до последнего этапа, на котором рассматривается одна исходная точка у0 — 0. Для этой точки строятся траектории в точке 0, 2, 4, 6 , 8 , 10, и для них вычисляются управления и критерий

/o = (»?+ l,25*«»A t+ /1.

После этого определяется, на какой траектории суммарный критерий мини­ мален. Минимальное значение критерия в данном случае S0 — 268 дости­ гается для траектории, показанной на рис. 16.3.1 жирной линией. В табли­ це 16.3.2 приведены отрезки оптимальной траектории, соответствующие

оптимальные управления и% и значения критерия АІк на этих отрезках.

 

 

 

 

 

ТАБЛИЦА 16.3.2

Ук

0

2

4

6

8

10

t

0

0 ,2

0,4

0 ,6

0 ,8

1

ик

10

1 1 , 2

12,4

13,6

14,8

 

АІк

31

40

51

65

81

2 = 268

42*



660 ГЛ . 16. М ЕТО ДЫ О П Р Е Д Е Л Е Н И Я ОПТИМ АЛЬНОГО У П Р А В Л Е Н И Я

§16.4. Применение динамического программирования

кнепрерывным системам

Метод динамического программирования может быть при некоторых допущениях распространен также на непрерывные системы и приводит к своеобразному дифференциальному уравне­ нию в частных производных.

Рассмотрим задачу оптимизации управления при интеграль­ ном критерии и заданном начальном состоянии объекта. Конечное состояние объекта может быть фиксированным или произвольным. Пусть поведение объекта описывается системой уравнений в век­

торной форме

 

У = / (у, и, t), у (t0) = У о,

(16.4.1)

где у и и — векторы, размерности п, г соответственно, г ^ п. Предположим, что управление объектом производится на заданном интервале времени (t0, tK) и требуется выбрать вектор управления и, принадлежащий области R, и £ R, минимизирующий функцио­ нал

I (*к) = j F(y(t), и (t), t)dt + Q (у (*„)),

(16.4.2)

to

где F — заданная интегрируемая функция, Q — заданная функция конечного состояния объекта. Обозначим через и* (t) вектор оптимального управления, а через у (t) траекторию объекта при

оптимальном управлении. Для этой оптимальной траектории введем функцию Веллмана

S(y(t), *) = m m [ j F (у (т), и (т), т) т + <? (»/(«„))]\ (16.4.3)

Она в общем случае зависит от координат оптимизируемого интер­ вала и самого момента времени t.

Выведем уравнение, которому удовлетворяет функция S, применив принцип оптимальности. Для этого возьмем бесконечно малый интервал (t, t + At) и предположим, что оптимальное управ­ ление для интервала (< + At, tK) найдено. Перепишем формулу

(16.4.3) в виде

t+At

S ( y (<), 0 = min Г ( F( y (т),

w (t ),

x ) d x

+

u£R L J

 

 

 

*H

 

_

+ j

F ( y

( t),

u (t ), t) dx + Q i y (* „ ))]

i+At