Файл: Шахнович, А. Р. Математические методы в исследовании биологических систем регулирования.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 19.10.2024
Просмотров: 94
Скачиваний: 0
Д ля подавляющего большинства динамических задач функцио нал представляется в интегральном виде.
т
J = ^ G (у, х, z, и, t) dt,
о
где G (у, X, z, и, t) — функция оценки. По значению функционала можно определить не только экстремальное значение, но и оценить ухудшение работы системы по величине отклонения / — J ext- Классификация критериев оптимальности возможна по разным признакам.
Критерии могут относиться к длительности переходного про цесса. Подобный критерий используется в задаче оптимального быстродействия и имеет вид
г
J = ^dt.
о
Здесь функция оценки есть единица. .
Критерии могут относиться к переходным процессам или установившимся значениям. Приемлемое представление о качестве переходного процесса дает так называемый обобщенный интег ральный критерий
Оі = 0
так как здесь ограничено длительное существование отклонения и производных. На практике обычно ограничиваются первыми дву- мя-тремя членами суммы функции оценки.
Для оценки установившегося состояния достаточно приемле мым является критерий вида
т
хІрНв = lim -т=-\ x2(t)dt.
о
В качестве примера критерия минимального отклонения процесса X (t) от некоторой заданной величины x*(t) можно рассмотреть функционал
оо
J = ^ {а (х* - х) 2 + W } dt.
о
При решении оптимальных стохастических задач параметры функ ции оценки представляют собой случайные процессы. Поскольку экстремальное значение критерия есть величина детерминиро-
22
паиная, то критерии записывают в виде
т
J = MJ^G (х, и, t) dt},
о
где M — математическое ожидание.
При выборе функционала для решения конкретной оптималь ной задачи целесообразно руководствоваться следующими тре бованиями:
1)наилучшее качество работы системы должно соответство вать экстремуму функционала;
2)функционал должен обладать одним «глобальным» экстре мумом;
3)функция оценки функционала должна быть достаточно про стой и аналитической;
4)для выбранного функционала должно существовать опти мальное управление.
Задача |
считается решенной, |
если |
получен алгоритм и = |
|
= / (х{), |
і |
= 1, п, который дает точное решение задачи или прибли |
||
женное |
решение при оцененной |
сверху |
ошибке. |
|
Аналитические выражения могут быть получены лишь для про |
||||
стейших |
|
случаев. |
|
|
Рассмотрим подробнее динамическое программирование. Рас
смотрим задачу об управлении |
динамическим |
объектом, |
моделью |
|||
|
|
|
dx |
-2. . |
— |
га-мер |
динамики которого является |
у р а в н е н и е - ^ - = f(x, и), х |
|||||
ный вектор, |
и — m-мерный вектор, |
и ЕЕ U. |
|
|
|
|
Требуется |
минимизировать |
функционал |
|
|
|
|
|
т |
|
|
|
|
|
|
/ = \ |
G[x(t),u{t)]dt, |
|
|
|
|
здесь Т — фиксировано. |
|
|
|
|
|
|
В основе метода динамического программирования |
лежит |
|||||
принцип оптимальности Беллмана, |
сформулированный |
для ши |
рокого круга детерминистических и стохастических' систем, бу
дущее |
поведение |
которых |
определяется их состоянием в данный |
|
момент и не зависит от предыстории (Беллман, 1960). |
||||
Рассмотрим в фазовом пространстве состояний траекторию |
||||
точки |
X : х0 |
хг |
-*- х2. Второму участку соответствует вторая |
|
часть |
функционала |
|
||
|
|
|
т |
|
|
|
|
J |
G[x(t),u(t)]dt. |
|
|
|
h |
|
Этот участок может рассматриваться как самостоятельная траек тория, и она будет оптимальной, если этот функционал минимален.
23
Теперь можно сформулировать принцип оптимальности Белл - мана так: «Второй участок оптимальной траектории — всегда
оптимальная траектория». |
|
|
|
Это означает, |
что если хх |
— состояние системы в |
момент |
tx, то независимо |
от того, как |
система в это положение |
попа |
ла, ее оптимальным последующим движением будет траектория
Этот принцип достаточно общий и справедлив как для непре рывных, так и для дискретных систем. Этот принцип оптимально сти кажется на первый взгляд тривиальным, но на самом деле это не так.
Выводом из этого принципа является правило — нужно до биваться не локального успеха, а конечного. Это правило ис пользуют, например, бегуны на длинные дистанции. Они никогда не бегут на каждом этапе с максимальной скоростью, а экономят вна чале силы, чтобы не выдохнуться к концу. Или, иначе говоря,
добиваются минимального значения функционала |
/ на всем ин |
|||||||||
тервале t0, |
Т. |
|
|
|
|
|
|
|
|
|
Можно |
дать другую |
формулировку |
принципа |
оптимальности: |
||||||
«Оптимальное |
управление не зависит |
от «предыстории» |
системы |
|||||||
и определяется ее состоянием в данный момент времени». |
||||||||||
Эти рассуждения можно проследить на простом |
примере: |
|||||||||
уравнение |
первого |
порядка |
|
|
|
|
|
|||
|
|
|
|
|
dx |
, , |
, |
|
|
|
|
|
|
|
|
-зг = /і (*.")• |
|
|
|||
Здесь х,и |
не вектора, а просто |
функции, и необходимо найти |
||||||||
закон |
управления, |
при котором |
|
|
|
|
|
|||
|
|
|
|
|
т |
|
|
|
|
|
|
|
|
|
J = |
^ G1(x,u)dt |
+ |
q>1[x(T)] |
|
|
|
|
|
|
|
|
и |
|
|
|
|
|
будет |
минимальным (t0 |
= О, Т |
— фиксировано). При |
решении |
||||||
задач |
с |
помощью |
динамического |
программирования |
систему |
прежде всего приводят в дискретную форму. Это, с одной стороны,
необходимо .для решения |
задачи на машине, а с другой — мето |
|
дика проще в дискретной форме. Интервал [О, Т] разбиваем на N |
||
равных участков длиной |
(N — /с)Д и будем рассматривать лишь |
|
дискретные |
значения х = |
х (к), и — и (к);, к = 0,1, ... N соответ |
ственно t = |
0, 1Д, ...(N |
— 1) A, ІѴД = Г. Тогда дифференциаль |
ное уравнение можно приближенно заменить дифференциально-раз
ностным уравнением х (к + 1) = |
х (к) |
+ / \х (к), |
и (к)]. Началь |
||
ное условие остается |
прежним: х (0) = |
[х](=о — |
#(0)- |
||
Интеграл приближенно |
заменяем |
суммой |
|
||
|
J V - 1 |
|
|
|
|
/ = |
2 |
G[x(k),u(k)] + |
q>lx(N)]. |
(1-2-2) |
|
|
71=0 |
|
|
|
24
Задача теперь состоит в определении последовательности дис кретных значений управляющего воздействия и : и (0), и (1) ...
...u(N—1), минимизирующих сумму 1-2-2, т. е. нужно найти ми нимум сложной функции многих переменных. Метод дает возмож ность свести эту операцию к последовательной минимизации функ ции одного переменного.
Для решения задачи используется прием, называемый «по пятным движением», начиная от последней точки оптимальной траектории x (Т) к началу х (0).
Рассмотрим момент времени t = (N — 1)Д. Будем считать, что все
и(і) )
определены и известно x (N — 1) Д. По принципу оптимальности неизвестное и [(N — 1)Д] влияет лишь на те члены 1-2-2, кото рые относятся к этому участку
JN-i = G [x l(N — 1)], и [(N - 1)]} + ф lx(N)),
но из уравнения объекта можно видеть, что если
x [N] = x IN - 1] + / [x (N - 1), |
и (N - 1)], |
то можно найти и (N — 1), минимизирующее /уѵ-і, так как оно входит в оба уравнения. Обозначші искомое минимальное значение min JN-I = Sjv-i
Sn-JLx (N•— 1)] = min/лг-і \u (N — 1)] = min {G [x (N —
- 1 ) , 'u(N-l)} |
|
+ |
q>\x(N-i) |
|
+flx(N |
-l)tu.(N |
|
-i)]]}. |
||||||||
Здесь нужно минимизировать только по и (N — 1). |
|
|
||||||||||||||
Выполнив |
эту |
операцию, |
запомним |
iSjv-i [я (N — 1)] |
и |
получен |
||||||||||
ное |
значение |
и* (N |
— 1). |
Перейдем |
к предыдущему интервалу |
|||||||||||
N — 2. |
Здесь |
|
все |
будет |
зависеть от и (N — 2) и и (N |
— 1), но |
||||||||||
все, |
на что влияет и (N — 1),уже найдено, т. е. остается аналогич |
|||||||||||||||
ная |
процедура |
|
для и (N — 2), |
так как |
|
|
|
|
||||||||
|
J |
N |
. . 2 = |
|
G[x{N |
- |
2), |
u{N |
- |
2)] +G{[x |
(N - |
1), |
||||
|
|
|
|
|
|
u(N |
|
|
|
+f[x(N)]}. |
|
|
|
|||
Переходя аналогичным образом к N— |
3, N — 4 ... |
2,1 |
и 0 ин |
|||||||||||||
тервалам, |
получим |
рекуррентную |
формулу |
|
|
|
||||||||||
|
SN^k |
|
[x (N |
— k)].= |
|
min |
\G [x (N |
— к), и (N — к) |
+ |
|||||||
|
+ |
£ N _ m |
[x (N |
- к ) |
-Vf |
lx |
(N |
- |
к), и (N |
- |
к)]]}. |
25
Одновременно в процессе минимизации определяются и запоми наются значения
и* (N -к) = и* [x (N - к)].
Так мы последовательно подходим к значению и* (0), которое тре буется вначале. Такова вычислительная процедура. Она все же
весьма |
громоздка для сложных систем, так как нужно |
находить |
||||
и запоминать iSjv-d- и J7jv_jt- |
|
|
|
|
||
Попробуем теперь |
ввести |
непрерывный |
аналог |
этой |
процеду |
|
ры: |
|
т |
|
|
|
|
|
|
|
|
|
|
|
dx |
|
Iй |
|
|
|
|
-^- |
= / (х, и, t), |
J = \ |
G (х, u,t) dt, |
minJ = |
S(x°,t0). |
По принципу оптимальности
min / = S [х (t), t]. [X, n
t = t' + At; т і п / ( + д , = S \x -\- Ax, t -\- At].
Вместо рекуррентного соотношения имеем
S [х, t] = min [G lx, и, t] At -|- S [.г', t']} + Ог (At).
u(t)<=U |
и (t) G U |
Уравнение Беллмана, из которого определяется значение опти мального управления:
4 £ - [ * , * ] = min {G[x(t),u(t)] |
+ (grààS (х, t) f[x(t), |
и(t),t]y}. |
(1-2-3)
Здесь S (x, t) — минимальное значение функционала; G (x, и) — функция оценки; / (х, и, t) — правая часть уравнения объекта:
gradS |
dS |
dS |
dS |
|
д х ! |
' д х 2 "•' |
дХп |
||
|
<> — скалярное произведение.
П р и м е р . Уравнение объекта (Фельдбаум, 1963)
|
dx\ |
, |
|
|
|
_ |
dX2 |
, |
2. |
|
|
dt |
— Il |
|
1 |
1 |
~2> |
d t |
— J2 — U |
' |
|
функционал |
|
—U X 1 |
~Г Х2> |
~ЙТ~ |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/ |
= |
^ G (хъ |
х3) dt. |
|
|
|
|
Уравнение |
Беллмана |
|
|
|
|
|
|
|
|
|
dSdt |
= min {G (ХЪ |
Х2) |
+ |
- Ц - (uxi + |
+ |
ii2 } , |
||||
если |
|
|
|
|
дхі > о , |
|
|
|
||
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
d |
s |
|
|
|
|
26
то минимум {•} находим из условия
ди - О,
тогда оптимальное управление
U = |
1 |
;гХ |
|
dS |
|
2 |
х |
дх± |
dS |
||
|
|
1 |
|
|
Подставив это в уравнение Беллмана, получим уравнение в частных производных :
|
dS \ 2 |
~дГ ~~ G ^1' х*> + ~діТЖг — х* |
Ts |
|
4- дх% |
которое теперь необходимо решить, получить значения:
dS |
|
dS |
дхі |
' |
дх% |
граничные условия находятся из функционалов. |
||
Перейдем к принципу |
максимума. К сожалению, такой на |
глядной интерпретации принципа максимума Л. С. Понтрягина, как принципа оптимальности Беллмана, не существует. Суще ствует несколько выводов принципа максимума. Вероятно, це лесообразно привести его вывод из динамического программиро
вания, хотя Л . С. Понтрягин |
и его |
ученики Р. В . Гамкрелидзе |
||||
и В . Г. Болтянский вывели принцип |
максимума совершенно не |
|||||
зависимо в 1956 |
г. |
|
|
|
|
|
Введем в дополнение к нашей системе п порядка еще две коор |
||||||
динаты: |
|
|
|
|
|
|
|
х°:-^тг |
|
= fo = G(x,ui)'> |
|
Ы*„ = °; |
|
хп+і |
'• — |
1 |
— fn+i = 1; |
|
(ж7і+і)<=о = О- |
|
Тогда вместо |
-t' |
|
|
|
|
|
|
|
|
dS |
dS |
|
|
|
|
|
d t |
дхп+і |
|
|
Введем теперь обобщенную систему «п + |
2ь координат: |
|||||
|
S |
— |
(XQ, Х^ ... хп, |
x n + 1 ) , |
||
а также |
/ |
= |
(/о> / і |
••• int /n+l)> |
||
|
|
|
|
|
|
|
|
|
|
dS |
|
dS |
dS |
|
|
|
S.T! |
••• |
дхп |
3a;n + 1 |
27