Файл: Методы оптимизации в статистических задачах управления..pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 106
Скачиваний: 0
Таким образом, выбор точки х1 сводится к решению сложной задачи стохастического нелинейного программирования. Суще ственно, что для ее решения не требуется производить экспери ментов с системой, т. е. вычислять значение F (х).
Эта задача существенно упрощается, если / = 2. В этом слу чае, аналогично примеру, рассмотренному в настоящем пара графе, точка X 1 , минимизирующая выражение (340), может быть определена из условия максимума дисперсии разности апосте риорных средних значений функции в точках z1 и z2. Отсюда следует, что точка х1 может быть определена из условия макси мума по X 1 С D выражения дисперсии
D [К (г1) — F (z2)] = |
[/* |
(X1) 9 ° ( f ( z i ) - / ( z 2))P |
(341) |
|
/ * |
( X 1) Ѳ О Д Х О + О 2 (.X1) |
|||
|
|
Максимизация выражения (341) существенно проще, так как в нем отсутствует операция вычисления математического ожи дания.
3. После проведения первого эксперимента (выбора точки х1) производится уточнение статистических характеристик вектора с
и в соответствии с ним выбор новой системы I перспективных точек. Далее этот процесс повторяется.
Приведенный алгоритм был применен для минимизации ква дратичной функции одной переменной при различных диспер сиях ее параметров. В процессе применения алгоритма было принято I = 2. Перспективные точки г1 и z2 определялись из условия
z1 |
т2 |
Щ |
2т3 + Р\ |
2т3 — Р, |
где т 2 и т3— средние значения коэффициентов при х1 и х2 для минимизируемой квадратичной функции; р — параметр, опре деляющий смещение перспективных точек относительно точки экстремума (в данном случае было принято р = 1).
Эффективность метода определялась по методу Монте-Карло. Сравнение полученных результатов метода с результатами при менения стохастической аппроксимации при оптимальном выборе размера шага (см. п. 11, гл. Ill) показали, что квазиоптимальный метод оказывается более эффективным, чем метод стохастической аппроксимации, причем разница тем более заметна, чем больше степень неопределенности относительно второй производной мини мизируемой квадратичной функции.
Г Л А В А IV
ПРИМЕНЕНИЕ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
ВЗАДАЧАХ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ
I. Оптимизация управления при точном измерении фазовых координат объекта
В предыдущих главах изложены методы приближенного рас чета стохастических систем управления. Применение этих мето дов позволяет выбрать близкие к оптимальным значения неко торых свободных параметров в системе при жестком задании ее структуры. Систему управления с обратной связью, работающую
вусловиях случайных воздействий и помех, можно представить
снование метода, его приложение к решению задач дуального управления и ряд других вопросов [12, 13, 17, 91, 101].
Изложим постановку задачи стохастического оптимального управления в случае точного измерения фазовых координат объ екта. Объект управления задан системой дифференциальных урав нений:
* = f{t, X, u) + G (t) g (0, |
(342) |
где X— вектор выходных координат объекта п измерений; и — вектор управляющих воздействий q измерений; / (t, х, и) — вектор-функция п измерения; G (t) — матрица переменных коэф фициентов размерности [п, т]\ | (t) — вектор т измерений воз мущающих воздействий на объект, представляющий собой нор мально распределенный «белый» шум с характеристиками
|
|
М \ |
(і) = 0; |
|
|
|
M l (t,) l* (t2) |
= Q (^ )6 ( t , - t2). |
|
Задача |
состоит в выборе такого управления и (т), |
[0, Г] |
||
из множества допустимых управлений V, которое минимизирует |
||||
показатель |
/, |
определяемый |
выражением |
|
/ |
= |
М | | ф [т, X (т), и (т)] dx + X [Т, X (Т)]|. |
(344) |
Рассмотренный здесь нелинейный объект управления является наиболее типичным для практических задач. Однако в класс объектов, описываемых уравнением (342), не включены объекты, в которых интенсивность шумовых возмущений зависит от состоя ния объекта, в частности, объекты с мультипликативной помехой. Одна из задач этого типа будет рассмотрена в гл. V. Кроме того, в рассматриваемый класс объектов не включены объекты, у кото рых некоторые из фазовых координат представляют собой раз рывные случайные процессы [156]. Такие объекты представляют интерес, например, в задачах надежности.
Характер возмущений | (t) [см. формулу (343)], действующих на объект, таков, что вектор фазовых координат х (t) образует марковский процесс диффузионного типа (см. п. 4 гл. I).
Управление, как правило, реализуется в схеме с обратной связью. Это означает, что желательно найти управление как функцию текущих фазовых координат объекта:
и = |
и (t,' X (t)). |
(345) |
Отсутствие в выражении |
(345) зависимости от значений |
век |
тора X (т) при т < і, т. е. безынерционный характер регулятора, следует из марковского свойства вектора х (і). Метод динамиче ского программирования позволяет определить оптимальное упра вление в виде функции фазового состояния объекта, что чрезвы чайно удобно при реализации проектируемой системы.
152
Перейдем к изложению метода динамического программирова ния. Пусть в момент времени t система находится в состоянии X (t) = X . Составляющая критерия оптимальности (344), связан ная с процессом управления на интервале времени [(, Т] при некотором управлении и (т, х (т)), т £ Н, Т ] оцениваются величиной
Wt = .М I |ф [т, X (т), и (т)] dx + Я [Г, х (Т) ] j х (t) = x j, (346)
которую в дальнейшем будем называть оставшимися потерями. Выражение (346) представляет собой условное математическое ожидание относительно текущего состояния вектора х (/). Остав шиеся потери (346) зависят от момента времени t, состояния
объекта х и принятого |
закона управления и (т), |
U, Т], т. е. |
Wt = W |
it, X , и (т), т elf, TU. |
(347) |
Минимальное значение Wt, достигаемое при оптимальном управлении, будет называться функцией Веллмана W0:
W0(t, |
х) — min |
W[t, X , и (т), |
т б К, Г]] = |
|
и (x)^-U |
|
|
|
*(=[<■ П |
|
|
= min М ( |
[ ф [т, X(т), |
и (т)] dx -f к[Т, |
х (Т)] | х (t) = х ]. (348) |
u{t)£U I/ |
|
J |
T £ l t , TI
В соответствии с принципом Веллмана в произвольный мо мент времени t управление должно выбираться таким, чтобы минимизировать оставшиеся потери. Оно не зависит от предше ствующих моменту t управлений и от пути достижения век тором X (т), X £ [0, t] состояния X в момент t. Этот принцип поло жен в основу вывода уравнения, которому удовлетворяет функция Веллмана W0 (t, х).
Предполагая кусочную непрерывность функции ф (т, х, и) по аргументам т, х, и и управления и (т, х) по аргументам т, х, представим функцию Веллмана (348) в следующей форме:
[ Ч А
|
W, (t, |
х) — min М\ |
ф [т, X (т) и (т)] dx + |
|
|
Ы(т)£С/ ( |
І |
|
|
, т £ [< ,П |
|
Т |
|
|
|
+ I |
ф [т, |
X (т), и (т)] dx] dx + К[Т, х (Г)] \x(t) — x |
|
А |
А |
|
|
= min |
I ф [t, X , и fO]А + о (А) + М |
и (т)£ U |
I |
153
+ min |
м \ [ <р[т, |
X |
(т), и (т)] d t -{-Ä, [Г, |
x(T)\x(t) = * ||, |
и ( т ) £ и |
U + Д |
|
|
|
х^[;+д,г] |
|
|
|
|
|
|
|
о(Л) А |
(349) |
где |
|
|
|
|
|
|
lim- ѵ. ' == 0. |
|
|
|
|
|
д->о |
|
Процесс |
усреднения |
в |
выражении (349) |
можно производить |
вдва этапа:
м| J <р [т, X (т), и (т)] dx + X [Т, X (Т)] I X (t) = *J =
= М \м ( fф [т, л: (т), и (т)] dx + Я, [Т , х (7)] | л: (t + Д) =
II t + A
=г/| \х (/)= д:| = М [W[t + А, у, и( т), т 6 V + А, T]]\x{f)= х).
(350)
Это соответствует применению обобщенного уравнения Мар кова для процесса х (t):
р (т, г \ и х) = |
СО Idyp (т, г \ t |
+ |
А, у) |
p (t + А, у \ t, х) |
|
|
|
•—СО |
|
|
|
для / <« £ + |
А << т. |
|
|
|
|
Применяя соотношения (348), (350) к формуле (349), а также |
|||||
полагая и (t) |
= и, получим следующее выражение для функции |
||||
Веллмана: |
|
|
|
|
|
|
Wо (t, |
х) = min {ф(t, |
X , |
и) А + |
о (А) -)- |
|
|
u£U { |
|
|
|
|
+ min |
M{№[^ + A, |
у, |
и (т), |
т £ [*+ |
u(x)^U
т£ [ 1 + Д , Г ]
+А, 7’]] I л: (^) = л:}} = min {ф (г1, х, и) Д +
+ о(А) + М {Г 0(* + А, у)\х(і) = х)\. |
(351) |
154