Файл: Методы оптимизации в статистических задачах управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 106

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Таким образом, выбор точки х1 сводится к решению сложной задачи стохастического нелинейного программирования. Суще­ ственно, что для ее решения не требуется производить экспери­ ментов с системой, т. е. вычислять значение F (х).

Эта задача существенно упрощается, если / = 2. В этом слу­ чае, аналогично примеру, рассмотренному в настоящем пара­ графе, точка X 1 , минимизирующая выражение (340), может быть определена из условия максимума дисперсии разности апосте­ риорных средних значений функции в точках z1 и z2. Отсюда следует, что точка х1 может быть определена из условия макси­ мума по X 1 С D выражения дисперсии

D [К (г1) — F (z2)] =

[/*

(X1) 9 ° ( f ( z i ) - / ( z 2))P

(341)

/ *

( X 1) Ѳ О Д Х О + О 2 (.X1)

 

 

Максимизация выражения (341) существенно проще, так как в нем отсутствует операция вычисления математического ожи­ дания.

3. После проведения первого эксперимента (выбора точки х1) производится уточнение статистических характеристик вектора с

и в соответствии с ним выбор новой системы I перспективных точек. Далее этот процесс повторяется.

Приведенный алгоритм был применен для минимизации ква­ дратичной функции одной переменной при различных диспер­ сиях ее параметров. В процессе применения алгоритма было принято I = 2. Перспективные точки г1 и z2 определялись из условия

z1

т2

Щ

2т3 + Р\

2т3 — Р,

где т 2 и т3— средние значения коэффициентов при х1 и х2 для минимизируемой квадратичной функции; р — параметр, опре­ деляющий смещение перспективных точек относительно точки экстремума (в данном случае было принято р = 1).

Эффективность метода определялась по методу Монте-Карло. Сравнение полученных результатов метода с результатами при­ менения стохастической аппроксимации при оптимальном выборе размера шага (см. п. 11, гл. Ill) показали, что квазиоптимальный метод оказывается более эффективным, чем метод стохастической аппроксимации, причем разница тем более заметна, чем больше степень неопределенности относительно второй производной мини­ мизируемой квадратичной функции.


в виде блок-схемы, показанной на рис. 38. Объект управления с выходными координатами, объединенными в вектор х, подвер­ гается внешнему воздействию г, шумовым возмущениям | и упра­ вляющему воздействию и. Управление и вырабатывается на основании располагаемой информации о состоянии объекта упра­ вления х. Эта информация содержится в измерениях у, которые в общем случае проводятся на фоне помех гр Это означает, что устройство управления должно вырабатывать управляющее воз­ действие совместно с обработкой данных о состоянии объекта.
Задание структуры системы управления здесь понимается как задание аналитического описания всех блоков с точностью до значений параметров. При проектировании системы такие параметры могут быть не конкретизированы в уравнениях изме­ рителя, блока обработки данных и регулятора.
Возможен иной подход к проблеме расчета оптимальной стохастической системы управления. Здесь изложен один из мето­ дов аналитического проектирования, который позволяет опреде­ лить структуру системы управления, а именно — стохастическое динамическое программирование.
Кроме того, в этой главе рассмот­ рен вопрос об оптимальной обра­ ботке данных, тесно связанный с задачей аналитического проек­ тирования стохастического управ­ ления.
Метод динамического програм­ мирования развит Веллманом и
другими авторами, которые рас­ Рис. 38. Блок-схема]системы управ­ сматривали математическое обо- ления
151

Г Л А В А IV

ПРИМЕНЕНИЕ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

ВЗАДАЧАХ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ

I. Оптимизация управления при точном измерении фазовых координат объекта

В предыдущих главах изложены методы приближенного рас­ чета стохастических систем управления. Применение этих мето­ дов позволяет выбрать близкие к оптимальным значения неко­ торых свободных параметров в системе при жестком задании ее структуры. Систему управления с обратной связью, работающую

вусловиях случайных воздействий и помех, можно представить


снование метода, его приложение к решению задач дуального управления и ряд других вопросов [12, 13, 17, 91, 101].

Изложим постановку задачи стохастического оптимального управления в случае точного измерения фазовых координат объ­ екта. Объект управления задан системой дифференциальных урав­ нений:

* = f{t, X, u) + G (t) g (0,

(342)

где X— вектор выходных координат объекта п измерений; и вектор управляющих воздействий q измерений; / (t, х, и) вектор-функция п измерения; G (t) — матрица переменных коэф­ фициентов размерности [п, т]\ | (t) — вектор т измерений воз­ мущающих воздействий на объект, представляющий собой нор­ мально распределенный «белый» шум с характеристиками

 

 

М \

) = 0;

 

 

 

M l (t,) l* (t2)

= Q (^ )6 ( t , - t2).

 

Задача

состоит в выборе такого управления и (т),

[0, Г]

из множества допустимых управлений V, которое минимизирует

показатель

/,

определяемый

выражением

 

/

=

М | | ф [т, X (т), и (т)] dx + X [Т, X (Т)]|.

(344)

Рассмотренный здесь нелинейный объект управления является наиболее типичным для практических задач. Однако в класс объектов, описываемых уравнением (342), не включены объекты, в которых интенсивность шумовых возмущений зависит от состоя­ ния объекта, в частности, объекты с мультипликативной помехой. Одна из задач этого типа будет рассмотрена в гл. V. Кроме того, в рассматриваемый класс объектов не включены объекты, у кото­ рых некоторые из фазовых координат представляют собой раз­ рывные случайные процессы [156]. Такие объекты представляют интерес, например, в задачах надежности.

Характер возмущений | (t) [см. формулу (343)], действующих на объект, таков, что вектор фазовых координат х (t) образует марковский процесс диффузионного типа (см. п. 4 гл. I).

Управление, как правило, реализуется в схеме с обратной связью. Это означает, что желательно найти управление как функцию текущих фазовых координат объекта:

и =

и (t,' X (t)).

(345)

Отсутствие в выражении

(345) зависимости от значений

век­

тора X (т) при т < і, т. е. безынерционный характер регулятора, следует из марковского свойства вектора х (і). Метод динамиче­ ского программирования позволяет определить оптимальное упра­ вление в виде функции фазового состояния объекта, что чрезвы­ чайно удобно при реализации проектируемой системы.

152


Перейдем к изложению метода динамического программирова­ ния. Пусть в момент времени t система находится в состоянии X (t) = X . Составляющая критерия оптимальности (344), связан­ ная с процессом управления на интервале времени [(, Т] при некотором управлении и (т, х (т)), т £ Н, Т ] оцениваются величиной

Wt = .М I |ф [т, X (т), и (т)] dx + Я [Г, х (Т) ] j х (t) = x j, (346)

которую в дальнейшем будем называть оставшимися потерями. Выражение (346) представляет собой условное математическое ожидание относительно текущего состояния вектора х (/). Остав­ шиеся потери (346) зависят от момента времени t, состояния

объекта х и принятого

закона управления и (т),

U, Т], т. е.

Wt = W

it, X , и (т), т elf, TU.

(347)

Минимальное значение Wt, достигаемое при оптимальном управлении, будет называться функцией Веллмана W0:

W0(t,

х) — min

W[t, X , и (т),

т б К, Г]] =

 

и (x)^-U

 

 

 

*(=[<■ П

 

 

= min М (

[ ф [т, X(т),

и (т)] dx -f к[Т,

х (Т)] | х (t) = х ]. (348)

u{t)£U I/

 

J

T £ l t , TI

В соответствии с принципом Веллмана в произвольный мо­ мент времени t управление должно выбираться таким, чтобы минимизировать оставшиеся потери. Оно не зависит от предше­ ствующих моменту t управлений и от пути достижения век­ тором X (т), X £ [0, t] состояния X в момент t. Этот принцип поло­ жен в основу вывода уравнения, которому удовлетворяет функция Веллмана W0 (t, х).

Предполагая кусочную непрерывность функции ф (т, х, и) по аргументам т, х, и и управления и (т, х) по аргументам т, х, представим функцию Веллмана (348) в следующей форме:

[ Ч А

 

W, (t,

х) — min М\

ф [т, X (т) и (т)] dx +

 

 

Ы(т)£С/ (

І

 

 

, т £ [< ,П

 

Т

 

 

 

+ I

ф [т,

X (т), и (т)] dx] dx + К[Т, х (Г)] \x(t) — x

А

А

 

 

= min

I ф [t, X , и fO]А + о (А) + М

и )£ U

I

153


+ min

м \ [ <р[т,

X

(т), и (т)] d t -{-Ä, [Г,

x(T)\x(t) = * ||,

и ( т ) £ и

U + Д

 

 

 

х^[;+д,г]

 

 

 

 

 

 

 

о(Л) А

(349)

где

 

 

 

 

 

lim- ѵ. ' == 0.

 

 

 

 

д->о

 

Процесс

усреднения

в

выражении (349)

можно производить

вдва этапа:

м| J <р [т, X (т), и (т)] dx + X [Т, X (Т)] I X (t) = *J =

= М ( fф [т, л: (т), и (т)] dx + Я, [Т , х (7)] | л: (t + Д) =

II t + A

=г/| (/)= д:| = М [W[t + А, у, и( т), т 6 V + А, T]]\x{f)= х).

(350)

Это соответствует применению обобщенного уравнения Мар­ кова для процесса х (t):

р (т, г \ и х) =

СО Idyp (т, г \ t

+

А, у)

p (t + А, у \ t, х)

 

 

•—СО

 

 

 

для / <« £ +

А << т.

 

 

 

 

Применяя соотношения (348), (350) к формуле (349), а также

полагая и (t)

= и, получим следующее выражение для функции

Веллмана:

 

 

 

 

 

 

Wо (t,

х) = min {ф(t,

X ,

и) А +

о (А) -)-

 

 

u£U {

 

 

 

 

+ min

M{№[^ + A,

у,

и (т),

т £ [*+

u(x)^U

т£ [ 1 + Д , Г ]

+А, 7’]] I л: (^) = л:}} = min (г1, х, и) Д +

+ о(А) + М {Г 0(* + А, у)\х(і) = х)\.

(351)

154