Файл: Методы оптимизации в статистических задачах управления..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 83

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Для определения условий оптимальности управления и при­ дадим вектору и вариацию 6„.

Поскольку и является оператором от вектора измерений у, вариация б„ представляет изменение этого оператора, который в дальнейшем предполагается детерминированным.

Вариация функционала б;, заданного формулой (466), при изме­

нении и определяется выражением

 

 

 

 

 

 

 

81 = М |б*0 (7) +

 

 

6* (Г)}.

 

 

Введем вектор-функцию ф (t)

размерности

п +

1

такую, что

— Ы = -

{б*,, (7) +

дР[Тд х *т{р ] 8х (Г)} =

ф* (7) ЬХ (7).

(467)

Из формулы

(467) следует, что

 

 

 

 

 

 

 

 

Фо (Т) =

— 1;

 

 

 

 

(468)

 

 

dF [Т, ж(Т)]

,

,

0

П,

 

Фі (^) =

д - . <т\

> 1

— В

^

 

 

и, поскольку

при заданном значении лГ(0) вариация (0)

= 0,

то

 

 

 

 

 

 

 

 

 

 

 

8J

j

б*(0 +

ф*(0

d&x{t)

dt.

 

(469)

 

 

 

 

 

 

dt

 

 

 

 

Далее, из уравнений (463) и (465) следует, что

 

 

d&x (t)

=

f(x + 8x,

ы + би,

£,

t) — f(x,

и, l, t) =

 

dt

 

 

 

 

 

 

 

 

 

 

а/(х и s,

 

 

 

 

Ы)

gj

t)-\-s,

(470)

где f = (/о, f lt . . ., /„), e — вектор-столбец с элементами:

 

8х*

d2fj (х, и + Ѳ26и, I,

t)

ди

 

 

 

 

дх ди

 

 

 

 

\

бл;* d*fi (ж+

016х) и +

Ѳ26и, I,

t) 8х'

(471)

 

 

 

 

 

 

 

0 eg

Ѳ!, Ѳ2

1,

і = 0,

1,

2,

. . ., п.

 

Определим на интервале (0, 7) вектор ф (t) дифференциальным уравнением

3jü=_(äi*£jm )\w

(472)

 

с начальными условиями (468).

19?


Подставляя далее выражение (470) в формулу (469) и учитывая уравнение (472), получим:

т

—6J= j ф* (t) [f (х, и + 6 и, £, t) — / (X, и, I, t) + е] dt.

о

Зафиксируем управление и на интервале (0, т) и рассмотрим игольчатую вариацию управления [81 ], такую, что 8и = 0 вне интервала (т, т + Лт), где А т— бесконечно малая величина, и

и + би £ Н.

Тогда

 

 

 

" т + Д т

 

 

 

 

— 81 = — M8J = м \ м

JТ

Ф* (t) [/ (х, и +

8и, £, t) — ,

 

 

 

 

 

т

 

(473)

 

— f(x, и,

 

f) ] dt +

j е dt

 

 

через М

 

 

 

о

 

 

Здесь

обозначено

условное

математическое

ожидание

величины при

фиксированных наблюдениях

вектора

у (t) на интервале (0, т),

а через

М {•} — безусловное

матема­

тическое

ожидание.

 

 

 

 

 

 

Для объекта управления

 

 

 

 

 

X = / (X, и, f) + a (t) I (t),

где о (t) функция только времени, значение в, определяемое выражением (471), является бесконечно малой величиной более высокого порядка малости, чем первый член в уравнении (473),

иим можно пренебречь [141]. Для объекта управления

X = f (х, и, t) + о (х, t) I (t)

известен аналогичный результат для локального экстремума функционала при малых вариациях управления и (t).

Отсюда

с

точностью

до бесконечно малых величин первого

порядка

малости

можем

записать:

 

 

 

 

I

/т+Аг

 

 

 

 

 

— б/ = М \ м I

[ ф* (t) [/ (х, и -Т би, f) — / (х, и, £)] dt j X

 

 

 

X

 

 

 

 

U 0

Воспользуемся( \

понятием

 

стохастического

гамильтониана

Н (х, и,

ф,

t):

 

 

 

 

 

 

 

 

 

 

Н (х, и, ф,

t)

=

ф* (0 f (x, и, I,

t).

(474)

Окончательно получим

 

 

 

 

 

 

j-

/ т + Л т

 

 

 

 

 

81

= М ІЛІІ

j [Н (х,

и

8и, t) Н (х,

и,

£)] dt\^

198


Основываясь на методе оптимизации нелинейных систем, от­ метим, что неравенство

—б/ : О

будет выполнено, если условное математическое ожидание при заданной реализации уі будет меньше нуля (по крайней мере,

для всех реализаций уі, вероятность появления которых отлична от нуля), т. е.

(т + JД т [Н (х, и + бы, f)— Н (х, и, \ (475)

Применяя теорему о среднем значении интеграла при Ат і> О, получим:

М IН (х, и + 8и, т + а Ат) — Н (х, и, т + а Ат) |^Tj sg; О,

Х Д С \J

Устремляя далее Ат к 0, получаем окончательно

М j Н (х, и + 6«, t) |^ j М^Н (х, и, t) |^ j.

(476)

Существенной особенностью условия оптимальности (476) является зависимость функции Н от случайных функций ф (t), £ (t), X (t), что обусловливает трудности решения стохастической задачи оптимального управления. Частные случаи решения этой задачи будут рассмотрены в последующих параграфах.

В общем случае для определения и (yt, t) из условия (476) необходимо представить функции х (t), ф (t) в виде, позволяющем вычислить условное математическое ожидание от этих функций при известных значениях наблюдаемых функций на интервале времени (0, t).

Условие (476) выражает необходимое условие оптимального управления и и является основным содержанием стохастического принципа максимума: оптимальное управление обеспечивает мак­ симум условного математического ожидания функции Гамильтона при фиксированных наблюдениях.

Из формулы (472) следует, что, как и в детерминированной задаче оптимального управления, ф (t) определяется из системы

уравнений

дН

(477)

 

_

'

dt

дх

'

при конечных условиях (468). Рассмотрим частные случаи усло­ вия оптимальности (476).

Отметим прежде всего, что при свободном правом конце Т

шах М ~Н (х, и, ф, f)

= 0.

uCU

Уо.

199


Действительно, для оптимального управления вариация коор­ динат за счет вариации времени 67 может быть представлена в виде

8x(T) = - ^ r öT = f(x, и, I, 7)67.

Поскольку при управлении, обеспечивающем минимум I,

81 = М [—ф* (7) (7) ] > О,

то

М [ф* (7) f (х, и, I, 7) ] 67 < 0,

(478)

и при произвольной вариации 67 условие (478) может быть вы­ полнено только при

М [ф* (T)f (x, и, I, 7)] = 0.

Более того, поскольку уравнения для ф (t) и сопряженные,

то

ф* (t) 8х (і) = const.

Поэтому предыдущее условие выполняется для любого t Используя определение Н (х, гр, и, t), получаем

 

max М

ГН (х, и,

ф, Ф)| ,1

= 0,

 

 

(479)

 

и^и

L

 

 

 

 

 

 

Установим связь между стохастическим принципом максимума

и уравнением

Веллмана, выражающим

условия оптимальности

в статистических задачах.

 

 

 

 

 

 

На основании формулы (479) условие (475) может быть за­

писано в

виде:

 

" x - f Д х

 

 

 

 

 

 

 

щах М

и, ф,

t)

dt

= 0.

 

 

 

j «<*.

 

 

 

U

 

X

 

 

уі

 

 

 

 

х + Д х

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

Введем

функцию

текущих

фазовых

координат

и

времени

Ф [х (t), t], определяемую уравнением

 

 

 

 

 

 

- Ж Г = * ‘ №>

і = 1.

2 ,'. .

п.

 

(480)

Тогда,

используя

выражение

(474)

для функции

Н,

получим

 

| х + Д х

дф[* (t ) , t )]

 

 

 

 

 

 

max М

I XJ

[-(

d x

•/„(*, и,

О] dt

= 0.

дх

~dt

„ т + Д г

 

 

 

 

 

Отсюда

 

 

 

 

 

 

 

 

 

max М — ф [ X (т 4- Ат),

т + Ат] + ф [ X

(т), т] —

„ х + Д х

 

 

 

 

 

 

 

 

 

 

т + д х

 

 

 

 

 

 

 

 

— j /о (х, и, t) dt УІ

= о

 

 

 

 

 

 

X

 

 

 

 

 

 

2 0 0


или

т-{ Дт

minM ер [л: (т + Ат), т + Дт] + I / 0 (х, и, t) dt —-

д + Д т

 

'X

Т

 

Ф [* (t), t) их ( = О-

Так как ф [х (т), т] не зависит от управления на интервале (т, т + Ат), то

М ( ф [X (т), т][ х} min М | ф [X

(т + Ат), т + Дт] +

их+д, \

 

т + Д х

1

+ I fo (х, и, t) dt

= О.

Обозначим

W (ух, т) = ЛГ{ф ]х (т), т] х}.

Далее используем свойство условных математических ожида­ ний, состоящее в том, что предварительное усреднение при рас­ ширенном числе наблюдений не изменяет результата следующего усреднения, т. е.

М \ у Уо\ М {м [У yt+*~\ y Ü ‘

Из последних трех равенств следует условие:

W (ух0, т) = min М I W (УІ+&Х, т +

Ат) +

ux+hx

I

 

 

х+Дх

 

 

 

I /о (х, и, t) dt

уі '

(481)

Поскольку на основании

формулы

(480)

 

Ф [х (Т), T\ = F [Т, X (Г)]

и конечное значение для выражения (481) имеет вид

W (уі, Т) = min М [Т, X (Т)] ут),

т

“о

то уравнение (481) совпадает с уравнениями Веллмана [93].

201