Файл: Сейдж Э.П. Идентификация систем управления.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 27.06.2024

Просмотров: 151

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

136

СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ

[ГЛ . 5

то из (5.1.27) следует, что

X + 1) = * (k) + X f T lx + H ' l v (А + 1) — х'(&)].

Отсюда легко получить слабый закон больших чисел

*ft

^ ) = 4 - 2 н ~М£).

i= 1

Это краткое обсуждение (Хо [48]) взаимосвязи между стохастической аппроксимацией и теорией оптимальной линейной фильтрации показывает, что эти методы тесно связаны. Есть, однако, весьма существенное различие. В отличие от теории оптимальной фильтрации, в методе стохастической аппроксимации не используется информа­ ция об априорных распределениях. Другими словами, не метод стохастической аппроксимации, а теория опти­ мальной фильтрации позволяет выбрать оптимальную матрицу Кк Кроме того, методы оптимальной фильтрации дают возможность легко получать эффективные решения для систем с помехами, тогда как, используя стохасти­ ческую аппроксимацию, этого не так-то просто добиться.

Теперь перейдем к краткому обзору динамических алгоритмов стохастической аппроксимации и их примене­ ний к идентификации систем.

5.2. СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ

В четвертой главе отмечалось, что значения и, соот­ ветствующие экстремуму / = G (и), часто можно полу­ чить, используя следующую итеративную процедуру:

,t+i _ „1. К 1 d9 (и1) du1

В предыдущем разделе также было отмечено, что при на­ личии помех, когда наблюдается I = 0(u) -f- в, опти­ мальные значения и находятся в результате применения алгоритма

ui+l — ц! — ft} dl (и1)

5.2] СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ 137

где выбор К 1 ограничен несколькими неравенствами. В этом разделе мы хотим более основательно рассмотреть последнюю задачу, а также связать использование мето­ дов стохастической аппроксимации с решением задач идентификации. Таким образом, мы будем заниматься изучением динамического варианта рассмотренного выше алгоритма стохастической аппроксимации.

Необходимо найти управление

и(/с)

или u(t) и вектор

параметров р, минимизирующие

функционал

 

 

kf—l

 

 

J = ё t (kf)] +

0О[х (к0)1 +

^

ГР Iх (/с)’ 1» (*)> 11 (*)> *]}

при ограничениях

 

 

 

(5.2.1)

 

 

 

 

х + 1) = ф [х (к),

р (к), и (к),

£ (/с), к],

Р (* :Jr 1) = Р (*)•

 

 

 

 

(5.2.2)

В непрерывном случае необходимо минимизировать

J = $1^1 (tf)] + 0О[X (t0)] +[^ ф [X (t), р (О, U (0, t] difj,

(5.2.3)

удовлетворив при этом ограничению в виде системы диф­ ференциальных уравнений

x = f[x(#), n(t), p(l), £ (t), t], P = 0.

(5.2.4)

Здесь £ (к) и £ (t) — случайные процессы. Используются функции штрафа и уравнения ограничений из раздела 4.3 (формулы (4.3.13) (4.3.15) для дискретного случая и формулы (4.3.30) (4.3.32) для непрерывного случая), с той лишь разницей, что учитывается наличие случайных процессов £ (к) или £ (t), отражающих входной шум и ошибку измерений и используется операция вычисления математического ожидания по реализациям £.

Поставленная задача является достаточно сложной задачей идентификации и оптимального управления ра­ зомкнутым объектом. В общем случае получить аналити­ ческое решение этой задачи чрезвычайно трудно. Часто


138 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5

оказывается, что рекомендации по управлению разомкну­ той системой не столь удобны, как рекомендации по управлению объектом с замкнутой обратной связью. В одном частном случае, когда система линейна, помехи аддитивны, функция штрафа квадратична по управле­ нию и состояниям и нет идентифицируемых параметров, справедлива теорема отделимости или принцип достовер­ ной эквивалентности, принадлежащий в теории оптималь­ ного управления Калману (см. Сейдж, [116]). В этом случае оптимальное управление в замкнутой системе сводится к использованию оптимального линейного регу­ лятора, на вход которого поступает выходной сигнал опти­ мального линейного фильтра. Возможности решения зада­ чи идентификации и управления стохастическим объек­ том будут изучены сначала для простых ситуаций, в том числе и для рассмотренных в предыдущем разделе. Найден­ ные закономерности будут использованы при исследо­

вании более сложных задач.

отыскания

экстремума

Сначала

рассмотрим

задачу

(чаще всего

минимизации) функции штрафа

 

 

/ =

% {О К

« } ,

(5.2.5)

где £ — это случайная величина с известной плотностью вероятности р (£). Для того чтобы минимизировать (5.2.5), положим

оо

.6)

/ = ^ е(и, S)p(g)d£,

(5.2J

— оо

оо

Аналитическое решение (5.2.7) часто оказывается невоз­ можным, поэтому попробуем воспользоваться итератив­ ным алгоритмом

л

(5.2.8)

где К1 — последовательность положительных чисел. Гра­ диент дВ/ди является случайным вектором и состоит из

5.23 СТОХАСТИЧЕСКАЯ а п п р о к с и м а ц и я 139

двух компонент: одной, связанной

с

зависимостью 0

от

и, и второй,

возникающей из-за

случайного

шума

£.

Удобно записать

 

 

 

 

 

 

39 (ц\ I 1)

g

f

aetuVc1) Р V

gCey-l-v*, (5.2.9)

диг

°

(

Эиг

 

 

 

 

где v1 — представляет

случайную

компоненту

градиента

и, по определению, имеет нулевое математическое ожи­ дание, что нетрудно увидеть, взяв математическое ожида­

ние от левой и правой частей (5.2.9).

Используя

два по­

следних уравнения, получим

 

 

 

и*+1 = и1 — К

1[g (б1) +

V *].

(5.2.10)

Следует понимать, что фактически вычисления основаны на использовании (5.2.8). Однако в аналитических иссле­ дованиях удобнее опираться на формулу (5.2.10). Распо­ лагая последовательностью градиентов dQIdu1, i = 1, 2,..., мы надеемся, что для достаточно больших i ui+1 сходится к тому же пределу, что и и1, т. е.

lim ui+1 = lim и1.

i —*OQ

i —*00

Переходя к пределу в (5.2.10), приходим к требованию

lim Я1 = 0,

(5.2.11)

i—*оо

так как в противном случае процесс, определяемый (5.2.10), не сойдется к какому-либо постоянному зна­ чению. Это справедливо, даже если g (0{) = 0, что озна­ чает, по крайней мере в среднем, равенство нулю d0/du. Но составляющая помехи v1 не нуль, и это уводит последо­ вательность и' от оптимальных значений. Естественно, последовательность К1 не должна слишком быстро схо­ дится к нулевому пределу, иначе g (0г) не «успеют» выве­ сти последовательность и1 в окрестность оптимального значения. Одновременно с этим средний эффект влияния помехи v1должен с увеличением i уменьшаться так, чтобы прошлые помехи не сказывались на ошибке вычислений.

В основополагающих работах по стохастической ап­ проксимации показано, что первое из этих требований


140 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5

математически выражается как

оо

 

2 К1= ОО.

(5.2.12)

г— 1

Так как v1 имеют нулевое среднее, понятно, что

ОО

2 К Ч 1= 0. г=1

Для того чтобы устранить влияние помехи, необходимо потребовать выполнения неравенства

оо

2 (/0)2(к-)2< зо для всех у.

г—1

Можно показать, что это условие выполнено, если

оо

2 ( Я У О ,

(5.2.13)

г= 1

 

а помеха v* имеет конечную дисперсию

 

Vvi = уаг(у{)^ Ь < с > о .

(5.2.14)

Примером последовательности К*, удовлетворяющей тре­ бованиям (5.2.11) — (5.2.13), может служить последова­ тельность

Ю = k/i.

(5.2.15)

К сожалению, в теории стохастическойаппроксимации не имеется рекомендаций по выбору константы к, кроме тре­ бования ее положительности. Теория оптимальной филь­ трации, которая рассматривалась в главах 2 и 3, мы еще вернемся к ней в главе 7, утверждает, что выбор к опреде­ ляется относительной величиной входных шумов систе­ мы и ошибок измерений, причем в общем случае эта ха­ рактеристика должна быть представлена в матричной форме.

Ограничения на выбор К1не являются неожиданными, достаточно вспомнить о замечаниях предыдущего раздела,


5.2} СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ 141

касающихся связи между стохастической аппроксимаци­ ей и теорией оптимальной фильтрации. Строгие доказа­ тельства принадлежат Киферу и Вольфовицу [75], Блуму [19] и Кушнеру [84]. Доступное инженерное изложение теории стохастической аппроксимации можно найти у Хо и Ныоболда [53].

Теперь хотелось бы обобщить полученные результаты для того, чтобы научиться решать стохастические задачи

на экстремум с ограничениями в форме

равенств. Итак,

необходимо найти экстремум (минимум)

 

/ = £ {0(х,

и)}

(5.2.16)

ири дополнительном условии

 

 

f (X, и, £) =

0.

(5.2.17)

Допустим, что можно определить вероятностное распреде­ ление возможных значений £ = £* в виде набора вероят­ ностей P t, г = 1, 2, . . . М *). Рассмотрим экстремаль­ ную задачу с функцией штрафа J1 — 0 (х, и) и ограни­ чением

f(x, и, £*)=0.

(5.2.18)

Так как £» предполагается известным, эта задача являет­ ся простейшей статической задачей оптимизации. Чтобы найти оптимальное решение, введем гамильтониан (см. главу 3 Сейджа [116], Брайсона и Хо [24]

Я ' = 0(х,и) + Хт1(х,и,£1)

(5.2.19)

и решим следующую систему уравнений:

дН1

= 0,

^ = 0,

^ = 0.

(5.2.20)

дЬ

 

Эи

да

 

Эта частная задача, когда £ = £*, возникает с вероятно­ стью Р ь. Таким образом, решение исходной задачи экви­ валентно решению набора детерминированных задач для разных £* с усреднением детерминированных решений по

*) Если 5 — непрерывная случайная величина, то возникаю­ щие трудности носят чисто технический характер, и, как мы уви­ дим, могут быть лех'ко преодолены.


142 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5

распределению вероятностей P t. Решение исходной эк­ стремальной задачи (5.2.16), (5.2.17) сводится к решению следующей системы уравнений, которая дает необходимые

условия

оптимальности:

 

 

 

f(x,u ,g) = 0;

2 Р ^

= 0;

2 Л ^ = « .

(5-2.21)

 

 

i — 1

 

г — Х

 

Если £ обладает непрерывным распределением, то

(5.2.21)

преобразуется к виду

 

 

 

 

f(x,u, I ) =

0,

 

оо

 

 

оо

 

 

— оо

 

=

Ь < е *)8! - « - < >

 

 

 

— оо

 

 

или

 

 

 

 

 

f(x ,u ,g ) =

0,

=

=

(5.2.22)

К сожалению, из-за наличия нелинейностей и матема­ тических ожиданий система уравнений (5.2.22) часто не поддается непосредственному решению. Вместо этого зай­ мемся поиском градиентных методов итеративного реше­ ния (5.2.22).

В данном случае метод стохастической аппроксимации очень похож на градиентный метод решения статических задач. Минимизируется функция штрафа (5.2.16) при ограничении (5.2.17)

J = %(9 (х. u)}, f (х, и, £) = 0.

Выберем начальное управление ш и реализацию в соот­ ветствии с плотностью вероятности р (£). Состояние х4 определяется из уравнения f (х4, и1, £*) = 0. Для изме­ нения управлений используется уравнение дЯ/Эх4 = 0. Затем повторяют вычисления с новой реализацией £• Схема вычислений такова:

1)выбрать и4,

2)взять одну из реализаций £*,

3)решить уравнение f (х4, и4, £4) = 0 относительно х 4,