Файл: Живоглядов, В. П. Адаптация в автоматизированных системах управления технологическими процессами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.10.2024

Просмотров: 70

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

*s+ t= j *'s+z Р Ш Я = j

«s+ t W

Q((j.)

2(«[s])

as+ x = J W?'(g'*,<7[s-(-x])JP(tJ.)/3(^[sH-T]|Ix,tt[s])X

2(m [s+ t])

 

 

S—I

 

 

X П P{y\-i]\^,u\i—x]dQ.

(1. 15)

/=1

 

 

Таким образом, мы пришли к формализму А. А. Фельдбаума, принятому в созданной им теории дуального уравнения. В ра­

боте [В. 15]. показано, что при ограничениях вида

(1. 6) и

u[s]

eQ (ii), где Q(и) — заданная

область (замкнутая или

открытая) эвклидова пространства,

оптимальные

стратегии

Г*

являются нерандомизированнымн. Одиако сами управле­

ния w[s] являются случайными, поскольку зависят от текущей реализации случайной переменной y[s—1]. Оптимальные зна­

чения и* [s]

находятся из функционального уравнения

 

 

Ts+ t(«*[s1)= T*s-|-t= min

«s+ t+

 

 

ufsJeQ(u)

l

 

+

1 d ® I; S=l,2,...,n

t,

(1. 16)

 

C(y(s])

 

 

 

T%+1 = 0.

 

 

Всистеме одновременно протекают процессы управления и накопления информации, причем установлен имеющий прин­ ципиальное значение факт — строго доказана возможность активного накопления информации в автоматической системе.

Впоследнем: случае темп изучения объекта зависит от выб­ ранных управлений «[£]. Формулу (1. 15) можно предста­ вить в следующем виде:

as+T.=P(y[S — 1] |

К[5—х — 1] )J

W(q*,q[s+

 

2(е,9[«+т])

+ T.])Ps _ 1(|i.)P(^[S +

T] I |1,И[8])</Й,

(1. 17)

40


где P s-.\ (ц) — апостериорная после (s—1) такта плотцость

вероятности параметров ц. Накопление информации проявля­ ется в редукции этой плотности, замене априорной плотности апостериорной.

в. Трудность получения полных статистических характе­ ристик случайных параметров (так называемая «априорная трудность») является одним из препятствий применения тео­ рии дуального управления в первоначальном виде для пост­ роения реальных систем. Представляет интерес разработка методов синтеза алгоритмов управления в условиях меньшей априорной информации. Более практична постановка задачи, при которой плотность вероятности Я(р) считается неизвест­ ной. Байесов подход здесь неприемлем. Для нахождения оп­ тимального управления могут быть использованы минимакс­ ные критерии. Однако такой путь зачастую слишком пессими­ стичен. В некоторых случаях он не адекватен существу за­ дач. Пусть, например, параметры р. объекта являются неслу­ чайными постоянными величинами, но априори неизвестны­ ми. Нет смысла искать худшую плотность вероятности Р(ц), так как объективно никакого распределения вероятностей нет. Оно может быть лишь у наблюдателя (после измерения с помехами).

Излагаемый ниже подход [В. 16, 1. 4] к задаче синтеза алгоритмов дуального управления при неизвестной априорной плотности тесно связан с методом наибольшего правдоподо­ бия Фишера [1. 5], который в настоящее время применяется достаточно широко [1. 1, 1. 6, 1. 7].

Сущность метода состоит в следующем.

Вместо as-(-x вводится функция

ans+-= j W(q*,q[S+ z ] ) X

s—1

 

 

XP(q[s+i] | p,«[s]) П я ( > ’И

| ц,и[;-т])ДС2,

(1. 18)

«=1

 

 

которая отличается от as+ x тем,

что вместо

апостериор­

ной плотности Ps_i([i) под знаком интеграла в (1. 18) ис. пользуется функция правдоподобия.

41

Риск

s

 

^ аП$+т П Г/rfQ

(I. 19)

/=1

 

[s]fy[s—l]l

условно назовем правдоподобным.

Общая процедура нахождения оптимального управления такая же, как в теории дуального управления А. А. Фельдбаума. Стратегия УУ регулярная. Оптимальные управляк>- щне воздействия u*[s], обеспечивающие минимум суммар­

ного (полного) правдоподобного риска

определя-

ются последовательно,

 

начиная

S

такта,

из

 

с последнего

функционального уравнения

 

 

 

Ь+т(и*[з])=Т*5+т=

min

ancs+-j-тT+-г ^ s + x + l

dQ

,

 

 

 

H[s]eQ(u)

 

 

 

 

 

 

 

s = l,2,...,n—t —1,

( 1. 20)

 

 

 

 

 

 

u

n

_

min

 

 

 

T

 

ы/л—т/е£2;и)

 

 

Область интегрирования Q(p) в (1. 18) может быть замкну­ той или открытой и выбирается с учетом физических сообра­ жений и ограничений на диапазон возможного варьирования р. Обязательным является требование, чтобы при выбранной области Q(p) интеграл (1. 18) сходился.

Заметим, что объем вычислений при нахождении управле­ ния изложенным здесь методом меньше, чем при решении за­

дачи

в байесовой постановке.

г.

Рассмотрим задачу нахождения стратегии Г5=

=P(p[s]),

обеспечивающей наименьшее значение

функцио­

налу x's+t

(1. 13) при известной плотности /^(^[х+т] | «[s]>

и ограничениях вида

 

 

Jfy(9[s+ T]>uM)d^ (d s+*]>tf[s])<0,

(I. 21)

42


где F(-)— функция совместного

распределения

вероятно­

стей аргументов.

Поскольку,

как

следует

из

(1.

13),

Г5

и>

интеграл в (1. 13)

не зависят от наблюдений y[s—1]

и

уп‘

равлений m[s—1],

легко показать, используя, например,

соотношения (1. 20), что раздельная минимизация

по

Г*,

функций xrs_(_x гарантирует

достижение

минимума

 

сум­

марного риска

 

Поэтому задачу

синтеза

оп­

s

тимального управления можно переформулировать в сле­ дующих терминах:

Найти функцию распределения .F (m [s ]), характеризую­ щую управляющее устройство и обеспечивающую

inf

W{q*,q[s+i])dF(u[s])dF{q[s+i] | tt[s]),

(1. 22).

^(«[s]) J

 

 

 

 

 

при ограничениях (1. 21).

 

 

 

Таким образом, мы

пришли к задаче, рассмотренной в

[1- 8], откуда следует,

что оптимальная стратегия Г5

явля­

ется смешанной (т. е.

рандомизированной) в

случае

не­

выпуклых и разрывных функций

fy(<7[s+x],a[s])

и

Од­

нако обратная связь в системе и

накопление

информации

отсутствуют.

 

 

 

 

Перейдем к анализу системы дуального управления, необ­ ходимость которого возникает при неполной информации о функции распределения /^[s-fx] | p,u[s]), зависящей от вектора случайных параметров р. Пусть требуется обеспечить, наименьшее значение функции полного риска

при ограничениях

fj{u\n— x\,q[n], у [n— \])dF( и [/»—■»], q [л], у [п—1],|х)<0..

(1. 24)

43-


Эта формулировка задачи приводит к необходимости ■отыскания рандомизированных (смешанных) стратегий . ду­ ального управления.

Таким образом, уже на примере управления статическим объектом с запаздыванием удалось показать, что как методи­ ка синтеза, так и свойства алгоритмов УУ (управление в чис­ тых или смешанных стратегиях, с обратной или без обратной связи) существенно зависят от объема априорной информа­ ции о характеристиках объекта и вида ограничений.

Перейдем к изучению процессов управления дискретными нелинейными стохастическими объектами с памятью и распре­

деленными

параметрами.

Будем считать,

что все выходные

переменные

объекта контролируемы (т. е.

y[s] = ^[s])

и функ­

ция потерь

Ws определяет

меру уклонения

выходов

q[s] от

предписанных значений q*, где *7[s], q* — пространственные векторы вида

Т

q[s]= II q[0,s]...q\K,s]...q[l,s] || .

Пусть объект описывается условными плотностями вероятно­ сти

P{q[s+x] | q [s+x — 1], u[s]),

где w[s] — вектор управляющих воздействий;

х — запаздывание.

 

такте

найдем путем

Удельный

риск

в (s +

t)- m

усреднения

функции

потерь Ws^_x

по

всем случайным

сигналам

 

 

 

 

 

 

W , « 7 [ s +

t])P(<7

[s + t] ,«

О- 25)

&Cq[s+x]£ls])

После некоторых преобразований получим выражения, ана­ логичные (1. 10), (1. 11):

s—1

(1. 26)

«[s-Ш

41


П ^ и '+ 'С ] I q [ i+ i— \),U[l\)d&,

£2(u[s],?[s]><?[s+l],...li?[s+x]) , = 1

(1. 27}

r t=P(u[i] | a [t— l\,q [г—1])^

Если условные плотности P(q[i+t] | q [г+т — 1], u[i]) известны точно, функция потерь выпукла, на управление наложено только ограничение вида u[s]eQ (и), то имеем дело с задачей стохастического управления объектом с запаздыванием (задача с неполной, но максимальной ин­ формацией, по классификации А- А- Фельдбаума [В. 15]). Стратегия Г$ является регулярной. Обратная связь в си­ стеме необходима (сравните формулы (1. 13) и (1. 27)1.

Последовательность

оптимальных

управлений

u*[s] =

=us*(u [s— 1], q [5— 1]),

s —\,...,n—т,

т. e.

алгоритм

УУ, находится методом динамического, программирования, начиная с последнего и*[п—т].

При отсутствии полных данных о плотности вероятности

Я(9[г-Ьт]

| q [г-И— 1], и [i]) необходимо

накопление

в УУ

недостающей информации в процессе

управления.

Пара­

метризуя

условные плотности

 

 

Я(^[/+т] | q [Я-т—l],a[s],(i)

нсчитая р случайными величинами с заданной Р(р), приходим к задаче дуального управления в байесовой постановке. При

этом удельный риск

^ [ s + х П г Д

(1.28)

-7 1=1

Q(u[s], q[s— 1])

где

а*-И =а5+т(Ф]) = j*W(9*,?[s-H)P(p). х

s

 

 

 

 

 

 

X П / № + * ]

I Я [ Ж —1 ],u[i\>v.)dQ.

(1.

29)

i=l

 

 

 

 

 

 

Функциональное уравнение для

определения оптимальных

подобно уравнению (1. -20).

и использовании пра­

При неизвестной плотности Рф.)

вила правдоподобного

риска

 

следует

заменить

■функцией

 

 

 

 

 

 

 

s

 

 

 

 

 

«ns+ T = j'w'(?i*9[s+ i;]) П ^ и '- М

I

Я [*'+*— i], u[i],^)dQ..

 

£2(мИ....>Ф-И])

,=I

 

 

 

(1.

30)

 

 

 

 

 

Постановка задачи, приводящая к решению в смешанных стратегиях, формулируется для объектов с памятью анало­ гично (1.23) — (1.24).

Таким образом, процесс накопления информации в УУ за­ ключается в восстановлении неизвестных условных плотнос­ тей вероятности или оценке вектора параметров р, входя­ щих в выражения для плотностей.

Замечание 1.

Выше при обсуждении задач дуального управления мы

.рассматривали блок-схему на рис. 1. 1. Все принципиальные положения справедливы и для блок-схемы системы на рис. 1. 2, ■которую обычно используют в работах по теории дуэльлого управления. Действительно, если задано уравнение

Рве. 1.2

46