Файл: Живоглядов, В. П. Адаптация в автоматизированных системах управления технологическими процессами.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.10.2024
Просмотров: 70
Скачиваний: 0
*s+ t= j *'s+z Р Ш Я = j |
«s+ t W |
|
Q((j.) |
2(«[s]) |
|
as+ x = J W?'(g'*,<7[s-(-x])JP(tJ.)/3(^[sH-T]|Ix,tt[s])X |
||
2(m [s+ t]) |
|
|
S—I |
|
|
X П P{y\-i]\^,u\i—x]dQ. |
(1. 15) |
|
/=1 |
|
|
Таким образом, мы пришли к формализму А. А. Фельдбаума, принятому в созданной им теории дуального уравнения. В ра
боте [В. 15]. показано, что при ограничениях вида |
(1. 6) и |
||
u[s] |
eQ (ii), где Q(и) — заданная |
область (замкнутая или |
|
открытая) эвклидова пространства, |
оптимальные |
стратегии |
|
Г* |
являются нерандомизированнымн. Одиако сами управле |
ния w[s] являются случайными, поскольку зависят от текущей реализации случайной переменной y[s—1]. Оптимальные зна
чения и* [s] |
находятся из функционального уравнения |
|
|
|
Ts+ t(«*[s1)= T*s-|-t= min |
«s+ t+ |
|
|
ufsJeQ(u) |
l |
|
+ |
1 d ® I; S=l,2,...,n |
t, |
(1. 16) |
|
C(y(s]) |
|
|
|
T%+1 = 0. |
|
|
Всистеме одновременно протекают процессы управления и накопления информации, причем установлен имеющий прин ципиальное значение факт — строго доказана возможность активного накопления информации в автоматической системе.
Впоследнем: случае темп изучения объекта зависит от выб ранных управлений «[£]. Формулу (1. 15) можно предста вить в следующем виде:
as+T.=P(y[S — 1] | |
К[5—х — 1] )J |
W(q*,q[s+ |
|
2(е,9[«+т]) |
|
+ T.])Ps _ 1(|i.)P(^[S + |
T] I |1,И[8])</Й, |
(1. 17) |
40
где P s-.\ (ц) — апостериорная после (s—1) такта плотцость
вероятности параметров ц. Накопление информации проявля ется в редукции этой плотности, замене априорной плотности апостериорной.
в. Трудность получения полных статистических характе ристик случайных параметров (так называемая «априорная трудность») является одним из препятствий применения тео рии дуального управления в первоначальном виде для пост роения реальных систем. Представляет интерес разработка методов синтеза алгоритмов управления в условиях меньшей априорной информации. Более практична постановка задачи, при которой плотность вероятности Я(р) считается неизвест ной. Байесов подход здесь неприемлем. Для нахождения оп тимального управления могут быть использованы минимакс ные критерии. Однако такой путь зачастую слишком пессими стичен. В некоторых случаях он не адекватен существу за дач. Пусть, например, параметры р. объекта являются неслу чайными постоянными величинами, но априори неизвестны ми. Нет смысла искать худшую плотность вероятности Р(ц), так как объективно никакого распределения вероятностей нет. Оно может быть лишь у наблюдателя (после измерения с помехами).
Излагаемый ниже подход [В. 16, 1. 4] к задаче синтеза алгоритмов дуального управления при неизвестной априорной плотности тесно связан с методом наибольшего правдоподо бия Фишера [1. 5], который в настоящее время применяется достаточно широко [1. 1, 1. 6, 1. 7].
Сущность метода состоит в следующем.
Вместо as-(-x вводится функция
ans+-= j W(q*,q[S+ z ] ) X
s—1 |
|
|
XP(q[s+i] | p,«[s]) П я ( > ’И |
| ц,и[;-т])ДС2, |
(1. 18) |
«=1 |
|
|
которая отличается от as+ x тем, |
что вместо |
апостериор |
ной плотности Ps_i([i) под знаком интеграла в (1. 18) ис. пользуется функция правдоподобия.
41
Риск
s |
|
^ аП$+т П Г/rfQ |
(I. 19) |
/=1 |
|
[s]fy[s—l]l
условно назовем правдоподобным.
Общая процедура нахождения оптимального управления такая же, как в теории дуального управления А. А. Фельдбаума. Стратегия УУ регулярная. Оптимальные управляк>- щне воздействия u*[s], обеспечивающие минимум суммар
ного (полного) правдоподобного риска |
определя- |
|||||
ются последовательно, |
|
начиная |
S |
такта, |
из |
|
|
с последнего |
|||||
функционального уравнения |
|
|
|
|||
Ь+т(и*[з])=Т*5+т= |
min |
ancs+-j-тT+-г ^ s + x + l |
dQ |
, |
||
|
|
|
H[s]eQ(u) |
|
|
|
|
|
|
|
s = l,2,...,n—t —1, |
( 1. 20) |
|
|
|
|
|
|
|
|
u |
n |
_ |
min |
|
|
|
T |
|
ы/л—т/е£2;и) |
|
|
Область интегрирования Q(p) в (1. 18) может быть замкну той или открытой и выбирается с учетом физических сообра жений и ограничений на диапазон возможного варьирования р. Обязательным является требование, чтобы при выбранной области Q(p) интеграл (1. 18) сходился.
Заметим, что объем вычислений при нахождении управле ния изложенным здесь методом меньше, чем при решении за
дачи |
в байесовой постановке. |
г. |
Рассмотрим задачу нахождения стратегии Г5= |
=P(p[s]), |
обеспечивающей наименьшее значение |
функцио |
налу x's+t |
(1. 13) при известной плотности /^(^[х+т] | «[s]> |
|
и ограничениях вида |
|
|
|
Jfy(9[s+ T]>uM)d^ (d s+*]>tf[s])<0, |
(I. 21) |
42
где F(-)— функция совместного |
распределения |
вероятно |
|||||||
стей аргументов. |
Поскольку, |
как |
следует |
из |
(1. |
13), |
Г5 |
и> |
|
интеграл в (1. 13) |
не зависят от наблюдений y[s—1] |
и |
уп‘ |
||||||
равлений m[s—1], |
легко показать, используя, например, |
||||||||
соотношения (1. 20), что раздельная минимизация |
по |
Г*, |
|||||||
функций xrs_(_x гарантирует |
достижение |
минимума |
|
сум |
|||||
марного риска |
|
Поэтому задачу |
синтеза |
оп |
s
тимального управления можно переформулировать в сле дующих терминах:
Найти функцию распределения .F (m [s ]), характеризую щую управляющее устройство и обеспечивающую
inf |
W{q*,q[s+i])dF(u[s])dF{q[s+i] | tt[s]), |
(1. 22). |
|||
^(«[s]) J |
|
|
|
|
|
при ограничениях (1. 21). |
|
|
|
||
Таким образом, мы |
пришли к задаче, рассмотренной в |
||||
[1- 8], откуда следует, |
что оптимальная стратегия Г5 |
явля |
|||
ется смешанной (т. е. |
рандомизированной) в |
случае |
не |
||
выпуклых и разрывных функций |
fy(<7[s+x],a[s]) |
и |
Од |
||
нако обратная связь в системе и |
накопление |
информации |
|||
отсутствуют. |
|
|
|
|
Перейдем к анализу системы дуального управления, необ ходимость которого возникает при неполной информации о функции распределения /^[s-fx] | p,u[s]), зависящей от вектора случайных параметров р. Пусть требуется обеспечить, наименьшее значение функции полного риска
при ограничениях
fj{u\n— x\,q[n], у [n— \])dF( и [/»—■»], q [л], у [п—1],|х)<0..
(1. 24)
43-
Эта формулировка задачи приводит к необходимости ■отыскания рандомизированных (смешанных) стратегий . ду ального управления.
Таким образом, уже на примере управления статическим объектом с запаздыванием удалось показать, что как методи ка синтеза, так и свойства алгоритмов УУ (управление в чис тых или смешанных стратегиях, с обратной или без обратной связи) существенно зависят от объема априорной информа ции о характеристиках объекта и вида ограничений.
Перейдем к изучению процессов управления дискретными нелинейными стохастическими объектами с памятью и распре
деленными |
параметрами. |
Будем считать, |
что все выходные |
|
переменные |
объекта контролируемы (т. е. |
y[s] = ^[s]) |
и функ |
|
ция потерь |
Ws определяет |
меру уклонения |
выходов |
q[s] от |
предписанных значений q*, где *7[s], q* — пространственные векторы вида
Т
q[s]= II q[0,s]...q\K,s]...q[l,s] || .
Пусть объект описывается условными плотностями вероятно сти
P{q[s+x] | q [s+x — 1], u[s]),
где w[s] — вектор управляющих воздействий;
х — запаздывание. |
|
такте |
найдем путем |
||
Удельный |
риск |
в (s + |
t)- m |
||
усреднения |
функции |
потерь Ws^_x |
по |
всем случайным |
|
сигналам |
|
|
|
|
|
|
W , « 7 [ s + |
t])P(<7 |
[s + t] ,« |
О- 25) |
&Cq[s+x]£ls])
После некоторых преобразований получим выражения, ана логичные (1. 10), (1. 11):
s—1
(1. 26)
«[s-Ш
41
П ^ и '+ 'С ] I q [ i+ i— \),U[l\)d&,
£2(u[s],?[s]><?[s+l],...li?[s+x]) , = 1
(1. 27}
r t=P(u[i] | a [t— l\,q [г—1])^
Если условные плотности P(q[i+t] | q [г+т — 1], u[i]) известны точно, функция потерь выпукла, на управление наложено только ограничение вида u[s]eQ (и), то имеем дело с задачей стохастического управления объектом с запаздыванием (задача с неполной, но максимальной ин формацией, по классификации А- А- Фельдбаума [В. 15]). Стратегия Г$ является регулярной. Обратная связь в си стеме необходима (сравните формулы (1. 13) и (1. 27)1.
Последовательность |
оптимальных |
управлений |
u*[s] = |
=us*(u [s— 1], q [5— 1]), |
s —\,...,n—т, |
т. e. |
алгоритм |
УУ, находится методом динамического, программирования, начиная с последнего и*[п—т].
При отсутствии полных данных о плотности вероятности
Я(9[г-Ьт] |
| q [г-И— 1], и [i]) необходимо |
накопление |
в УУ |
недостающей информации в процессе |
управления. |
Пара |
|
метризуя |
условные плотности |
|
|
Я(^[/+т] | q [Я-т—l],a[s],(i)
нсчитая р случайными величинами с заданной Р(р), приходим к задаче дуального управления в байесовой постановке. При
этом удельный риск
^ [ s + х П г Д |
.г |
(1.28) |
-7 1=1
Q(u[s], q[s— 1])
где
а*-И =а5+т(Ф]) = j*W(9*,?[s-H)P(p). х
s |
|
|
|
|
|
|
X П / № + * ] |
I Я [ Ж —1 ],u[i\>v.)dQ. |
(1. |
29) |
|||
i=l |
|
|
|
|
|
|
Функциональное уравнение для |
определения оптимальных |
|||||
подобно уравнению (1. -20). |
и использовании пра |
|||||
При неизвестной плотности Рф.) |
||||||
вила правдоподобного |
риска |
|
следует |
заменить |
||
■функцией |
|
|
|
|
|
|
|
s |
|
|
|
|
|
«ns+ T = j'w'(?i*9[s+ i;]) П ^ и '- М |
I |
Я [*'+*— i], u[i],^)dQ.. |
|
|||
£2(мИ....>Ф-И]) |
,=I |
|
|
|
(1. |
30) |
|
|
|
|
|
Постановка задачи, приводящая к решению в смешанных стратегиях, формулируется для объектов с памятью анало гично (1.23) — (1.24).
Таким образом, процесс накопления информации в УУ за ключается в восстановлении неизвестных условных плотнос тей вероятности или оценке вектора параметров р, входя щих в выражения для плотностей.
Замечание 1.
Выше при обсуждении задач дуального управления мы
.рассматривали блок-схему на рис. 1. 1. Все принципиальные положения справедливы и для блок-схемы системы на рис. 1. 2, ■которую обычно используют в работах по теории дуэльлого управления. Действительно, если задано уравнение
Рве. 1.2
46