ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 19.06.2024
Просмотров: 225
Скачиваний: 1
ГЛАВА II
222
(JV+1)-M такте в одном из первых т состояний или в одном из последних т состояний.
Смена состояний вероятностного автомата с линейной тактикой с 2т состояниями показана на рис. 2.6.2.
Систему оптимизирующих вероятностных автоматов будем сопоставлять с алгоритмом покоординатного само
обучения |
при случайном |
поиске. Напомним сущность |
||
этого |
алгоритма. Пусть |
в формуле (2.6.1) |
AXJ^T+U |
|
равно |
+ 1 |
с вероятностью |
pj и —1 с вероятностью |
1— pj, |
причем pj определяется по следующей формуле: |
|
|||
p 3 = Y i l + W ] ) - |
|
( 2 - 6 ' 2 ) |
Здесь Wj — параметр памяти, который в процессе поиска меняется от шага к шагу в зависимости от накопленного опыта по следующей рекуррентной формуле:
Wjvr+i) = Wj{iT) + & sign (AQNAXJW), |
(2.6.3) |
где б — постоянная ( б > 0 ) . |
|
Чтобы не допустить нежелательного детерминирова
ния поиска, на изменение Wj накладывается |
ограничение |
||
— d, |
если |
—d ; |
|
Wj= Wj, |
если |
—d<Wj<d; |
(2.6.4) |
d, |
если |
d^Wj, |
|
где OsCds^l.
Нетрудно заметить, что система случайного поиска с покоординатным самообучением равносильна вышеизло женной схеме оптимизации, если вместо автомата Aj по-
то
г,
г "
Рис. 2.6.2. Графы переходов оптимизирующих автоматов.
ПОИСК С САМООБУЧЕНИЕМ
22з |
• |
ставить такие автоматы со случайными выходами, внут ренним состоянием которых является параметр Wj, оп ределяющий вероятности pf, l—pj выходов автомата. Переходные функции этих автоматов зависят от их вы ходов. Предположим, что функция Q(X) является ли нейной, т. е.
Q ( X ) = Q ( X 0 ) + (X,gradQ(X)), |
(2.6.5) |
|
где |
|
|
grad Q (X) = const. |
|
|
Будем |
рассматривать задачу отыскания |
максимума |
функции |
Q(X). Рассмотрим случай, когда |
оптимизацию |
производит коллектив автоматов Aj. Предположим, что все автоматы Л,- коллектива одинаковы и что их пере
ходы из одного состояния в другое описываются |
матри |
|||||
цей |
(2.1.103) |
при нештрафе |
(с = 0) и матрицей (2.1.104) |
|||
при |
штрафе |
( с = 1 ) . Далее |
предположим, что на |
объект |
||
оптимизации |
не воздействует |
помеха, т. е. а = 0 . Сначала |
||||
анализ проводим для |
случая |
о д н о м е р н о г о |
п р о с т |
|||
р а н с т в а {X} ( я = 1 ) . |
Тогда |
имеем следующие |
вероят |
ности Si штрафов действий Axt автомата ( £ =1, 2):
si = 0; s 2 = l |
(2.6.6) |
и получаем следующую матрицу вероятностей штрафов
(см. формулу |
(2.1.120)): |
|
||||
110. |
. . О О О . |
. . 0 |
|
|||
|
|
|
|
|
m |
|
0 |
. . . 0 |
0 0 |
. . . 0 |
(2.6.7) |
||
0 |
. . . 0 |
1 0 |
. . . 0 |
|||
|
||||||
|
|
|
|
|
т |
|
0 |
. . . 0 |
0 0 |
. . . 1 |
|
тга
По формуле (2.1.25) находим матрицу переходных ве роятностей цепи Маркова, описывающей "Ьункционирование автомата,
ГЛАВА II
|
224 |
|
|
|
|
|
|
|
rx |
r2 |
О О О |
0 |
0 |
0 |
0 |
||
гх |
О г2 |
О О |
0 |
0 |
|
0 |
0 |
|
О |
г, |
О |
г2 О |
0 |
0 |
|
0 |
0 |
А-- |
|
|
|
|
|
|
|
(2.6.8) |
|
О |
О О О |
гх |
0 |
|
г2 |
О |
|
|
О |
О О О |
О Г! |
О г2 |
||||
|
О |
О |
О О |
О 0 |
rj /-2 |
Вектор |
предельных |
вероятностей |
определяется |
реше |
|||||||
нием системы линейных |
уравнений |
|
|
|
|
||||||
Р = Л'Р, |
|
|
|
|
|
|
|
(2.6.9) |
|||
где Д ' |
— |
транспонированная |
матрица |
Л; |
|
|
|||||
|
Р |
— вектор |
предельных |
вероятностей; |
Р = ( р ь . . . |
||||||
|
|
|
•• • , Р2т) • |
|
|
|
|
|
|
|
|
Из |
системы (2.6.9) |
находим предельные |
вероятности |
||||||||
|
. = |
Г12т-гГ2г-\. |
Г \ ~ Г 2 |
|
|
|
|
(2.6.10) |
|||
р |
|
|
|
|
|
|
|||||
|
|
|
|
|
(/=1,2, |
|
...,2т). |
|
|
||
Среднее |
приращение |
функции |
Q(xx) |
на |
одном |
шаге |
|||||
|
|
|
|
|
2т |
|
— r2 » |
|
|
|
|
M[AQ}= |
P j - |
J |
? P |
i = - ^ |
|
(2.6.11) |
|||||
|
|
|
i = |
m+ 1 |
|
-r2 » |
|
|
|
||
|
|
|
|
|
|
|
|
|
Для случайного поиска с покоординатным самообуче нием переходы параметра памяти ш3- (переходы автомата
Рис. 2.6.3. Граф переходов параметра хю, алгоритма покоординатного самообучения.
из одного состояния в другое) для случая 6 = d/m пока заны на рис. 2.6.3. Эти переходы образуют цепь Маркова с матрицей переходных вероятностей
ПОИСК С САМООБУЧЕНИЕМ
|
|
225 |
|
|
|
|
|
|
1 |
0 |
0 . |
. |
0 |
0 |
|
|
1 |
0 |
0 . |
. |
0 |
0 |
|
А = |
0 |
1 |
0 . |
. |
0 |
0 |
(2.6.12) |
|
0 |
0 |
0 . |
. |
1 |
0 |
|
Предельные вероятности |
равны |
|
|
|
|
|
|
|||||
|
Pi = 1; |
p2 = Ps= • • • = P 2 m = 0 |
|
|
|
|
(2.6.13) |
|||||
и |
среднее |
приращение |
функции |
Q(xx) |
на |
одном |
шаге |
|||||
|
M[AQ] = pi- |
( 1 - p i ) |
= 2pl-\=d. |
|
|
|
|
(2.6.14) |
||||
|
Сопоставляя |
формулы |
(2.6.11) |
и |
(2.6.14), |
видим, |
что |
|||||
выражению |
(2.6.11) |
соответствует |
параметр |
d в алго |
||||||||
ритме случайного поиска с покоординатным |
самообуче |
|||||||||||
нием. |
|
|
|
|
|
|
|
|
|
|
|
|
|
Формула |
(2.6.10) дает |
решение |
для |
функций, завися |
|||||||
щих от одного переменного Q(X) = |
|
Q(xx). |
|
|
т. е. |
|||||||
|
Далее |
рассмотрим |
д в у м е р н ы й |
с л у ч а й , |
||||||||
функции, |
зависящие |
от двух переменных Q = Q(xx, |
х2). |
|||||||||
Тогда в процедуре оптимизации участвуют два |
автомата |
|||||||||||
Ах |
и А2, |
система которых |
Л = { Л Ь |
А2} образует |
один бо |
лее сложный автомат А. Внутренним состоянием ав
томата А является вектор W = (доь |
Дог), где |
W\ и w2 |
— |
|||||||||
внутренние |
состояния |
автоматов |
|
|
|
|
||||||
А\ и Л2 соответственно, |
а его вы |
|
|
|
|
|||||||
ходом является вектор |
Д Х = ( Д х ь |
|
|
|
|
|||||||
Ах2), |
где Дх1 и Ах2 |
— выходы ав |
|
|
|
|
||||||
томатов |
Л, |
и Л2 |
соответственно. |
|
|
|
|
|||||
Входом |
автомата |
Л |
является |
|
|
|
|
|||||
sign AQ. |
|
|
|
|
|
|
|
|
|
|||
Пусть |
далее вектор |
градиента |
|
|
|
|
||||||
функции |
Q(xu |
х2) |
|
находится |
|
|
|
|
||||
между |
биссектрисами |
первого |
|
|
|
|
||||||
и четвертого |
квадранта |
плоскости |
Рис. |
2.6.4. Плоскость |
не |
|||||||
Х ( х ь |
х2) |
(рис. 2.6.4) |
и пусть |
каж |
||||||||
дый |
из |
автоматов |
Ах |
и Л 2 |
имеет |
зависимых |
переменных |
|||||
оптимизируемой функции |
||||||||||||
два |
состояния |
|
|
|
w2 (г) |
|||||||
W |
|
|
Q{xu |
хг). |
|
|
15 — 2014