Файл: Растригин Л.А. Автоматная теория случайного поиска.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 19.06.2024

Просмотров: 225

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ГЛАВА II

222

(JV+1)-M такте в одном из первых т состояний или в одном из последних т состояний.

Смена состояний вероятностного автомата с линейной тактикой с состояниями показана на рис. 2.6.2.

Систему оптимизирующих вероятностных автоматов будем сопоставлять с алгоритмом покоординатного само­

обучения

при случайном

поиске. Напомним сущность

этого

алгоритма. Пусть

в формуле (2.6.1)

AXJ^T+U

равно

+ 1

с вероятностью

pj и —1 с вероятностью

1— pj,

причем pj определяется по следующей формуле:

 

p 3 = Y i l + W ] ) -

 

( 2 - 6 ' 2 )

Здесь Wj — параметр памяти, который в процессе поиска меняется от шага к шагу в зависимости от накопленного опыта по следующей рекуррентной формуле:

Wjvr+i) = Wj{iT) + & sign (AQNAXJW),

(2.6.3)

где б постоянная ( б > 0 ) .

 

Чтобы не допустить нежелательного детерминирова­

ния поиска, на изменение Wj накладывается

ограничение

— d,

если

—d ;

 

Wj= Wj,

если

—d<Wj<d;

(2.6.4)

d,

если

d^Wj,

 

где OsCds^l.

Нетрудно заметить, что система случайного поиска с покоординатным самообучением равносильна вышеизло­ женной схеме оптимизации, если вместо автомата Aj по-

то

г,

г "

Рис. 2.6.2. Графы переходов оптимизирующих автоматов.


ПОИСК С САМООБУЧЕНИЕМ

22з

ставить такие автоматы со случайными выходами, внут­ ренним состоянием которых является параметр Wj, оп­ ределяющий вероятности pf, l—pj выходов автомата. Переходные функции этих автоматов зависят от их вы­ ходов. Предположим, что функция Q(X) является ли­ нейной, т. е.

Q ( X ) = Q ( X 0 ) + (X,gradQ(X)),

(2.6.5)

где

 

 

grad Q (X) = const.

 

Будем

рассматривать задачу отыскания

максимума

функции

Q(X). Рассмотрим случай, когда

оптимизацию

производит коллектив автоматов Aj. Предположим, что все автоматы Л,- коллектива одинаковы и что их пере­

ходы из одного состояния в другое описываются

матри­

цей

(2.1.103)

при нештрафе

(с = 0) и матрицей (2.1.104)

при

штрафе

( с = 1 ) . Далее

предположим, что на

объект

оптимизации

не воздействует

помеха, т. е. а = 0 . Сначала

анализ проводим для

случая

о д н о м е р н о г о

п р о с т ­

р а н с т в а {X} ( я = 1 ) .

Тогда

имеем следующие

вероят­

ности Si штрафов действий Axt автомата ( £ =1, 2):

si = 0; s 2 = l

(2.6.6)

и получаем следующую матрицу вероятностей штрафов

(см. формулу

(2.1.120)):

 

110.

. . О О О .

. . 0

 

 

 

 

 

 

m

0

. . . 0

0 0

. . . 0

(2.6.7)

0

. . . 0

1 0

. . . 0

 

 

 

 

 

 

т

0

. . . 0

0 0

. . . 1

 

тга

По формуле (2.1.25) находим матрицу переходных ве­ роятностей цепи Маркова, описывающей "Ьункционирование автомата,


ГЛАВА II

 

224

 

 

 

 

 

 

 

rx

r2

О О О

0

0

0

0

гх

О г2

О О

0

0

 

0

0

О

г,

О

г2 О

0

0

 

0

0

А--

 

 

 

 

 

 

 

(2.6.8)

 

О

О О О

гх

0

 

г2

О

 

О

О О О

О Г!

О г2

 

О

О

О О

О 0

rj /-2

Вектор

предельных

вероятностей

определяется

реше­

нием системы линейных

уравнений

 

 

 

 

Р = Л'Р,

 

 

 

 

 

 

 

(2.6.9)

где Д '

транспонированная

матрица

Л;

 

 

 

Р

вектор

предельных

вероятностей;

Р = ( р ь . . .

 

 

 

•• • , Р2т) •

 

 

 

 

 

 

 

Из

системы (2.6.9)

находим предельные

вероятности

 

. =

Г1Г2г-\.

Г \ ~ Г 2

 

 

 

 

(2.6.10)

р

 

 

 

 

 

 

 

 

 

 

 

(/=1,2,

 

...,2т).

 

 

Среднее

приращение

функции

Q(xx)

на

одном

шаге

 

 

 

 

 

 

— r2 »

 

 

 

M[AQ}=

P j -

J

? P

i = - ^

 

(2.6.11)

 

 

 

i =

m+ 1

 

-r2 »

 

 

 

 

 

 

 

 

 

 

 

 

Для случайного поиска с покоординатным самообуче­ нием переходы параметра памяти ш3- (переходы автомата

Рис. 2.6.3. Граф переходов параметра хю, алгоритма покоординатного самообучения.

из одного состояния в другое) для случая 6 = d/m пока­ заны на рис. 2.6.3. Эти переходы образуют цепь Маркова с матрицей переходных вероятностей



ПОИСК С САМООБУЧЕНИЕМ

 

 

225

 

 

 

 

 

 

1

0

0 .

.

0

0

 

 

1

0

0 .

.

0

0

 

А =

0

1

0 .

.

0

0

(2.6.12)

 

0

0

0 .

.

1

0

 

Предельные вероятности

равны

 

 

 

 

 

 

 

Pi = 1;

p2 = Ps= • • • = P 2 m = 0

 

 

 

 

(2.6.13)

и

среднее

приращение

функции

Q(xx)

на

одном

шаге

 

M[AQ] = pi-

( 1 - p i )

= 2pl-\=d.

 

 

 

 

(2.6.14)

 

Сопоставляя

формулы

(2.6.11)

и

(2.6.14),

видим,

что

выражению

(2.6.11)

соответствует

параметр

d в алго­

ритме случайного поиска с покоординатным

самообуче­

нием.

 

 

 

 

 

 

 

 

 

 

 

 

Формула

(2.6.10) дает

решение

для

функций, завися­

щих от одного переменного Q(X) =

 

Q(xx).

 

 

т. е.

 

Далее

рассмотрим

д в у м е р н ы й

с л у ч а й ,

функции,

зависящие

от двух переменных Q = Q(xx,

х2).

Тогда в процедуре оптимизации участвуют два

автомата

Ах

и А2,

система которых

Л = { Л Ь

А2} образует

один бо­

лее сложный автомат А. Внутренним состоянием ав­

томата А является вектор W = (доь

Дог), где

W\ и w2

внутренние

состояния

автоматов

 

 

 

 

А\ и Л2 соответственно,

а его вы­

 

 

 

 

ходом является вектор

Д Х = ( Д х ь

 

 

 

 

Ах2),

где Дх1 и Ах2

— выходы ав­

 

 

 

 

томатов

Л,

и Л2

соответственно.

 

 

 

 

Входом

автомата

Л

является

 

 

 

 

sign AQ.

 

 

 

 

 

 

 

 

 

Пусть

далее вектор

градиента

 

 

 

 

функции

Q(xu

х2)

 

находится

 

 

 

 

между

биссектрисами

первого

 

 

 

 

и четвертого

квадранта

плоскости

Рис.

2.6.4. Плоскость

не­

Х ( х ь

х2)

(рис. 2.6.4)

и пусть

каж­

дый

из

автоматов

Ах

и Л 2

имеет

зависимых

переменных

оптимизируемой функции

два

состояния

 

 

 

w2 (г)

W

 

 

Q{xu

хг).

 

 

15 — 2014