Файл: Растригин Л.А. Автоматная теория случайного поиска.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 19.06.2024

Просмотров: 211

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ПОИСК С САМООБУЧЕНИЕМ

147

где

W<*>= ( ш ^ ) , . . . , wn^).

(2.1.42)

Теперь в общем виде определены все величины, необ­ ходимые для составления матрицы переходных вероят­ ностей (2.1.23). После нахождения вектора предельных вероятностей Р = и •. •, Рп) для этой цепи Маркова оп­ ределяется средний выход автомата, т. е. среднее смеще­ ние в пространстве X на одном шаге поиска:

 

т

2п

 

М[АХ}=

£Pi(2

4iMU))-

(2.1-43)'

 

i=l

j=l

 

В этой формуле сумма

 

M[AX/W«>] = J^ijAX")

(2.1.44)

является

средним

выходом

автомата при его нахожде­

нии в состоянии W*'*, т. е. средним смещением в прост­

ранстве

X при значении вектора памяти W = W<*>. Сред­

нее смещение по направлению градиента определяется как скалярное произведение векторов Л1[АХ] и гради­

ентного

вектора

а = ( а ь . . . , ап)

оптимизируемой

функ­

ции Q (X).

 

 

 

 

 

 

 

Далее

рассмотрим

несколько

конкретных

видов

фор­

мулы самообучения

(2.1.3). Пусть функция

4r = 4 R ( W N _ B

A X J V - I ,

A Q V - i )

является

д е т е р м и н и р о в а н н о й и

имеет вид

 

 

 

 

 

 

 

 

W N - I - 6 sign AQ'JV-I sign A X J V _ B

 

 

 

 

 

 

 

 

если

I I

^d]/n;

 

T~~~,

 

 

 

если

\VfN\>dyn,

 

1

1

 

 

 

 

(2.1.45)

где вектор sign A X определяется как

 

 

sgn A X = (sgn

Axu

sgn

Axn);

 

(2.1.46)

10*


ГЛАВА II

 

148

 

 

sgnz = Jf — 1, если 2 < 0 ;

(2.1.47)

Б

\ + 1 , если 2

$гО.

 

Постоянная б здесь определяется формулой

 

 

 

 

 

 

 

(2.1.48)

где k — любое

фиксированное натуральное

число

(k —

= 1, 2,

3,... );

d^O.

Предполагается,

что каждая ко­

ордината

wi (1=1,...,

п)

вектора памяти

W=(wi,...

...,wn)

может

находиться в одном из следующих

2k+1

состояний:

 

 

 

 

 

 

 

wi = d,

( £ - 1 ) 6 , (/г — 2)6, .... б, 0, - б , - 2 6 , . . . , -

 

 

-(k-l)6,-d.

 

 

 

(2.1.49)

Тогда вектор памяти W может находиться в одном из

(2k + 1) X (2k + 1) состояний, т. е. множество

внутренних

состояний

автомата

(2.1.5)

содержит

(2k + 1) X

(2k+1)

элементов. Самообучение заключается в переходе век­

тора W из одного состояния

в другое W<J> в соот­

ветствии с формулой (2.1.45).

 

Видно, что формула (2.1.45) определяет вероятност­ ный автомат, вероятности переходов которого зависят от его выходов. Переходы этого автомата определяются стохастическими матрицами (2.1.11) и (2.1.12). По­ строим эти матрицы. Для удобства перепишем формулу (2.1.45) в виде двух формул в отдельности для случая

нештрафа (AQ'JV<0) и для случая

штрафа ( A Q ' J V ^ O ) :

для AQ'JV <0

 

WJV-I + 6 sign Д Х Л ' _ Ь если

| W A - | <d^n;

 

(2.1.50)

для A Q V ^ O имеем

Wjv_i — 6 sign A X J V - I , если |WA -| ^d^n;

(2.1.51)

если \WN\>d]ln.


 

ПОИСК С САМООБУЧЕНИЕМ

149

Первая из полученных формул (2.1.50) задает матрицы Ao(i) ( / = 1 . • • •, v), а в т о р а я — (2.1.51) — матрицы Ai(/)

(j=l,...,v).

На рис. 2.1.2 показаны пространства {X} и {W} для

Рис. 2.1.2. Пространство выходов ДХ(') и пространство состоя­ ний W<J'> автомата.

AQ'<0

4X = 4 X W

АХ-АХЮ

Рис. 2.1.3. Переходы автомата при нештрафе (AQ'<0).

ГЛАВА II

 

 

150

 

 

 

 

 

 

 

 

 

 

 

•случая,

когда

п = 2 и когда

количество состояний W ( i )

вектора W равно

количеству

возможных

смещений Д Х ^

в пространстве

{X}, т. е. когда

m = 2 n = 4.

Там же по­

казана

нумерация

векторов

ДХ<-<) и W ( ! ) . На рис. 2.1.3

представлены

полученные по формуле

(2.1.50) переходы

автомата из состояния W<*>> в состояние

W'i2> при не­

штрафе

(AQ'<0)

 

для различных

значений

выхода ДХ( ^

( / = 1 , 2, 3, 4)

автомата. Исходя

из данного

на рис. 2.1.3

графа

переходов

при b^d

 

можно написать

следующие

матрицы Л 0 (/) переходных вероятностей:

 

 

 

 

 

1 0

0

0

 

 

 

0

1 0

0

 

Л0 (1)

=

1 0

0

0

А0{2)

=

0

1 0

0

 

1 0

0

0

0

1 0

0

 

 

 

 

 

 

 

 

 

1 0

0

0

 

 

 

0

1 0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2.1.52)

 

 

0

0

1 0

 

 

 

0

0

0

1

 

Л ( 3 ) =

0

0

1

0

Л0

(4)

=

0

0

0

1

 

0

0

1 0

0

0

0

1

 

 

 

 

 

 

 

 

 

0

0

1 0

 

 

 

0

0

0

1

 

На рис. 2.1.4 показаны полученные по формуле (2.1.51) переходы автомата из одного состояния в другое при штрафе (AQ'^O) для различных ДХ^'>. Исходя из дан­ ного на рисунке графа имеем следующие матрицы пере­ ходных вероятностей A j (/) (/=1,2,3,4) :

 

 

0

0

0

 

 

0

0

1 0

Al(l)

=

0

0

0

 

Л, (2)

0

0

1 0

0

0

0

 

0 0

1 0

 

 

 

 

 

 

0

0

0

 

 

0 0

1 0

 

 

 

 

 

 

 

 

 

(2.1.53)

 

 

0

1 0

0

 

1 0

0 0

Л,(3)

=

0

1 0

0

Л.(4)

1 0

0 0

0

1 0

0

1 0

0 0

 

 

 

 

 

0

1 0

0

 

1 0

0 0


ПОИСК С САМООБУЧЕНИЕМ

151

Рис. 2.1.4. Переходы автомата при штрафе (AQ'SsO).

Матрицы Л0 (/)

и А\(1) удовлетворяют равенствам

Л 1 ( 1 ) = Л 0 ( 4 ) ; Л 1 ( 2 ) = Л 0 ( 3 ) ;

 

4 )

Л , ( 3 ) = Л 0 ( 2 ) ; Л 1 ( 4 ) = Л 0 ( 1 ) .

 

 

Определим вид следующей

матрицы:

 

Л (/) = Qi (/) [ (/ - 5 (/)) Л 0

(/) + S (/) Л, (/) ]

(2.1.55)

 

 

 

(/=1,2,3,4) .

 

Учитывая равенства (2.1.54), имеем:

 

^(1) =С2*(1)[(/ - 5(1))Л 0 (1)

+ 5 ( 1 ) Л 0 ( 4 ) ] ;

 

Л (2) =Qi(2)[(I

S(2))Л0(2)

+ 5 ( 2 ) Л 0 ( 3 ) ] ;

 

4 ( 3 ) = Q , ( 3 ) [ ( / - S ( 3 ) M o ( 3 ) + S ( 3 M o ( 2 ) ] ;

( 2 ' L 5 6 >

Л (4) = Q j ( 4 ) [ ( / —S(4))Л0 (4)

+ 5 ( 4 ) Л 0 ( 1 ) ] .

 


ГЛАВА II

152

Отметим, что если во вторых слагаемых этих формул матрица S(j) зависит от номера /, то матрица А0 зависит •от номера (5 / ) . Суммируя равенства формулы (2.1.56), находим

4

 

 

Л= ^

[Qi(/)

(IS(j))+Qt(5-j)S(5-j)]A0(j).

*-1

 

(2.1.57)

Поскольку матрицы Q,(/) и S(j) диагональные, матрица

Q(!)=Qi(j)(I-S(j))+Qi(5-j)S(5-i)

(2.1.58)

также является диагональной. Ее элементы, как не­ трудно понять, вычисляются по формуле

9i 0") = 9 f j ( l - S j ) +q{,(v+i-j)Sv+i-h

(2.1.59)

где v — количество выходов автомата;

.qij\ — элементы матрицы (2.1.13);

Sj и s„+i_j определяются формулой (2.1.10).

Используя формулы (2.1.59) и (2.1.57), находим мат­ рицу (2.1.60) переходных вероятностей цепи Маркова,

описывающей

функционирование

алгоритма

самообуче­

ния

(2.1.45) в случайной

среде

(2.1.10). В этой

матрице

Qii

(1 \ / = 1 . . - . , 4 )

элементы

матрицы Qif,

SJ (/==

= 1,...,4)

вероятность

штрафа

действия

ДХ^'' авто­

мата, определяемая формулой (2.1.10).

 

 

 

|9и ( 1

- S i )

+quSi

912(1

- s 2

)

+913S3

 

 

 

921(1

— S\)

+924^4

922(1

— S2) +923S3

 

 

 

'981 (1

- S i )

+934S4

932 (1

- s 2 )

+933S3

 

 

 

941 (1

~ s l )

+944S4

942(1

- s 2 )

+943S3

 

 

 

91з (1

- S 3 )

+912S2

9 H ( 1

- s 4 )

+9llSl

 

 

 

923 (1 — S3) +922S2

924 ( 1

- s 4 )

 

+ 9 2 1 S 1

 

(2.1.60)

 

9зз(1 - S 3 )

+ 9 3 2 S 2

934(1 -Si)

 

+ 9 3 l S i

 

 

 

 

 

 

943 (1 — S 3 ) -f-<742s 2

944(1

- s 4 )

+<74iSi