Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 164

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

386 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ

Таким образом, условие останова будет таким. Про­ цесс останавливается, если:

на очередном шаге gh+1 = О или

на очередном шаге оказывается, что

(zk+ii AZk+i) = 0.

В первом случае алгоритм, естественно, приводит в точку максимума. Во втором случае направление zh+1 будет направлением неограниченного возрастания функ­ ции F (х). В самом деле, на прямой

X = x h + Xzk+1

при (zh+1, A zk+1) = 0 функция F (х) имеет вид

X2

F(x) = F (xk) -j- (zk+1, Azk+1) + (g*+1, z*+i)> =

= F (xk) + %(gft+1, gfe+i),

причем

 

 

(gh+1, ghbl) >

0,

 

так

как

при gh+1 = 0 останов произошел

бы по пункту

а).

Но

теперь очевидно, что при

А,-> оо

функция F (х)

возрастает неограниченно. Можно показать, что при этом из всех направлений, по которым функция бесконечно возрастает, она растет быстрее всего в направлении zh+1.

Нам остается убедиться, что останов произойдет не более чем через к шагов, где к — ранг матрицы А . В самом

деле пусть при і ^

та выполнено

условие

(zt, Аг}) 'ф 0.

Тогда остаются в силе соотношения

 

 

(Zi, Azj)

= 0 при і ф і

(і, j <

та)

 

(gm+li Zi) == 0

 

(при выводе этих соотношений положительно-определен- ность не использовалась).

Отсюда следует, что векторы zt (1 1 та) образуют ■4-ортогоналышй базис, а градиент gm в точке хт орто­

гонален

гиперпространству

Ет размерности та, состоя­

щему из

векторов вида

 

 

X х 0

2 %iZi)


§ 3. МЕТОД ПАГАЛЛЕЛЬНЫХ КАСАТЕЛЬНЫХ (ІІАРТАіі) 387

причем

ЕЕ Е ту

так что в точке хт достигается условный максимум функ­ ции F (X) на Е т. Далее, на гиперпросгранстве Е т функ­ ция F (X) имеет вид

F (х) F (х0) + 2 Xi (Z{, Az) -f- 2 dfa,

t=1

где

di = zi (b — A x0),

и так как (zb A zt) 0, то квадратичная часть F (x) поло­ жительно определена. Но, как известно из линейной ал­ гебры, это возможно только в том случае, когда размер­ ность пространства Е т меньше или равна рангу к матри­ цы А .

Следовательно, останов обязательно произойдет при

т?Ск.

§3. Метод параллельных касательных (партан)

Выше было показано, как процесс, описанный в § 1, приводит к методу сопряженных градиентов, если отыска­ ние условного максимума в пространстве E h заменить равноценным поиском максимума на прямой. Там^же по­ казано, что равноценным будет также поиск на двумерной плоскости, проходящей через точку x h и два исходящих из нее вектора yk и gk+i, т. е. точка х к+1 может быть пред­ ставлена в виде

x h+l

х к +

К У к +

^zgk+l

или, иначе,

 

 

 

x k+1 = x k~1 +

'Х'іУк +

'Xzgh+l

( ^ 1 = 1 + ^l)-

Для нахождения максимума квадратичной функции на плоскости можно использовать различные методы. Метод, известный под названием «партан» или «метод па­ раллельных касательных», основан на простом геометри­ ческом принципе.

На рис. 28 изображены линии уровня функции F (х), представляющие собой подобные концентрические эллип­ сы. Пусть х0 — произвольная точка, А 0 — линия уровня

13*


388 гл . XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ

(эллипс), проходящая через х0, Іх — касательная к эллип­ су в точке х0, g1 — градиент функции F (х) в точке хй. Очевидно, что градиент gx нормален к линии уровня, т. е. перпендикулярен касательной Іѵ

Точка хх определяется как точка максимума функции F (х) на прямой г, проходящей через х 0 в направлении градиента gx. В точке хх эта прямая касается некоторой линии уровня. Поэтому градиент g2в точке хх перпендикулярен вектору gx и, сле­ довательно, прямая 12, про­ ходящая через хх в направ­ лении g2, параллельна Іѵ Далее, точка х2 находится как точка максимума F (х)

на прямой 12, где она ка­ сается эллипса А 2. Оче­ видно, что подобным сжа­

Рис. 28. тием можно перевести од­ новременно прямую Іхи эллипс А х в прямую 12и эллипс А 2. При этом точка х0перей­

дет в х2. Но при подобном сжатии к центру точка х0переме­ щается по прямой, проходящей через центр эллипсов. Поэтому прямая (х 0, х2) проходит через центр эллипсов, т. е. точку максимума функции на плоскости. Таким об­ разом, приходим к следующему способу:

1) из произвольной точки х 0 провести прямую г в на­ правлении градиента функции gx в точке х 0;

2)

на этой прямой найти точку условного максиму­

ма хх;

3)

через х х провести прямую в направлении градиента

и на

этой прямой найти точку х2, доставляющую услов­

ный максимум;

4)

соединить точки х 0 и х 2 прямой и найти точку мак­

симума на этой прямой. Найденная точка есть точка, до­ ставляющая максимум функции на всей плоскости.

Вернемся теперь к задаче о нахождении максимума F (х) в п-мерном пространстве Е п. В соответствии со ска­ занным выше, процесс, описанный в § 1, может быть при­ веден к следующему виду.

А. Начальный шаг.

1) В произвольной точке х 0 пространства Е п находит­ ся градиент gx функции F (х);



§ 3. МЕТОД П А РАЛЛЕЛЬН Ы Х КАСАТЕЛЬНЫ Х (ПАРТАН) 389

2) на прямой X = х 0 + Xgt ищется точка хъ достав­ ляющая максимум функции F (х).

Б. Общий шаг. Пусть уже найдены точки х0, хъ . . .,

Х к- у,

'

функции F (х)\

1)

В точке x h находится градиент gft+1

2)

на плоскости, проходящей через

точки хк_ъ x h

ипараллельной направлению gk+1, т. е. на плоскости

ж= хк_! + Ях (xk — х к^ ) -f K2gh+1,

ищется точка х к+1, доставляющая условный максимум функции F (х).

В. Останов алгоритма. Процесс прекращается, когда

на очередном шаге окажется,

что gTO+1 = 0.

Тогда хт

точка максимума F (х) во всем пространстве

Е п.

Для осуществления пункта

2)

общего шага применим

метод параллельных касательных.

Обозначим А к двумер­

ную плоскость вида

 

 

 

X = Яй-і + Ях (xk — х к^ ) + K2gk+i

(Ях и Я2 — параметры) и, начиная с точки х = х к_ъ будем действовать по методу «партан». Прежде всего необходимо найти в точке х к_г условный градиент функции F (х) на плоскости A h. Известно, что условный градиент на ги­ перпространстве А есть проекция полного градиента на это гиперпространство. Таким образом, нам нужно спроек­ тировать вектор gh = V F (xk^1) на плоскость А к. Но в соответствии с (16.2) и (16.3) вектор gk ортогонален gk+i, а векторы (хк — ^ ц ) и gk+1 ортогональны между со­ бой. Поэтому проекция gk на плоскость Afe коллинеарна вектору (xk xh. t).

Прямая, проходящая через точку х к_г в направлении условного градиента на плоскости, имеет, таким образом вид

Xх к—1 ф- Я (х к

аточка максимума на этой прямой есть х к, так как эта прямая принадлежит пространству Е к и х к доставляет

максимум F (х) на всем Е к.

Итак, оказывается, что первый шаг двумерного «партана» фактически уже выполнен и точка хг этого алгорит­ ма совпадает с х к.