Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 161

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 4. АНАЛИЗ ПОГРЕШНОСТЕЙ МЕТОДА

395

Заметим, что этот вывод является другим доказательством того, что метод сопряженных градиентов на к-м шаге до­ стигает условного максимума в Е к, так как для этого достаточно, чтобы (gft+1, zt) = 0 при і ^ к.

Но система (16.31) может быть неустойчивой. Этого нельзя утверждать в общем случае, ибо оказывается, что всегда можно подобрать функцию F (х) и начальную точку так, чтобы а j и фг приняли любые наперед заданные поло­ жительные значения, а последние можно подобрать и так, чтобы система оказалась устойчивой. Но во многих случа­ ях она все-таки оказывается неустойчивой. Покажем это на примере, положив

Уі = 0,5, yj = 1 при і ф /, осг = 1

для всех I.

Допустим, что при некотором к~^> і происходит еди­ ничное возмущение величины akti, т. е. Аahti = 1, причем

Аj = 0 при / г, Аск_1:і = 0 при всех і.

Легко видеть, что решение выглядит следующим образом:

Ааы

к

к + і

к + 2

S + 3

 

 

 

 

1

і — 2

 

 

1

—3

і — 1

 

1

—3

9

І

1

- 3

9

—27

і + 1

 

1

—3

9

і + 2

 

 

1

—3

 

 

 

 

1

Аекі

к

S + 1

S + 2

 

 

—1

4

і — 1

—1

4

- 1 2

і

4

12

36

і + 1

—1

4

—12

 

 

- 1

4


396 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ

Аналитическое решение таково:

 

 

 

_

f(—I)8-3 3s-3

при s і

>

О,

 

a h+s,i+j

I

0

П р и S — /

<

О ,

 

cft+s>2+7 =

|4

(—l)s_3 3s-3+1 при s — /

+

1

О,

I

0

при s — /

+

1 <

О,

т. е. величины aik и cik возрастают примерно как 3fe и имеет место лавинообразное накопление ошибки. Тем не менее, конечно, функция F (х) будет на каждом шаге убывать и процесс будет сходиться, но не за п шагов.

Такого рода явления можно устранить, если на каж­ дом шаге проводить полную А-ортогонализацию очередного вектора zfe+1 относительно всех предшествующих zb а не только zft, но это требует большего числа действий на каждом шаг).

К О М М Е Н Т А Р И И *)

К главе I

Считается, что первой работой, положившей начало исследо­ ванию в области обучения распознаванию образов, была работа Ф. Розенблатта [90]. Американский физиолог ф. Розенблатт рас­ смотрел модель восприятия, которая, вообще говоря, не являлась новой в физиологии. Однако в отличие от других физиологов Ф. Ро­ зенблатт построил эту модель не умозрительно, а в виде техниче­ ского устройства, которое он назвал персептроном. Первоначально алгоритм построения весов і?-элементов персептрона (алгоритм по­ ощрения в терминологии ф. Розенблатта) отличался от того алго­ ритма построения разделяющей гиперплоскости, который был опи­ сан в главе I. Сразу же после публикации сообщения о персептронѳ появилось множество различных исследований законов поощрения. Все они, как правило, обосновывались ссылками на физиологиче­ ские феномены. И только с появлением теоремы американского ма­ тематика А. Новикова [87] алгоритм построения весов А-элемептов получил геометрическую интерпретацию. В свое время теорема А. Новикова произвела чрезвычайно сильное впечатление на иссле­ дователей. Достаточно сказать, что она была передоказана не менее чем десятью авторами.

Теорема Новикова явилась поворотным пунктом в исследовании феномена восприятия. Она продемонстрировала, что исследования можно вести на языке математики, и это во многом определило стиль и уровень последующих работ.

Что касается дальнейших построений моделей восприятия, то они пошли по пути усложнения конструкции персептрона. Ф. Ро­ зенблатт строил и многослойные персептроны, и персептроны с пере­ крестными связями [54]. Однако эти модели, как правило, не оп­ равдывали возложенных на них надежд — на них не удалось проде­ монстрировать ни новых свойств восприятия, ни получить новых теоретических результатов. Подробно исследование возможных и невозможных путей обобщения с помощью персептрона рассмотре­ но в книге М. Минского, С. Пейперта «Персептроны» [46].

В дальнейшем исследование феномена восприятия пошло по пути моделирования на ЭВМ. Однако после появления персептрона в тех­ нике возник интерес к адаптирующимся элементам. Так были

*) Эти комментарии отражают точку зрения авторов на разви­ тие идей в области распознавания образов и никак не^претендует на библиографическую полноту.


398

КОММЕНТАРИИ

построены на

фотохимическом принципе обучающаяся матрица

К. Штейнбуха [92], адалины Б. Уидроу [94, 95]. Эти элементы нахо­ дят применение в различных технических конструкциях.

Что касается закона поощрения Д-элементов персептрона, то, как теперь выясняется, он фактически реализует релаксационные методы решения линейных неравенств, рассмотренные еще в 1954 г. Т. Моцкиным и И. Шенбергом [86].

К главе I I

Сейчас, вероятно, трудно определить, кто первый предложил рассматривать задачу обучения распознаванию образов как задачу минимизации среднего риска. Такие работы постановочного харак­ тера появились в начале 60-х годов почти одновременно. При этом уже с самого начала обнаруживалась «специализация» в постановке. Одни авторы [53, 72, 73, 74] примыкали к классическим работам дискриминантного анализа и рассматривали задачу обучения рас­ познаванию образов как задачу параметрической статистики, дру­ гие [1, 67, 68, 70, 71] предпочитали видеть проблему обучения в соз­ дании алгоритмов постепенного улучшения качества решающего правила (рекуррентных алгоритмов), третьи связывали алгоритмы обучения распознаванию образов с методом минимизации эмпири­ ческого риска [9—19, 24, 41, 81].

Иначе говоря, при постановке задачи методы обучения распоз­ наванию образов оказались связанными со всеми тремя путями ми­ нимизации риска.

Интересно отметить, что содержательная постановка задачи обучения распознаванию образов появилась в 1957—1958 годах, а формальная постановка — только в 1962—1966 годах. Эти пять — восемь лет от содержательной до формальной постановки были чрезвычайно яркими годами — годами «распознавательной роман­ тики». В те времена казалось, что задача обучения распознаванию образов несет в себе начало какой-то новой, никак не основанной на системе старых понятий, идеи, хотелось найти новые постановки, а не сводить задачу к уже известным математическим схемам. В этом смысле сведение задачи обучения распознаванию образов к схе­ ме минимизации среднего риска вызывает некоторое разочарование. Правда, существуют попытки понять задачу в более сложной поста­ новке [32]. Однако таких работ пока чрезвычайно мало.

Сейчас, через много лет после периода «распознавательной ро­ мантики», трудно оценить, что принесла формализация задачи. Не оказалось ли так, что из стремления найти строгую постановку при­ шлось сузить ту содержательную задачу, которую пытались ре­ шать в начале 60-х годов.

К главе III

Вероятно, трудно различить, где кончаются классические мето­ ды дискриминантного анализа и начинается задача обучения распоз­ наванию образов, решаемая методами параметрической статистики. По определению задача дискриминантного анализа состоит в отне­ сении объекта к одному из К классов, заданных функциями распре­



КОММКНТАРИИ

399

деления. На Практике Почти все исследования проводятся для слу­ чая, когда плотности распределения вероятностей векторов каждого класса заданы нормальным законом. Проблемы, которые подыма­ лись дискриминантным анализом, в основном концентрировались вокруг построения линейной дискриминантной функции. Поста­ новка такой задачи впервые была дана Р. Фишером [77], который для решения ее предложил минимизировать некоторую функцию (функцию Фишера). В 1962 году задача построении линейной ди­ скриминантной функции для нормальных распределений была решена Т. В. Андерсоном и Р. Р. Бахадуром [74, 2].

Другие исследования связаны с попыткой сформулировать функционал, минимизация которого приводила бы к построению линейной дискриминантной функции (не только для нормальных распределений). Сначала в качестве такого функционала использо­ вали функцию Фишера, а затем рассматривались и другие функции [62]. Подробный обзор литературы по дискриминантному анализу приведен в [63].

Случай независимо распределенных дискретных признаков так­ же известен в дискриминантном анализе. В 1952 году А. М. Аттли [93] построил на этом принципе веротностный дискриминантный автомат, алгоритм которого, по существу, мало чем отличается от сов­ местных алгоритмов, использующих гипотезу о независимости дис­ кретных признаков.

В общем, различая работы по классическому дискриминантно­ му анализу и параметрическим методам обучения распознаванию образов, вероятно, можно указать на то, что в последних как-то больше акцентируется внимание на восстановлении параметров распределения с учетом ограниченности объема выборки.

К главе IV

Идея метода стохастической аппроксимации возникла, по-види­ мому, давно, но в четкой форме была сформулирована в 1951 году Г. Роббинсом и С. Монро [89]. Они указали итеративную процедуру, позволяющую определять корень уравнения регрессии. В 1952 году Е. Кифер и Дж. Вольфовиц применили этот метод для поиска минимума функционала [82]. Начиная с этого времени ведутся рабо­ ты по определению условий сходимости метода. Подробно с библио­ графией метода стохастической аппроксимации можно ознако­ миться в обзоре [42]. В 1965 году Я. 3. Цыпкин указал на связь метода стохастической аппроксимации с рекуррентными алгоритма­ ми обучения распознаванию образов [67, 68]. Эти работы стимули­ ровали исследования по теории метода стохастической аппрокси­ мации.

С 1964 года М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр разрабатывали теорию метода потенциальных функций, которая оказалась чрезвычайно близкой теории стохастической аппрокси­ мации. Этими учеными получены достаточно тонкие условия сходи­ мости процедур стохастической аппроксимации [1]. Дальнейшие

обобщения были получены недавно Б. Т.

Поляком и Я.

3. Цыпки-

ным [52].

рекуррентные

алгоритмы

исследовал

Конечно-сходящиеся

В. А. Якубович [70, 71].

Ему же принадлежит и сам термин.