Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 158

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

22

ГЛ. I. ПЕРСЕПТРОНРОЗЕНБЛАТТА

либо соответствовать понятию р, либо не соответствовать ему. Рассмотрим оба этих случая.

С л у ч а й п е р в ы й . Вектор х соответствует по­ нятию р. Тогда правильной реакцией элемента R p на сиг­ нал X должно быть возбуждение, т. е. должно выполнять­ ся неравенство

т

2 М У > о.

1=1

Если веса элемента R p обеспечивают правильную реак­ цию на вектор х, то они не меняются. Если же веса не обес­ печивают правильной реакции элемента R p, т. е. они тако­ вы, что

m

2 м у < о,

і = 1

то веса элемента R p изменяются по правилу

Я? (новое) = Xf (старое) + у1 (і = 1, 2, ..., т).

С л у ч а й в т о р о й . Вектор х не соответствует по­ нятию р. Тогда элемент R p не должен возбудиться, т. е. должно выполниться неравенство

т

2 М У С о.

І = 1

Если веса элемента R p обеспечивают правильную реак­ цию этого элемента на вектор х, то они не меняются. Если же веса элемента R p не обеспечивают правильной реак­ ции, т. е.

т

2 м у > о,

2=1

то веса Xf, ..., Я„ изменяются по правилу

Я? (новое) = Я? (старое) — у1 {і = 1, 2, .... т).

При обучении аналогично меняются веса всех элементов R персептрона.

i 5. ОБОБЩЕННАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ

23

§ 5. Обобщенная математическая модель

Ф. Розенблатт надеялся, что его персептрон моделиру­ ет существенные черты человеческого восприятия, в осо­ бенности восприятия зрительных образов. Он полагал, что персептрон легко можно будет обучить узнаванию одного и того же изображения независимо от масштаба изображе­ ния, существенных сдвигов его в рецепторном поле и дру­ гих преобразований, при которых человек относит изобра­ жение к одному и тому же понятию. Иными словами, пред­ полагалось, что персептрон будет узнавать предметы инвариантно по отношению к определенным группам пре­ образований.

В действительности же теоретические и эксперименталь­ ные исследования персептрона Ф. Розенблатта показали его неспособность к такому обобщению.

Последовали всевозможные усложнения схемы пер­ септрона. Строились персептроны с большим числом ней­ ронных слоев, допускалась настройка коэффициентов уси­ ления не только на верхнем слое, но и на промежуточных уровнях, предлагалось вводить перекрестные и обратные связи.

Теоретическое исследование таких сложных персептронных схем чрезвычайно затруднительно. На практике же при распознавании зрительных образов эти модели ока­ зались малоэффективными, в конце концов от них приш­ лось отказаться и пойти другим путем.

Основная идея нового направления состоит в том, что­ бы, опираясь на известные свойства зрительных образов, найти такую систему признаков или, общее, такой язык описания изображения, которые уже сами по себе обеспе­ чивают инвариантность по отношению к требуемым преоб­ разованиям. Таким образом, при построении обучающего­ ся устройства закладываются априорные сведения отно­ сительно того, по каким именно преобразованиям должна достигаться инвариантность.

Если предположить, что физиологическая модель чело­ веческого восприятия действительно аналогична персептрону, то следует допустить, что связи преобразующих А- элементов с рецепторами (а вероятнее, нескольких слоев таких элементов) отнюдь не случайны, а построены имен­ но так, чтобы обеспечить новое описание изображения,


24 ГЛ. I. ПЕРСЁПТРОН РОЗЁНВЛАТТА

содержащее уже требуемые инварианты. Математически эго означает, что преобразование

У = / (я)

таково, что среди координат вектора у есть такие, которые не меняются при определенных преобразованиях век­ тора X.

Возможно, что человек вовсе и не учится находить эти инварианты. Способность использовать их дана ему от рождения и заложена в «схеме» зрительного анализатора, возникшего в процессе эволюции. Во всяком случае экспе­ рименты с персептронами, где в процессе обучения выби­ ралось и отображение у = / (х), не доказали способности персептрона к выработке такого рода инвариантов.

Поэтому, оставляя в стороне вопрос о том, как устроено отображение, будем рассматривать более общую схему персептрона. Будем считать, что дано некоторое преобра­

зование у = / (х)

или, в координатной форме,

У1 =

Фі (*), •••, Ут = Ф™ (ж).

Здесь X — входной вектор, соответствующий исходному описанию объекта. Преобразование / (х) ставит ему в соот­ ветствие некоторое новое описание у. Это преобразование выбирается до начала обучения и может быть построено на основании известных сведений о природе данной задачи распознавания.

Координаты вектора у теперь в общем случае — дейст­ вительные числа, не обязательно 0 или 1.

Для простоты будем считать, что различаются всего два понятия. Тогда персептрон отнесет вектор х к первому понятию, если выполнится неравенство

т

 

2 * чФі (*)> 0,

(1.2)

І=1

 

а в противном случае — ко второму.

Такая схема имеет простую геометрическую интерпре­ тацию: в пространстве X задана гиперповерхность

т

 

2 Ѵ р і (х ) = о ,

(1-3)

І=1


§ 6. ТЕОРЕМА НОВИКОВА

25

которая делит пространство на два полупространства. Счи­ тается, что если вектор х находится по одну сторону от по­ верхности (это значит, что для него выполняется неравен­ ство (1.2)), то он соответст­ вует первому понятию, если же по другую от нее сторону, то второму. Та­ кие гиперповерхности на­ зываются разделяющими

(рис. 2).

Для образования ново­ го понятия надо построить соответствующую разделя­ ющую гиперповерхность. Каждой гиперповерхности

(1.3) пространства X в пространстве У с координатами у1 — (х), ..., ут= фт (X) соответствует гиперплоскость

2 Ку1= о.

(1.4)

Введение пространства У позволяет заменять рассмот­ рение разделяющих гиперповерхностей (1.3) разделяющи­ ми гиперплоскостями (1.4). Поэтому пространство векто­ ров Y получило название спрямляющего. В спрямляющем пространстве изучается следующая схема. Каждому объ­ екту ставится в соответствие вектор у = (у1,. .., ут). Этот вектор относится к первому классу, если он лежит по одну сторону от разделяющей гиперплоскости

ТП

2 = о,

і=1

и ко второму, если по другую.

§ 6. Теорема Новикова

Естественно, что первый же вопрос, который возник при изучении персептрона,— насколько эффективен пред­ ложенный Розенблаттом алгоритм построения разделяю­ щей гиперплоскости, т. е. всегда ли с помощью этого алго­ ритма может быть построена гиперплоскость, разделяющая

26

ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА

два

множества векторов уг, ..., у а и у ъ ..., у ь. Конечно,

имеются в виду случаи, когда такая гиперплоскость в принципе существует.

В 1960 году американский ученый А. Новиков показал, что если последовательность, составленную из всех эле­ ментов множеств уj, ..., у а и ух, ..., уь, предъявить персептрону достаточное число раз, то он, в конце концов, раз­ делит ее (конечно, если разделение с помощью гиперплос­ кости в принципе возможно). Это утверждение оказалось чрезвычайно важным для развития теории обучающихся программ. Использованные для его доказательства поня­ тия оказались полезными и при установлении более тон­ ких свойств алгоритмов обучения. Рассмотрим их под­ робнее.

Утверждение Новикова относится к случаю, когда в пространстве Y существует гиперплоскость, проходящая через начало координат и разделяющая два множества

векторов гд, ..., у аи гд, ...,

уь, т. е. когда существует такой

вектор А, что выполняются неравенства

 

і, А) > 0,

і

=

1,

2,

...,

я,

 

{Уи Л) < 0 ,

/

=

1,

2,

...

А

(1.5)

Здесь использовано обозначение

т

(у, Л) = 2 У%-

і=1

Рассмотрим множество W, состоящее из всех векторов Уі, ..., і/„и — уъ ..., — уь. Тогда система неравенств (1.5) примет вид

(у, Л) >■ 0 для всех у е= W.

Если обозначить

 

 

 

^ і’Л)

Р(Л)’

 

т ш

7ХГ =

 

а

 

ро,

 

sup р (Л) =

 

Л*о

 

 

 

то условие разделимости

векторов гд, ...,

у а и уѵ ..., уь

может быть формально выражено так: р0

0,



§ 6. TÉOËËMA НОЁИКОЙА

2?

Величине р0 может быть дана следующая геометричес­ кая интерпретация. Пусть, как на рис. 3, множество векто­ ров {у} обозначено крестиками, а множество векторов {у} кружками. Утверждение о том, что два множества векто­ ров разделимы гиперплоскостью, проходящей через начало координат, эквивалентно тому, что выпуклая оболочка векторов уъ ..., у аі — Уі, ..., — уь

не содержит нуля или, что то же самое, расстояние от начала коор­ динат до выпуклой оболочки мно­ жества W отлично от нуля *). Ве­ личина ро как раз и равна рассто­ янию от выпуклой оболочки мно­ жества W до начала координат.

Особенность алгоритма персептрона, состоящая в том, что раз­ деляющая гиперплоскость прохо­ дит через начало координат, не является серьезным ограничением при построении произвольной раз­ деляющей гиперплоскости (в том

числе и не проходящей через начало координат). Если для разделения классов необходима гиперплоскость, не проходящая через начало координат, то достаточно рас­

ширить пространство Y , добавив

к векторам уи ...,

у а,

Уіі •••! Уь еЩе °ДНУ координату и

положить ее равной

1.

Тогда нетрудно видеть, что в новом пространстве множе­ ства разделимы гиперплоскостью, проходящей через на­ чало координат..Итак, пусть расстояние от начала коор­ динат до выпуклой оболочки множества W отлично от нуля и равно р0, а расстояние от начала координат до конца самого далекого вектора этого множества равно D .

Тогда, как показал Новиков, после многократного предъявления обучающей последовательности, составлен­ ной из элементов множеств {у } и (г)}, будет проведено не

более к = исправлений коэффициентов (символ [а]

означает целую часть числа а).

*) Выпуклой оболочкой множества называется минимальное выпуклое множество, содержащее эти элементы. В свою очередь выпуклым множеством называется множество, которое наряду с любыми двумя точками содержит отрезок их соединяющий.