Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 158
Скачиваний: 4
22 |
ГЛ. I. ПЕРСЕПТРОНРОЗЕНБЛАТТА |
либо соответствовать понятию р, либо не соответствовать ему. Рассмотрим оба этих случая.
С л у ч а й п е р в ы й . Вектор х соответствует по нятию р. Тогда правильной реакцией элемента R p на сиг нал X должно быть возбуждение, т. е. должно выполнять ся неравенство
т
2 М У > о.
1=1
Если веса элемента R p обеспечивают правильную реак цию на вектор х, то они не меняются. Если же веса не обес печивают правильной реакции элемента R p, т. е. они тако вы, что
m
2 м у < о,
і = 1
то веса элемента R p изменяются по правилу
Я? (новое) = Xf (старое) + у1 (і = 1, 2, ..., т).
С л у ч а й в т о р о й . Вектор х не соответствует по нятию р. Тогда элемент R p не должен возбудиться, т. е. должно выполниться неравенство
т
2 М У С о.
І = 1
Если веса элемента R p обеспечивают правильную реак цию этого элемента на вектор х, то они не меняются. Если же веса элемента R p не обеспечивают правильной реак ции, т. е.
т
2 м у > о,
2=1
то веса Xf, ..., Я„ изменяются по правилу
Я? (новое) = Я? (старое) — у1 {і = 1, 2, .... т).
При обучении аналогично меняются веса всех элементов R персептрона.
i 5. ОБОБЩЕННАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ |
23 |
§ 5. Обобщенная математическая модель
Ф. Розенблатт надеялся, что его персептрон моделиру ет существенные черты человеческого восприятия, в осо бенности восприятия зрительных образов. Он полагал, что персептрон легко можно будет обучить узнаванию одного и того же изображения независимо от масштаба изображе ния, существенных сдвигов его в рецепторном поле и дру гих преобразований, при которых человек относит изобра жение к одному и тому же понятию. Иными словами, пред полагалось, что персептрон будет узнавать предметы инвариантно по отношению к определенным группам пре образований.
В действительности же теоретические и эксперименталь ные исследования персептрона Ф. Розенблатта показали его неспособность к такому обобщению.
Последовали всевозможные усложнения схемы пер септрона. Строились персептроны с большим числом ней ронных слоев, допускалась настройка коэффициентов уси ления не только на верхнем слое, но и на промежуточных уровнях, предлагалось вводить перекрестные и обратные связи.
Теоретическое исследование таких сложных персептронных схем чрезвычайно затруднительно. На практике же при распознавании зрительных образов эти модели ока зались малоэффективными, в конце концов от них приш лось отказаться и пойти другим путем.
Основная идея нового направления состоит в том, что бы, опираясь на известные свойства зрительных образов, найти такую систему признаков или, общее, такой язык описания изображения, которые уже сами по себе обеспе чивают инвариантность по отношению к требуемым преоб разованиям. Таким образом, при построении обучающего ся устройства закладываются априорные сведения отно сительно того, по каким именно преобразованиям должна достигаться инвариантность.
Если предположить, что физиологическая модель чело веческого восприятия действительно аналогична персептрону, то следует допустить, что связи преобразующих А- элементов с рецепторами (а вероятнее, нескольких слоев таких элементов) отнюдь не случайны, а построены имен но так, чтобы обеспечить новое описание изображения,
24 ГЛ. I. ПЕРСЁПТРОН РОЗЁНВЛАТТА
содержащее уже требуемые инварианты. Математически эго означает, что преобразование
У = / (я)
таково, что среди координат вектора у есть такие, которые не меняются при определенных преобразованиях век тора X.
Возможно, что человек вовсе и не учится находить эти инварианты. Способность использовать их дана ему от рождения и заложена в «схеме» зрительного анализатора, возникшего в процессе эволюции. Во всяком случае экспе рименты с персептронами, где в процессе обучения выби ралось и отображение у = / (х), не доказали способности персептрона к выработке такого рода инвариантов.
Поэтому, оставляя в стороне вопрос о том, как устроено отображение, будем рассматривать более общую схему персептрона. Будем считать, что дано некоторое преобра
зование у = / (х) |
или, в координатной форме, |
У1 = |
Фі (*), •••, Ут = Ф™ (ж). |
Здесь X — входной вектор, соответствующий исходному описанию объекта. Преобразование / (х) ставит ему в соот ветствие некоторое новое описание у. Это преобразование выбирается до начала обучения и может быть построено на основании известных сведений о природе данной задачи распознавания.
Координаты вектора у теперь в общем случае — дейст вительные числа, не обязательно 0 или 1.
Для простоты будем считать, что различаются всего два понятия. Тогда персептрон отнесет вектор х к первому понятию, если выполнится неравенство
т |
|
2 * чФі (*)> 0, |
(1.2) |
І=1 |
|
а в противном случае — ко второму.
Такая схема имеет простую геометрическую интерпре тацию: в пространстве X задана гиперповерхность
т |
|
2 Ѵ р і (х ) = о , |
(1-3) |
І=1
§ 6. ТЕОРЕМА НОВИКОВА |
25 |
которая делит пространство на два полупространства. Счи тается, что если вектор х находится по одну сторону от по верхности (это значит, что для него выполняется неравен ство (1.2)), то он соответст вует первому понятию, если же по другую от нее сторону, то второму. Та кие гиперповерхности на зываются разделяющими
(рис. 2).
Для образования ново го понятия надо построить соответствующую разделя ющую гиперповерхность. Каждой гиперповерхности
(1.3) пространства X в пространстве У с координатами у1 — (х), ..., ут= фт (X) соответствует гиперплоскость
2 Ку1= о. |
(1.4) |
Введение пространства У позволяет заменять рассмот рение разделяющих гиперповерхностей (1.3) разделяющи ми гиперплоскостями (1.4). Поэтому пространство векто ров Y получило название спрямляющего. В спрямляющем пространстве изучается следующая схема. Каждому объ екту ставится в соответствие вектор у = (у1,. .., ут). Этот вектор относится к первому классу, если он лежит по одну сторону от разделяющей гиперплоскости
ТП
2 № = о,
і=1
и ко второму, если по другую.
§ 6. Теорема Новикова
Естественно, что первый же вопрос, который возник при изучении персептрона,— насколько эффективен пред ложенный Розенблаттом алгоритм построения разделяю щей гиперплоскости, т. е. всегда ли с помощью этого алго ритма может быть построена гиперплоскость, разделяющая
26 |
ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА |
два |
множества векторов уг, ..., у а и у ъ ..., у ь. Конечно, |
имеются в виду случаи, когда такая гиперплоскость в принципе существует.
В 1960 году американский ученый А. Новиков показал, что если последовательность, составленную из всех эле ментов множеств уj, ..., у а и ух, ..., уь, предъявить персептрону достаточное число раз, то он, в конце концов, раз делит ее (конечно, если разделение с помощью гиперплос кости в принципе возможно). Это утверждение оказалось чрезвычайно важным для развития теории обучающихся программ. Использованные для его доказательства поня тия оказались полезными и при установлении более тон ких свойств алгоритмов обучения. Рассмотрим их под робнее.
Утверждение Новикова относится к случаю, когда в пространстве Y существует гиперплоскость, проходящая через начало координат и разделяющая два множества
векторов гд, ..., у аи гд, ..., |
уь, т. е. когда существует такой |
||||||
вектор А, что выполняются неравенства |
|
||||||
(Уі, А) > 0, |
і |
= |
1, |
2, |
..., |
я, |
|
{Уи Л) < 0 , |
/ |
= |
1, |
2, |
... |
А |
(1.5) |
Здесь использовано обозначение
т
(у, Л) = 2 У%-
і=1
Рассмотрим множество W, состоящее из всех векторов Уі, ..., і/„и — уъ ..., — уь. Тогда система неравенств (1.5) примет вид
(у, Л) >■ 0 для всех у е= W.
Если обозначить |
|
|
|
• |
^ і’Л) |
Р(Л)’ |
|
т ш |
7ХГ = |
|
|
а |
|
ро, |
|
sup р (Л) = |
|
||
Л*о |
|
|
|
то условие разделимости |
векторов гд, ..., |
у а и уѵ ..., уь |
|
может быть формально выражено так: р0 |
0, |
§ 6. TÉOËËMA НОЁИКОЙА |
2? |
Величине р0 может быть дана следующая геометричес кая интерпретация. Пусть, как на рис. 3, множество векто ров {у} обозначено крестиками, а множество векторов {у} кружками. Утверждение о том, что два множества векто ров разделимы гиперплоскостью, проходящей через начало координат, эквивалентно тому, что выпуклая оболочка векторов уъ ..., у аі — Уі, ..., — уь
не содержит нуля или, что то же самое, расстояние от начала коор динат до выпуклой оболочки мно жества W отлично от нуля *). Ве личина ро как раз и равна рассто янию от выпуклой оболочки мно жества W до начала координат.
Особенность алгоритма персептрона, состоящая в том, что раз деляющая гиперплоскость прохо дит через начало координат, не является серьезным ограничением при построении произвольной раз деляющей гиперплоскости (в том
числе и не проходящей через начало координат). Если для разделения классов необходима гиперплоскость, не проходящая через начало координат, то достаточно рас
ширить пространство Y , добавив |
к векторам уи ..., |
у а, |
Уіі •••! Уь еЩе °ДНУ координату и |
положить ее равной |
1. |
Тогда нетрудно видеть, что в новом пространстве множе ства разделимы гиперплоскостью, проходящей через на чало координат..Итак, пусть расстояние от начала коор динат до выпуклой оболочки множества W отлично от нуля и равно р0, а расстояние от начала координат до конца самого далекого вектора этого множества равно D .
Тогда, как показал Новиков, после многократного предъявления обучающей последовательности, составлен ной из элементов множеств {у } и (г)}, будет проведено не
более к = исправлений коэффициентов (символ [а]
означает целую часть числа а).
*) Выпуклой оболочкой множества называется минимальное выпуклое множество, содержащее эти элементы. В свою очередь выпуклым множеством называется множество, которое наряду с любыми двумя точками содержит отрезок их соединяющий.