Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 174

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

I 2. ДЕТЕРМИНИСТСКАЯ ПОСТАНОВКА ЗАДАЧИ

75

Построим новый функционал, например, со следующей функцией потерь:

f m m

 

12

h y j +

* I + 2

hy* + Ö,

если

со =

0,

Ф (со, у, %)

j'=i

 

i= 1

 

 

 

 

m

 

m

 

 

 

 

.

I 2

~

® I — 2

'^іУІ

если

® =

1.

3=1

i=l

 

 

 

 

(4.3)

График этой функции при фиксированных со и у при­ веден на рис. 7. Введенная функция потерь имеет простой смысл: для каждого X она

определяет величину по­ тери в зависимости от то­ го,[как расположен вектор у относительно разделяю­ щей гиперплоскости

Ш

2 hyj = о.

j=i

 

 

Если с помощью разде­

Рис. 7.

ляющей

гиперплоскости

вектор у

классифицирует­

 

ся правильно, то штраф равен нулю, если, же классифи­ кация проводится неправильно, то величина штрафа на­ значается пропорционально расстоянию от этого век­ тора до разделяющей гиперплоскости. Например, если вектор должен быть отнесен к первому классу, а

т

2 Хіу1— б = с< о,

з'=і

то штраф численно равен 2 | с |; если же у должен быть отнесен ко второму классу, а

т

2 ^зУ^ + ö = с 0)

3=1

то величина штрафа численно равна 2с (сравним с


76

ГЛ.

IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

функцией

потерь персептрона, где при любой ошибке

штраф равен единице).

Используя эту функцию потерь, можно подменить задачу о минимизации функционала Р (Я) задачей о ми­ нимизации другого функционала

Рі ( 4 = $ф (ю. У’ Ь)dp К »

на том основании, что точка минимума нового фукнционала доставляет минимум исходному функционалу.

Для функции потерь Ф (со, у, Я) может

быть най­

ден обобщенный градиент

и, следовательно, выписана

рекуррентная

процедура.

Обобщенный

градиент

равен

 

 

 

 

 

 

 

О,

если

со == 1 и

2

hVj >

б>

 

 

 

 

3=1

 

 

 

 

 

 

т

 

 

II (со, у, Я)

О,

если

со = 0 и

2

^зУ3

—Ö,

 

 

 

з=і

 

 

 

 

 

 

т

 

 

 

у,

если •со'= 1 и 2 Я ^ < б ,

 

 

 

 

3=1

 

 

 

 

 

 

га

 

 

 

у,

если

со = 0 и

2 ЦУ} > —ö.

 

 

 

 

3=1

 

 

Соответствующая рекуррентная процедура

 

Я (і) =

Я (£ — 1) + у

(і)П (со*, уі,

Я (і — 1))

означает, что если вектор у правильно классифицируется построенной к этому времени разделяющей гиперплос­ костью, то вектор коэффициентов Я — 1) не меняется. Если же совершается ошибка одного рода (вектор при­ надлежит первому классу, а относится правилом ко вто­ рому), то к вектору коэффициентов Я (г — 1) прибавляется вектор V (і) у{. Если же совершается ошибка другого рода


§ S. МЕТОД ЦИКЛИЧЕСКОГО ПОВТОРЕНИЯ

85

ни одного исправления коэффициентов. Прекращение исправлений решающего правила как раз и будет озна­ чать, что обучающая последовательность разделена пра­ вильно. Но это-то и означает также, что реализуется метод минимизации эмпирического риска.

Таким образом, попытка уменьшить длину обучающей последовательности приводит к тому, что рекуррентную процедуру приходится заменять более сложной — рекур­ рентной процедурой с циклическим повторением обучаю­ щей последовательности, что приводит к методу миними­ зации эмпирического риска. Однако теперь приходится помнить всю обучающую последовательность. Это об­ стоятельство лишает рекуррентную процедуру ее основ­ ного удобства.

Наличие памяти у обучающегося устройства сущест­ венно меняет его возможности. Теперь в процессе обуче­ ния целесообразно различать два момента. Во-первых, сколько элементов обучающей последовательности доста­ точно хранить в памяти, чтобы, в конце концов, гаран­ тировать выбор нужного решающего правила. И, вовторых, сколько раз должна просматриваться обучающая последовательность, прежде чем будет выбрано решающее правило, безошибочно ее разделяющее.

Таким образом, при конструировании обучающихся машин с памятью приходится отвечать на два вопроса: какой должен быть информационный массив, достаточный для выбора нужного решения, и как долго этот массив будет обрабатываться.

У персептрона Розенблатта на каждом шаге вычисли­ тельной процедуры использовался один элемент обучаю­ щей последовательности, и поэтому здесь информационный массив равен количеству шагов, необходимых для выбора нужного правила. Оценка достаточной длины обучающей последовательности персептрона, по существу, устанавли­ вает и достаточное количество шагов для вычисления ре­ шающего правила.

Если же модифицировать персептрон Розенблатта, снабдив его памятью, а при обучении элементы обучаю­ щей последовательности циклически повторять до тех пор, пока не перестанут меняться коэффициенты К, то доста­ точный информационный массив такого персептрона, как будет показано в главе V, пропорционален величине

86ГЛ. ІУ. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

т— размерность спрямляющего пространства), а чис­ ло шагов, необходимое для выбора нужного правила, про-

порционально величине 1 .

Важно, что при р 0 информационный массив (длина обучающей последовательности) не увеличивается, а уве­ личивается лишь объем вычислений. При наличии совре­ менных вычислительных средств увеличение объема вы­ числений не является принципиальной трудностью для решения задач обучения распознаванию образов, в то время как увеличение информационного массива сопря­ жено с трудностями отыскания новой информации.

§ 6. Метод потенциальных функций

В 60-х годах М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр предложили для решения задач обучения распознаванию образов использовать разработанный ими метод потенциальных функций [1]. Этот метод также реа­ лизует идею рекуррентной процедуры минимизации сред­ него риска. Применительно к задаче обучения распо­ знаванию образов суть метода заключается в следующем. На пространстве входных векторов х задается функция, которая называется «потенциалом». Потенциал определя­ ет близость двух точек, х, xQ, и обычно задается как функ­ ция расстояния между точками. Потенциальная функция, как правило, такова, что она монотонно уменьшается с увеличением расстояния. Примерами потенциальной функции могут служить

К (х, Хо) = I г2а > К (•*-> З'о) — е г а,

/т

2 (яо х\)2—расстояние от точки х0 = (xj,...

і=1

. . ., xi); а — константа.

..., Хо) до точки Xj =

С помощью таких функций на пространстве X образует­ ся потенциальное поле. Считается, что вектор х относится к первому классу, если потенциал поля в точке х поло­ жителен; в противном случае вектор х относится ко вто­ рому классу. Процесс обучения, таким образом, заклю­


i 6. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЯ

87

чается в построении с помощью обучающей последова­ тельности потенциального поля.

Геометрическая интерпретация метода построения по­ тенциального поля очень наглядна (рис. 9). Пусть для обучения машине предъявляется обучающая последова­ тельность . . ., соі%і- При появлении первого элемен­ та обучающей последовательности хх «выпускается» по­ тенциал с центром в точке х±. Знак потенциала определя­ ется тем, к какому классу относится предъявленный

пример: если к первому, то знак у потенциала положи­ тельный, если ко второму, то отрицательный. Теперь на пространстве X задан некоторый потенциал. Для второго элемента обучающей последовательности может быть вы­ числена величина потенциала К (х2, хх). Если величина потенциала положительная, а элемент обучающей по­ следовательности относится к первому классу, то потен­ циальное поле на пространстве X не меняется; если же величина потенциала в точке х2 положительная, а вектор х2 должен быть отнесен ко второму классу, то из точки х2 «выпускается» новый потенциал, но с отрицательным знаком. Теперь на пространстве X действует новый сум­ марный потенциал

Ф (х) = К (ж, хх) К (ж, х2).

Аналогично, если при классификации элемента обучающей последовательности с помощью суммарного

88 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

потенциала совершается ошибка, потенциал меняется так, чтобы по возможности выправить ошибку.

Таким образом, результатом обучения в методе по­ тенциальных функций является построение на простран­ стве X потенциального поля

ф (*) = 2І ' ( - 1 ) 1""1* (?.*»)

(здесь штрих у суммы означает, что суммирование про­ водится не по всем элементам обучающей последователь­ ности, а лишь по тем, на которых совершалась «ошибка»).

Это поле разбивает все пространство на две части: часть пространства X, где значение суммарного потен­ циала положительно (все точки в этой части пространства считаются принадлежащими первому классу), и части, где значения потенциала отрицательны (точки в этой части пространства считаются принадлежащими второму классу). Поверхность, на которой потенциал принимает нулевые значения, является разделяющей поверхностью.

Оказывается, что для всякого вида потенциала суще­ ствует система функций (х), . . . cpk (х), . . . (вообще говоря, бесконечная!) такая, что все возможные разделяю­ щие поверхности, которые могут быть получены с помощью метода потенциальных функций, могут быть получены с помощью персептрона Розенблатта, где соответствующее спрямляющее пространство задается преобразованиями Фі ( « ) , . . . , <рт (ж), . . .. С другой стороны, для каждого персептрона легко находится соответствующая потен­ циальная функция.

Таким образом, метод потенциальных функций близок к персептронным методам Розенблатта. Для метода по­ тенциальных функций возможны те же модификации, что и для персептрона Розенблатта.