Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 205

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

290 ГЛ. X III. ПРИМ ЕНЕНИ Е ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Поскольку F (х, а) равномерно ограничена, в силу предыдущего результата с вероятностью 1 найдется Іг такое, что при I >• Іх

sup IМ' (а) — М''мп (а) | < — .

а

^

Кроме того, из усиленного закона больших чисел следует, что с вероятностью 1 найдется 12 такое, что при I > 12

Ä o p - J j f ' (x)dP{x) | < - J - .

Но тогда при 1 > 10 = max (Zx, 12)

sup I М (а) — Мдмп (а) | < е,

а

что и требуется.

3. Ле-Кам [84, 85], основываясь на идеях Вальда получил следующий результат.

Пусть F (X, а) — измеримая по х функция, непрерыв­ ная по а почти для всех х , а изменяется в пределах мет­ рического компакта G и существует К (х) такая, что

F (х, а) < К (х), J К (х) dP (х) < оо.

Тогда, если математическое ожидание F (х, а) существует для всех а, то

lim sup IF (x, a) — ^ 8МП(x, a) | = 0,

l —»оо a

T. e. имеет место равномерная по параметру сходимость средних к математическим ожиданиям.

Этот результат не перекрывает изложенные выше хотя бы потому, что здесь требуется непрерывность, тогда как предыдущие критерии включали также и разрывные функции, обычно используемые в распознавании. Кроме того, в рамках идей Вальда — Ле-Кама, видимо, трудно получить какие-либо оценки.


Частъ третья

МЕТОДЫ ПОСТРОЕНИЯ РАЗДЕЛЯЮЩИХ ПОВЕРХНОСТЕЙ

В этой части книги исследуются методы построения гиперповерхностей, разделяющих два конечных множества векторов. Ключом к решению такой задачи служат эф­ фективные методы построения разделяющей гиперплос­ кости.

Оказывается, что построение оптимальной в опреде­ ленном смысле разделяющей гиперплоскости эквивалент­ но максимизации некоторой квадратичной формы в по­ ложительном квадранте. С этой точки зрения алгоритмы персептронного типа реализуют модифицированный метод подъема Гаусса Зайделя.

Однако известно, что более эффективными методами поиска экстремума являются методы сопряженных на­ правлений, позволяющие отыскивать максимум за п шагов (п размерность квадратичной формы).

Рассмотрению методов сопряженных направлений, созданию на их базе конструктивных алгоритмов пост­ роения разделяющей гиперплоскости и кусочно-линей­ ных разделяющих поверхностей посвящена третья частъ книги.

10*

Г л а в а XIV

П О С Т Р О Е Н И Е Р А З Д Е Л Я Ю Щ Е Й Г И П Е Р П Л О С К О С Т И ( М Е Т О Д О Б О Б Щ Е Н Н О Г О П О Р Т Р Е Т Д )

§ 1. Оптимальная разделяющая гиперплоскость

Выше было показано, что конкретные алгоритмы обу­ чения машин распознаванию образов могут быть по­ строены по следующей схеме: из класса решающих пра­ вил подходящей емкости выбирается правило, мини­ мизирующее количество неправильных классификаций элементов обучающей последовательности.

При этом чрезвычайно важным оказывается способ задания класса решающих правил. Во многих случаях этот класс задается параметрически, т. е. считается, что функции известны с точностью до значения конеч­ ного числа параметров. Волее того, класс функций за­ дается линейно по параметру, т. е. в виде

Выбрать функцию из этого класса—значит найти соответствующие а или, что тоже самое, построить соответствующую разделяющую гиперповерхность

П

2 а гфі(ж) =0.

Ha практике такая задача решается путем построения гиперплоскости, разделяющей в соответствующем спрям-


§ 1. ОПТИМАЛЬНАЯ РАЗДЕЛЯЮЩАЯ

ГИПЕРПЛОСКОСТЬ

293

ляющем пространстве Y {ух =

cpj (х), . . ,,уп =

срп (о:))

два конечных множества векторов: множества векторов обучающей последовательности, относящихся к первому и ко второму классам.

В этой главе будут рассмотрены методы построения разделяющих гиперплоскостей. Однако следует иметь в виду, что рассмотренные здесь методы немедленно могут быть использованы для выбора решающего правила из заданного множества линейных по параметру решающих правил.

Два

конечных множества ^векторов:

множество

X — {х1 ,

. . . , х а) и множество X = (жг , .

. . ,.х ъ} раз­

делимы гиперплоскостью, если существуют такой единич­

ный вектор ер и такое число с,

что для любого вектора

Хх е= X справедливо неравенство

 

(хх, ф) >

с,

(14.1)

а для любого вектора Xj £= X

неравенство

 

(X], ф) <

с.

(14.2)

В случае, когда выполняются (14.1) и (14.2),_говорят также, что множество X отделимо от множества X гипер­ плоскостью

(х, ф) = с.

Определим для любого единичного вектора ф две вели­ чины сг (ф) и с2 (ф):

d (ф) = min (хь ф),

с2 (ф) = max (Я;, Ф).

XjG-X

Согласно определению величин сх (ф) и с2 (ф) всегда спра­ ведливы неравенства

(гг, ф) > сх (ф) (г = 1, 2, . . . , а),

(xj, ф) < с2 (ф) (/' = 1, 2,

. . ., Ь).

Ясно, что если

 

Сі (ф) > с2 (ф),

(14.2')


294 ГЛ.

XIV .

ПОСТРОЕНИЕ

РАЗДЕЛЯЮ Щ ЕЙ

ГИПЕРПЛОСКОСТИ

то пара

с і (ф) + са (ф)

определяет

гиперплоскость

Ф.

2

 

 

(*.ф)

01(Ф) + (Ф)

 

 

 

 

 

 

 

отделяющую множество X

от

множества X.

 

2

 

Заметим, что функции сх (ф)

и с2 (ср) непрерывны. По­

этому из существования одной гиперплоскости, разделяю­ щей два конечных множества векторов X и X, следует существование целого множества гиперплоскостей, раз­ деляющих X и X.

Будем выделять из множества разделяющих гипер­ плоскостей оптимальную.

Определение. Назовем оптимальной разделяющей гипер­ плоскостью такую разделяющую гиперплоскость, кото­ рая определяется следующей парой: единичным вектором фонт, доставляющим максимум функции

П (ф ) = сг (ф) с2 (ф ),

и числом

Сі (Фопт)

(Фопт)

2

Справедлива теорема Теорема 14.1. Если два множества векторов разделимы

гиперплоскостью,

то существует единственная

опти­

мальная разделяющая гиперплоскость.

достаточно пока­

Д о к а з а т е л ь с т в о . Очевидно,

зать, что функция

П (ф ) на множестве

| ф |

1

имеет

единственный максимум, который достигается на границе,

т. е. при I ф I *= 1.

Существование максимума следует из того, что функ­ ция П (ф) непрерывна, а множество | ф | 1 ограниче­ но и замкнуто.

Допустим, что максимум достигается не на границе,

а в некоторой точке ф * ,

для

которой

| ф * | < ; 1 . Тогда

значение функции в точке

•*

ф*

равно

ф** = — і—

ІФ I

П(Ф") =

откуда следует противоречие:

П ( Ф >)

I * I 9

П (ф**)

П (ф*).


§ 2. ОДНОПАРАМЕТРИЧЕСКОЕ СЕМЕЙСТВО

295

Остается показать единственность. Пусть максимум П (ф) достигается в двух граничных точках: фг и ф2. Тогда в силу выпуклости функции — П (ф) максимум должен дос­ тигаться и на всем отрезке, соединяющем фх и ф2, т. е. на

внутренних

точках

множества |ф|

1, что по

доказанному

невозможно.

 

Теорема доказана.

 

 

Геометрически величи­

 

на П (ф) равна расстоянию

 

между

проекциями \ мно­

 

жеств Х и і н а

направле­

 

ние ф(рис. 23). Вектор фопт

 

задает такое направление,

 

для которого эта величина

 

максимальна. Сама же оп­

 

тимальная

разделяющая

 

гиперплоскость

 

 

 

/ V - „

\ ___ С і ( ' Р о п т )

с 2 ( ф о п т )

 

ф о Ш

7 — “

 

о

 

 

обладает тем свойством, что в классе разделяющих гипер­ плоскостей она максимально удалена от ближайшего из множеств X, X.

В § 9 будут указаны алгоритмы построения оптималь­ ной разделяющей гиперплоскости. А пока рассмотрим однопараметрическое семейство разделяющих гипер­ плоскостей, содержащее оптимальную разделяющую ги­ перплоскость.

§ 2. Однопараметрическое семейство разделяющих гиперплоскостей

Введем еще одно определение.

Определение. Будем говоритъ, что пара Ф»

Сі (ф) + С2 (Ф)

2

определяет нормально ориентированную разделяющую гиперплоскость, если наряду с неравенством (14.2') выпол­ няется условие

су (ф) > 0.

Нетрудно видеть, что если два конечных множества векторов Х и І разделимы гиперплоскостью, то сущест­