Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 170

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

§ ІО. О РАБОТЕ С АЛГОРИТМАМИ

371

метр

кодируется только одной градацией, то этот

пара­

метр

исключается).

 

Алгоритм ОП-9 включает в себя как составную часть

алгоритм ОГІ-8.

 

Алгоритм ОП-Ю аналогичен алгоритму ОП-7.

С его

помощью, так яге как и с помощью ОП-7, строится экстре­ мальная кусочно-линейная разделяющая гиперповерх­ ность. Отличие заключается лишь в том, что в этих алго­ ритмах по-разному оценивается качество отыскиваемой гиперплоскости: в алгоритме ОП-7 используется оценка сверху, с помощью формулы, в то время как в алгоритме ОП-Ю качество оценивается методом скользящего конт­ роля.

Алгоритм ОП-Ю реализует такую последовательность операций:

1)упорядочиваются элементы обучающей последова­ тельности по расстоянию до вектора х, подлежащего клас­ сификации;

2)для обучающей последовательности строится экст­ ремальная гиперплоскость и оценивается методом сколь­ зящего контроля ее качество;

3)определяется гиперплоскость, построенная по та­ кому объему выборки, для которого оценка качества най­ денного решающего правила наилучшая;

4)с помощью найденного правила классифицируется вектор.

Алгоритм ОП-Ю включает в себя как составную часть алгоритм ОП-9.

§ 10. О работе с алгоритмами

Выше была рассмотрена группа алгоритмов, реализую­ щих метод обобщенного портрета. Среди алгоритмов группы есть алгоритмы, учитывающие достаточно тонкие критерии построения разделяющих поверхностей, и алго­ ритмы, использующие простые критерии. Естественно, что первые требуют для своей реализации больших вычисли­ тельных мощностей, чем вторые.

Самым простым в реализации

является алгоритм ОП-1,

строящий обобщенный портрет

для заданного фиксиро­

ванного к (к — параметр

алгоритма). Наиболее

слож­

ным является алгоритм

ОП-Ю,

который строит

экстре-


372 ГЛ. XV. АЛГОРИТМЫ МЕТОДА ОБОБЩЕННОГО ПОРТРЕТА

малыше кусочно-линейные разделяющие поверхности, используя оценку «скользящий контроль».

Какой же алгоритм выбрать для решения конкретной задачи? Выбор того или иного алгоритма зависит от раз­ ных причин. Если заранее известен весь материал экзаме­ национной последовательности и имеются достаточно мощ­ ные вычислительные средства, то, вероятно, разумней всего использовать алгоритм ОП-Ю. Этот алгоритм строит экстремальные кусочно-линейные решающие прави­ ла, пытаясь полностью учесть особенности данной кон­ кретной задачи. При этом теоретически не исключена возможность, что рекомендация, полученная с помощью ОП-Ю, полностью совпадет с рекомендацией, получен­ ной с помощью ОП-1.

Менее трудоемким является алгоритм построения эк­ стремальной кусочно-линейной разделяющей поверхно­ сти ОП-7. Реализация этого алгоритма упрощается тем, что вместо процедуры скользящий контроль в нем исполь­ зуется оценка качества решающего правила с помощью формул.

В том случае, когда заранее не дана экзаменационная последовательность и необходимо построить решающее правило, которое будет в дальнейшем использоваться для классификации различных векторов, следует применять алгоритмы построения экстремальной разделяющей гипер­ плоскости, а в том случае, когда гиперплоскость разделяет векторы обучающей последовательности, совершая доста­ точно много ошибок, строить кусочно-линейную разде­ ляющую поверхность. Среди алгоритмов метода «обобщен­ ный портрет» есть такие, которые строят разделяющую гиперплоскость в пространстве минимальной размерно­ сти. Часто возникает необходимость строить такие решаю­ щие правила, однако при этом следует иметь в виду, что, вообще говоря, критерий минимизации размерности про­ странства является более грубым, чем критерий (15.9).

Как и всякие алгоритмы, система алгоритмов ОП имеет свои константы, которые необходимо задать при использовании той или иной программы. Величины этих констант следует задавать, исходя из класса вычисли­ тельных машин.

Г л а в а XVI

МЕ Т О Д С О П Р Я Ж Е Н Н Ы Х

НА П Р А В Л Е Н И Й

§1. Идея метода

Рассмотрим задачу о нахождении максимума квадра­ тичной функции

 

F (х) = ---- (ж, ^4ж) ф- Ъх,

 

где

X ж Ъ — и-мерные векторы

евклидова

пространства

Е п,

(х, Ах) — положительно определенная

квадратичная

форма, задаваемая матрицей А.

 

VF (ж)

функции F (х)

Сначала заметим, что градиент

равен b Ах и точка максимума

функции может быть

найдена из уравнения

 

 

 

 

Ъ Ах = 0.

 

 

 

Выводимые ниже алгоритмы

позволяют отыскивать

максимум, минуя решение системы линейных уравнений или получение обратной матрицы. Напротив, эти алгорит­ мы могут быть использованы для решения систем урав­ нений.

1. Рассмотрим сначала процесс, отнюдь не являющий­ ся алгоритмом для нахождения минимума квадратичной функции, но из которого легко следуют весьма эффек­ тивные алгоритмы — метод сопряженных градиентов и метод параллельных касательных.

Пусть х 0 — произвольная точка пространства Е п. Обо­

значим g'1 — градиент функции F (х)

в точке х0. Пусть

Е г — одномерное гиперпространство,

прямая, прохо­

дящая через ж0 в направлении gu т. е. иными словами, множество векторов вида х0 + Kg (— оо <; + оо).


374 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ

Найдем точку хъ в которой достигается условный мак­ симум функции F (х) на прямой Е ѵ Продолжим это по­ строение по индукции. Пусть уже построено /с-мерное гиперпространство E k и в нем найдена точка х к, в которой функция F (X) достигает условного максимума.

Обозначим gk+1 = Ъ —■A x k градиент функции F (х)

в точке x h.

Примем, далее, за гиперпространство Е к+1 про­

странство,

натянутое на E h и прямую, проходящую через

х к в направлении gft+1. Пространство Е к+1 состоит из век­

торов вида

 

 

У — х +

 

 

(16.1)

где X ЕЕ Е к,

а скаляр

Я пробегает

значения

от

— оо до

-ф оо.

х к+1 — это точка, в которой F (х)

 

Наконец,

достигает

условного максимума на пространстве Е к+1.

Таким обра­

зом, получаем такие последовательности:

 

 

 

g l

§ 2 • g k

g k +Ъ

 

 

 

Et

E t . : E k

E k+и

 

 

 

X i

x 2 .. • Xk

 

 

 

По индукции легко показывается, что гиперпростран­ ство E k может рассматриваться как множество векторов вида

 

 

 

к

 

 

 

 

У = х0 + 2

hSi,

 

 

 

 

і=1

 

 

где

gi

— градиенты

функции

F

в точках х 0, . . .

...,

х к-г,

а Я,г принимают любые действительные значения.

Отсюда,

очевидно, следует, что E t CI Ej при i < / •

 

2. Из анализа известно, что если гладкая функция

достигает условного

экстремума

на

некотором гиперпро­

странстве в точке X ,

то градиент функции в этой точке

ортогонален гиперпространству. Применительно к наше­ му построению отсюда следует, что gk+1 ортогонален вся­ кому вектору вида х у, где х жу принадлежат E k, т. е.

(gk+i, (%— У)) = 0 при J

J E E h.

(16.2)

В частности, векторы

х0 и х0 -f- gt

при і

к принадле­

жат E k в силу (16.1),

откуда

 

 

(**+і. gi) = 0 (i <

к),

 


§ 1. ИДЕЯ МЕТОДА

375

а следовательно, и вообще

 

 

(Si, Si) =

0 при і Ф j.

(16.3)

Отсюда следует, что если gh+x ф 0, то вектор gk+1 невыра­ зим линейно через gx, . . ., gh и поэтому пространство E k+1 имеет размерность на 1 большую, чем E h.

Таким образом, размерность пространства Е к последо­ вательно нарастает с ростом к до тех пор, пока gh+x не обратится в нуль. Но последнее означает, что в точке x h достигнут уже абсолютный максимум F (х). Действитель­ но, поскольку F (X) — выпуклая гладкая функция, то обращение в нуль ее градиента является необходимым и достаточным условием максимума.

После обращения в нуль gh+x процесс зацикливается,

потому что при этом Е к+1

совпадает с Ек, соответственно

хк+х — с

х к и

т. д.

Поэтому

в

дальнейшем

будем

считать,

что процесс

обрывается,

как

только

gk+t об­

ратится

в

нуль,

и

тем

самым

будет

установлено,

что

точка х к, найденная

на предыдущем шаге, доставляет

абсолютный

максимум

F (х) во

всем

пространстве

Е п.

В

то же

время

это

обязательно

должно произойти

при

к

п, так как если при к < п градиент gh не обращается

в нуль,

то

размерность

гиперпространства Е к, увеличи­

ваясь каждый раз на 1, на п-м шаге достигнет размерно­ сти всего пространства Е п, т. е. Е к совпадает с Е п, и тем самым условный максимум на Е к, естественно, совпадет

с абсолютным.

Рассмотренный процесс, конечно, не является удоб­ ным алгоритмом, для нахождения максимума, так как формально на каждом шаге требуется находить условный максимум F (х) в пространствах последовательно нара­ стающей размерности вплоть до полной размерности всего пространства. Однако оказывается, что в действительно­ сти можно искать условный максимум на каждом шаге в гиперпространстве размерности 2, т. е. на обыкновенных двумерных гиперплоскостях, или даже в гиперпростран­ стве размерности 1, т. е. на прямой.

3.Для обоснования этого положения установим сле

дующие факты. Обозначим

через у к (к

1) вектор

х к _

x h_u т. е. смещение от условного максимума в E h-X,

к условному максимуму в Е к.

 

(16.4)

а)

Уи Ф

О-

 


376 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЯ

В самом деле, процесс продолжается лишь до тех пор, пока gh не обратится в нуль. Поэтому достаточно показать

что при

gk Ф 0 x h ф Xk-V Поскольку градиент

функции

F (X) в точке не равен нулю, функция возрастает при дви­

жении вдоль прямой

+ Kgh из точки

j по крайней

мере при малых А,)>0. Следовательно, на этой прямой есть

точки, в которых F (х) больше,

чем F (хкф . Но эта прямая

принадлежит E k и,

следовательно, max F (х) и

подавно

больше,

чем F {хкф ,

т. е.

 

 

 

 

 

Е(хк) ф Е ( х кф .

 

(16.5)

Отсюда ясно, что х к Ф x h^x и (16.4) верно. Из (16.5) также

следует,

что x k ф E h_v

 

 

 

б)

Векторы Уі Т&Уі при і Ф j ортогональны относитель

но матрицы А, г. е.

 

 

 

 

 

(Уи АУі) = 0 при г ф j

 

(16.6)

Поскольку матрица А симметрична,

 

 

 

і, Ayj) =

{уj, Ayi).

 

 

Поэтому

для определенности

будем считать, что j ф і.

По определению

 

 

 

 

{Уи Ayj) = (г/г, A (xj — х3ф).

После очевидного преобразования получим

і, Ayj) = (Уі , (Axj — Ъ)) і, (Axj-j — b)),

но для любого к

Sh+l ^ AXfc,

поэтому

(Уі, Ayj) = (Уі, gj) — (Уі, gj+1).

Далее, вектор yt = Xi — жг_х есть разность двух векторов из Е і, и так как при г < /' Е { а Е ^ г, можно применить соотношение (16.2)

{Уи gj) = (fa - Xi-i), gj) = О

и

ІУі>g}+1) ~ {{xi

Xi-j), gj+i) = 0.

Окончательно,

(Уi, Ayj) = 0 при i Ф j.