Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 175

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

3G2 ГЛ. XV. АЛГОРИТМЫ МЕТОДА ОБОБЩ ЕННОГО ПОРТРЕТА

классу, вектор х относится ко второму классу, если вектор X принадлежал ко второму классу.

Разделим теперь множество векторов {х} на два клас­ са с помощью гиперплоскости

(х, ф) = с.

В пространстве размерности т этому разделению соответ­ ствует разделение векторов {ж} с помощью гиперповерх­ ности, составленной из кусков гиперплоскостей с направ­ ляющими векторами и ф2 (вектор тр3 коллинеарен ш-мерному вектору, образованному первыми т координа­

тами вектора тф).

Если же и с помощью гиперповерхности, образованной кусками двух гиперплоскостей, безошибочное разделение невозможно, то обучающая последовательность делится с помощью гиперповерхности, образованной из кусков трех гиперплоскостей, для чего, аналогично предыдуще­ му, образуется множество векторов размерности т + 4, которое делится гиперплоскостью.

Классификация векторов с помощью построенной раз­ деляющей поверхности, образованной кусками гиперплос­ костей, происходит по следующему правилу.

Сначала по вектору х и первой разделяющей гипер­ плоскости вычисляется вектор %. Затем в новом простран­

стве Е т+2 с помощью второй

разделяющей гиперплоско­

сти строится вектор х и т. д. Наконец,

вектор относится

к первому классу, если (х, ф)

с, и

ко второму, если

(х, ф) < с.

Алгоритм ОП-3 включает в себя как составную часть ОП-2.

§5. Алгоритмы построения разделяющей гиперплоскости

впространстве минимального числа признаков

Алгоритм ОП-4 предназначен для поиска минималь­ ной размерности, в котором множества векторов обучаю­ щей последовательности могут быть разделены гиперпло­ скостью так, чтобы расстояние между выпуклыми обо­ лочками множеств было больше р0.

Так же как и две предыдущие задачи, эта задача в прин­ ципе может быть точно решена, однако точное ее решение


5. АЛГОРИТМЫ , МИНИМИЗИРУЮЩИЕ ЧИСЛО ПРИЗНАКОВ 363

сопряжено с необходимостью организации полного пере­ бора по всем возможным подпространствам исходного пространства. Для достаточно большой размерности ис­ ходного пространства (ä 10—30) такой перебор неприем­ лем и поэтому, так же как и в предыдущих случаях, кон­ структивное решение задачи сопряжено с заменой пол­ ного перебора эвристической схемой поиска решения.

Примем все тот же эвристический прием поиска реше­ ния: из множества признаков исключаем «наименее ин­ формативный признак»; затем из оставшегося множества опять исключаем наименее информативный признак и т. д. Процесс исключения признаков будем продолжать до тех пор, пока не выяснится, что множество векторов обучаю­ щей последовательности не может быть разделено на два класса.

Таким образом, поиск минимального подпространства определяется введенным понятием «наименее информатив­ ный признак». Определим его следующим образом. Пусть

в пространстве Е п (п признаков)

заданы два

множества

векторов

обучающей последовательности — множество

векторов

хг, . . ., х а

и множество векторов %І7 . . ., Хь.

В пространстве Е п

могут

быть

построены

выпуклая

оболочка

множества

х17 . . ., х а

и выпуклая

оболочка

множества жх, . . , х ь.

Пусть

расстояние между выпуклы­

ми оболочками будет р (Е п).

Рассмотрим теперь пространство Еп~\{к), образованное п — 1 признаком (исключен признак к). В этом простран­ стве могут быть построены выпуклые оболочки множеств

{х} и {%} (векторы X и х суть проекции векторов х и я на подпространство Еп-\ (к)) и вычислено расстояние между выпуклыми оболочками. Пусть оно равно р (Е^-^к)). Если расстояние между оболочками больше р0, то будем считать, что в этом пространстве возможно построение разделяю­ щей гиперплоскости, в противном случае будем пола­

гать, что разделение

гиперплоскостью векторов {ж} и

{х} невозможно.

величину Ар (Еп^к)) = р (Е п) —

Рассмотрим теперь

— р (Еп^к)). Эта величина показывает, насколько умень­ шится расстояние между выпуклыми оболочками векто­ ров в пространстве Еп-.х(к) (с исключением к-то признака). Будем считать тот признак наименее информативным,


364 ГЛ. XV. АЛГОРИТМЫ МЕТОДА ОБОБЩ ЕННОГО ПОРТРЕТА

с удалением которого расстояние между выпуклыми обо­ лочками уменьшается на минимальную величину.

Таким образом, для того чтобы организовать поиск подпространства минимальной размерности, в котором возможно разделение двух множеств векторов обучающей последовательности по предложенной эвристической схе­ ме, надо уметь определять расстояния между выпуклыми оболочками двух множеств векторов. В этом случае, для того чтобы исключить один из п признаков (или устано­ вить, что исключение невозможно), надо определить рас­ стояние между выпуклыми оболочками в га-мерном под­ пространстве. Определить расстояние между выпуклыми оболочками можно с помощью программы ОП-1 (где ищет­ ся оптимальная разделяющая гиперплоскость).

Расстояние между выпуклыми оболочками определяет­ ся по формуле

— _2_

р- к г

где ф — обобщенный портрет, соответствующий оптималь­ ному к0. Однако, даже несмотря на то, что для поиска «наименее информативного признака» происходит п раз вычислять расстояние между выпуклыми оболочками, такой способ исключения признака не является чрезмер­ но трудоемким.

Удобно проводить поиск наименее информативного из признаков по следующей схеме.

Сначала в пространстве Е п (п признаков) строится оп­ тимальная разделяющая гиперплоскость и определяется расстояние между выпуклыми оболочками двух множеств (это делается с помощью соответствующей модификации программы ОП-1). Пусть ф — найденный обобщенный портрет, ах, . . ., <ха; ßlt . . ., ßb — соответствующие ко­ эффициенты разложения вектора ф по информативным векторам обучающей последовательности.

Спроектируем вектор ф и векторы обучающей последо­ вательности на подпространство Еп^р ). Для этого доста­ точно в те разряды ячеек, где записаны значения р-й координаты вектора ф и векторов х, (ж), заслать нули.

Затем построим оптимальную разделяющую гипер­ плоскость в подпространстве Еп_х(р) (также с помощью ОП-1). Однако за начальные условия следует брать не


§ 6. ПОСТРОЕНИЕ ЭКСТРЕМАЛЬНОЙ

ПОВЕРХНОСТИ

365

аг = . ■. = а„

= ß1? . . ßö = 0,

а те значения

а1: . . .

..., а а и ßj, . .

ßb, которые были найдены при построении

разделяющей гиперплоскости в пространстве размерно­ сти п. При таких начальных условиях отыскание вектора произойдет значительно быстрее.

Программа ОП-4 использует как составную часть про­ грамму ОП-1.

Алгоритм ОП-5 используется для поиска минималь­ ной размерности, в котором разделяющая гиперплос­ кость делит обучающую последовательность, совершая не более t ошибок (t — параметр алгоритма). Структура алгоритма ОП-5 аналогична структуре алгоритма ОП-4. Разница заключается лишь в том, что алгоритм ОП-4 пре­ кращает поиск соответствующего подпространства, когда выясняется, что построение разделяющей гиперплоскости становится невозможным, в то время как алгоритм ОП-5 исключает t векторов, «препятствующих» построению разделяющей гиперплоскости, и только после этого пре­ кращает поиск минимального подпространства.

В соответствии с этим

алгоритм ОП-5 использует

в качестве составной части

не алгоритм ОП-1, а ОП-2.

§ 6. Алгоритм построения экстремальной линейной разделяющей поверхности

Алгоритм ОЛ-6 реализует идею упорядоченной мини­ мизации риска при построении гиперплоскости, разделяю­ щей два множества векторов {х} и {х} (см. главу VI). С помощью этого алгоритма строится гиперплоскость, раз­ деляющая два множества векторов в подпространстве Е т исходного пространства Е п, в котором достигается минимум величины

d = min т + 1,

h + 1

(15.9)

где т — размерность подпространства Е т, D — диаметр векторов в Е т, р — расстояние между выпуклыми обо­ лочками векторов в Е т, h — число векторов, участвовав­ ших в разложении вектора с ненулевым весом.

Найти минимум (15.9), не используя полный перебор по подпространствам, невозможно, поэтому в алгоритме используется тот же прием локального поиска минимума, который использовался выше.


366 гл . XV. АЛГОРИТМЫ МЕТОДА ОБОБЩ ЕННОГО ПОРТРЕТА

Пусть в начальный момент ситуация описывается и-мерным бинарным вектором, который образован раз­ бивкой т параметров на градации (і-й параметр имеет qt градаций). На каждом шаге алгоритм ищет такой спо­ соб «объединения» соседних градаций одного параметра, чтобы максимально увеличить величину критерия d. Для этого в векторах обучающей последовательности вместо координат тг и тг+1 (обе координаты соответствуют различным градациям одного параметра) определяется новая координата т* по правилу

т* = тгV тг+і>

т. е. координата т* принимает значение единица, если одна из координат тгили тг+1 равна единице, нуль, если одновременно тг и тг+1 равны нулю. Если в результате многократного объединения градаций параметр кодиру­ ется только одной градацией, то он исключается из рас­ смотрения (кодировка параметра одной градацией в слу­ чае, если исходная кодировка проводилась рассмотренным в § 1 способом, означает, что всегда значение этой единст­ венной градации будет равна единице). Для каждого па­ раметра возможны qt — 1 способов объединения.

Таким образом, для установления одного оптималь-

т

ного «объединения» проводится 2 (?г — 1) построений оп-

г—1

тимальных разделяющих гиперплоскостей (построение оптимального обобщенного портрета необходимо для по­ строения критерия d).

Итак, уменьшение размерности исходного пространст­ ва на единицу в этом алгоритме требует построения боль­ шого числа разделяющих гиперплоскостей, однако постро­ ение каждой разделяющей гиперплоскости может быть проведено довольно быстро. Для этого надо в исходном пространстве построить оптимальную разделяющую ги­ перплоскость. Пусть такая гиперплоскость есть (;г,ф) = с,

где вектор ф разлагается по

векторам

... ,

х а; г,

. .. , Хь

с коэффициентами аг, . . ., а а; ßl5 . . .,

ßb.

Теперь,

после

объединения двух градаций,

для построения оптимальной

разделяющей гиперплоскости в новом пространстве сле­ дует в качестве начальной группы векторов выбрать

векторы, соответствующие векторам xl t . . ха\%іі • • •» ®ь>