Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 195

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 11. ОБ ОПТИМАЛЬНОЙ СОВОКУПНОСТИ ПРИЗНАКОВ 149

характеризуются числом

2, i -f-1 I ^ 3

и т. д.

Иначе говоря, к d-му классу относятся такие гипер­ плоскости, для которых минимум двух величин равен d, т. е.

min

В общей постановке не требуется, чтобы выбираемое правило было безошибочным на материале обучающей по­ следовательности. Обозначим .Рэмп (а) частоту ошибок на материале обучения для решающего правила F (х , а). Пусть правила {F■(х , а,)} доставляют] минимум jP3Mn (а) в подклассе S t. Процедура высшего уровня выбирает наилучшее правило из {F (х, ссг)} по критерию

В том случае, когда априорная ранжировка признаков не задана, упорядочение класса линейных правил произ­ водится по следующему правилу: к г-му классу относятся гиперплоскости, заданные в подпространстве E t размер­ ности ТПі.

В случае детерминистской постановки задачи алгорит­ мы первого уровня выбирают каждый в своем классе ре­ шающее правило, которое правильно классифицирует материал обучения (если такое есть) и при этом доставляет максимум величине р (Et).

Алгоритм высшего уровня выбирает из числа предло­ женных алгоритмами первого уровня такое решающее правило, для которого минимальна величина

К{і) = 2

где

di = min

150ГЛ. ѴІ. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Вобщем случае алгоритмы первого уровня действуют так, как это было описано в конце предыдущего па­ раграфа, а на втором уровне выбор проводится по кри­ терию

„ ,Л , о 1

^ (ln 2i ln i + 1 )

ln Tj/5 + ln C™

К (l)

PЭ М П (&) "H 2 у

j J

При использовании некоторых алгоритмов построения линейных разделяющих гиперплоскостей (в частности, алгоритмов метода обобщенного портрета) можно ввести такой способ упорядочения, при котором достигается бо­ лее глубокий гарантированный минимум.

Идея этого способа упорядочения связана с тем, что в формуле (6.19') п можно понимать не как размерность координатного пространства, а как размерность линей­ ной оболочки множества векторов обучающей рабочей выборки. Размерность же линейной оболочки векторов может оказаться меньше размерности координатного про­ странства. Поэтому при введении порядка в классе ли­ нейных решающих правил можно учесть это обстоятель­ ство.

Рассмотрим следующий способ упорядочения: к d-му классу отнесем те правила, для которых выполняется ра­ венство

min([?w] + 2’ т + h + 4) = d'

т. е. минимум трех величин равен d. Здесь символ h опре­ деляет минимальное число векторов обучающей последо­ вательности, по которым раскладывается вектор направ­ ляющих косинусов разделяющей гиперплоскости.

При таком способе упорядочения оценка качества вы­ бранного решающего правила также определяется крите­ риями (6.19), (6.20).

Итак, рассмотрено три способа упорядочения класса линейных решающих правил. Каждый следующий способ позволял достичь, вообще говоря, более глубокого гаран­ тированного минимума. Это происходило за счет того, что разделяющая гиперплоскость строилась не в исходном пространстве признаков, а в некотором его подпростран­ стве, обладающем экстремальными свойствами.


5 11. АЛГОРИТМЫ МИНИМИЗАЦИИ СУММАРНОГО РИСКА

151

Таким образом, оказалось, что попытка построить по выборке фиксированного объема наилучшее решающее правило приводит к выбору того или иного набора призна­ ков из фиксированного множества признаков и построе­ нию в пространстве выбранных признаков разделяющей гиперплоскости.

Часто множество отобранных признаков называют ин­ формативным набором признаков. «Информативность» этого набора может быть оценена числом, равным мини­ мальной величине критерия (6.19'), которая достигается в пространстве этих признаков. Можно оценивать «вклад» каждого признака в информативность набора признаков как разность между величиной оценки набора признаков, из которого исключен данный признак, и информативно­ стью набора признаков.

Однако, вероятно, понятие «информативность набора

признаков» или «информативность данного

признака»

не несет достаточно глубокого содержания.

И вот по­

чему:

 

1)понятие «информативность пространства призна­ ков» определяется не само по себе, а в связи с конкретным алгоритмом опознания;

2)информативность набора признаков зависит от конк­ ретной обучающей последовательности.

Ясно, что чем больше объем выборки, тем большим бу­ дет, вообще говоря, информативный набор признаков. Тем не менее можно привести примеры задач, когда информа­ тивный набор признаков, найденный по выборке мень­ шего объема, и информативный набор признаков, най­ денный по обучающей последовательности большего объ­

ема, не имеют ни одного общего элемента.

§ 12. Алгоритмы упорядоченной минимизации суммарного риска

Итак, рекомендации метода упорядоченной минимиза­ ции суммарного риска состояли в том, чтобы так индекси­ ровать точки рабочей выборки и выбрать такое подпро­ странство исходного пространства, чтобы для построенной разделяющей гиперплоскости оценка качества (6.19') принимала минимальное значение.

152 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

При детерминистской постановке задачи предлагалось так индексировать точки рабочей выборки и отыскать такое подпространство, чтобы точки обучающей и рабочей выборок, индексированные первым классом, и точки обучающей и рабочей выборок, индексированные вторым классом, были разделимы гиперплоскостью и при этом достигал минимума функционал (6.20").

Разницу в решениях детерминистской задачи мини­ мизации суммарного риска методом минимизации эмпири­ ческого риска и методом упорядоченной минимизации ил­ люстрирует следующий пример (рис. 15).

Рис. 15.

Пусть требуется, используя обучающую последователь­ ность (на рисунке векторы, принадлежащие первому клас­ су, обозначены крестиками, а векторы, принадлежащие второму классу,— кружками), построить гиперплоскость, минимизирующую число ошибок на векторах рабочей вы­ борки (на рисунке соответствующие векторы обозначены черными точками).

Решение этой задачи методом минимизации эмпири­ ческого риска заключается в том, чтобы построить гипер­ плоскость, разделяющую векторы первого и второго клас­ сов с минимальным числом ошибок, а затем классифици­ ровать с помощью построенной гиперплоскости точки ра­ бочей выборки. В нашем случае возможно безошибочное разделение векторов обучающей последовательности, по­ этому существует целое семейство разделяющих гипер-


$ 12. АЛГОРИТМЫ МИНИМИЗАЦИИ СУММАРНОГО РИСКА 153

плоскостей. Выберем среди них оптимальную Г0 (см. главу XIV). Теперь те векторы рабочей выборки, которые ле­ жат по разные стороны гиперплоскости, отнесем различ­ ным классам. Таково решение методом минимизации эм­ пирического риска.

Для решения этой задачи методом упорядоченной ми­ нимизации следует ввести априорное упорядочение клас­ са линейных решающих правил. Рассмотрим упорядоче­ ние по критерию Dlр. Поскольку диаметр множества для всех подклассов при таком упорядочении окажется одним и тем же, то решение задачи заключается в том, чтобы так индексировать точки рабочей выборки первым и вторым классом, чтобы точки первого класса обучающей

и

рабочей

выборок

и точки второго

класса обучающей

и

рабочей

выборок

были разделимы

гиперплоскостью,

наиболее удаленной от ближайшего из разделяемых классов.

Решением этой задачи является построение гиперплос­ кости Гх. (Гиперплоскость Гх обеспечивает расстояние до ближайшего из разделяемых классов рх, в то время как гиперплоскость Г0 — лишь р0.) Как видно из рисунка, полученные решения могут достаточно сильно различать­ ся между собой.

Основные трудности в решении задачи распознавания методом упорядоченной минимизации риска связаны с проведением перебора по способам индексации рабочей выборки. (В случае, когда упорядочение ведется по кри­

терию 1перебор проводится еще и по подпростран­

ствам.) Однако чем меньше элементов в рабочей выбор­ ке, тем меньше перебор и в пределе; когда рабочая выбор­ ка состоит из одного элемента, алгоритм метода упорядо­ ченной минимизации риска состоит в следующем:

1)элемент рабочей выборки присоединяется к первому классу и определяется расстояние рх между выпуклыми оболочками разделяемых множеств;

2)элемент рабочей выборки присоединяется ко второ­ му классу и определяется расстояние р2 между выпуклыми оболочками разделяемых множеств;

3)элемент рабочей выборки относится к первому

классу, если рх р2, и ко второму классу, если р2 Рі-


154 ГЛ. V I. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

(Методы определения расстояния между выпуклыми оболочками рассмотрены в главе XIV.)

Теоретически для каждой обучающей последователь­

ности пространство

Е распадается на две области

такие,

 

•что если элемент рабочей

 

выборки взят из

первой

 

области, то он будет отне­

 

сен к первому классу, а

 

если взят из второй обла­

 

сти, то будет отнесен ко

 

второму классу. Таким об­

 

разом, метод

упорядочен-

 

, ной минимизации суммар-

----------------------------------------- Рис 16

«- ного риска в этом вырож-

денном случае приводит к

 

построению

поверхности,

 

разделяющей

элементы

обучающей] последовательности. Однако эти разделяющие поверхности уже не являются линейными. На рис. 16 приве­ дена разделяющая поверхность для случая, когда обуча­ ющая последовательность задана тремя точками. Для срав­ нения приведена (пунктиром) оптимальная разделяющая гиперплоскость.

Заметим, что если рабочая выборка состоит более чем из одного элемента, то алгоритмы метода упорядоченной минимизации риска не сводятся просто к построению по­ верхности, разделяющей обучающую последователь­ ность.

И еще одно замечание. При практической реализации метода упорядоченной минимизации риска вместо (6.19') лучше использовать критерий, полученный на основе

оценок

равномерного

относительного

уклонения

(5.23):

К(і)

 

■ - a X

 

 

 

 

I

 

 

 

X

1+ 1/

1+

« w o *

+ Р8мп(і).

(6.21)

 

 

 

* ( * з г + 1 - s i >

 

 

При

jP8Mn (i)

= 0

этот критерий близок к (6.20'), а

при Рзмп (0 =h 0

значительно тоньше,

чем (6.19').

 


§

13. ЭКСТРЕМАЛЬНЫЕ

КУСОЧНО-ЛИНЕЙНЫЕ ПРАВИЛА l5f,

 

§ 13. Алгоритмы построения экстремальных

 

кусочно-линейных решающих правил

 

В 50-х годах Фикс и Ходжес рассмотрели следующий

алгоритм построения

дискриминационного

решающего

правила [78].

 

 

 

Пусть заданы обучающая последовательность

 

*^1’

^l»1 ■■j 3*h

 

и рабочий элемент х. Пусть в пространстве X

определена

метрика р (х , у).

 

 

по

Упорядочим элементы обучающей последовательности

близости к вектору х в метрике р (х, у). Соответствую­

щим образом перенумеруем эти векторы. Затем рассмот­ рим первые к элементов перенумерованной последователь­ ности (к — параметр алгоритма; определение к и состав­ ляет предмет исследований теоретиков этого метода). Вектор X относится к первому классу, если среди к эле­ ментов преобладали элементы первого класса, и относит­ ся ко второму классу в противном случае.

Основная идея алгоритма Фикса — Ходжеса состоит в том, чтобы строить решающее правило не по всей выбор­ ке, а лишь но выборке, попадающей в окрестность дискри­ минируемой точки. Фикс и Ходжес рассмотрели самый простой тип «локального» решающего правила — кон­ станту и все внимание сконцентрировали на определении величины «окрестности».

Пользуясь оценками (6.19) и (6.21), можно определить величину экстремальной окрестности для локальных ли­ нейных решающих правил и тем самым строить не экстре­ мальные кусочно-постоянные решающие правила, а более содержательные экстремальные кусочно-линейные реша­ ющие правила. Вот как это можно сделать.

Упорядочим элементы обучающей последовательности по близости к элементу х. Затем последовательно рас­ смотрим I экстремальных гиперплоскостей, разделяющих соответственно 1, 2, . . ., I элементов упорядоченной обучающей последовательности. Качество каждой из I построенных разделяющих гиперплоскостей может быть оценено с помощью критериев (6.20') и (6.21) (соответст­ венно для детерминистского и стохастического вариантов задачи). Вектор х относится к тому классу, к которому