Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 189

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

328 ГЛ. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

При е = 0 процесс за конечное число итераций приво­

дит к нахождению обобщенного портрета класса

Y =

= {уц}, а следовательно, и оптимальной разделяющей

по­

верхности.

При реализации этой процедуры удобно на каждой итерации при образовании класса У;+1 из Y t удалять все векторы у, входящие с нулевым весом в разложение обобщенного портрета ф(.

§ 12. Некоторые статистические особенности метода обобщенного портрета

Вглаве VI были получены оценки качества алгоритмов, строящих разделяющие гиперплоскости методом миними­ зации эмпирического риска.

Вчастности, было показано, что для детерминист­ ского случая математическое ожидание вероятности оши­ бочной классификации с помощью решающего правила,

построенного по выборке длины I, не может быть меньше

R ~ c ~ r

где с — константа, п — емкость класса.

Были получены и верхние оценки качества. Верхние оценки были двух типов — зависящие от размерности про­ странства (эти оценки следует из общей теории равномер­ ной сходимости) и оценки, зависящие от относительного расстояния (эти оценки следуют из обобщенной теоремы Новикова 6.2).

В этом параграфе будут исследованы оценки качества алгоритмов, реализующих метод обобщенного портрета. Будет показано, что для этих алгоритмов справедливы одновременно оценки обоих типов (тем самым выполняет­ ся лучшая из них). При этом существенно то, что верхняя

оценка,

зависящая от размерности, значительно ближе к

п

нижнеи с — , чем оценки для произвольных алгоритмов,

строящих разделяющую гиперплоскость на основе ми­ нимума эмпирического риска. Тем самым будут показа­ ны особые статистические свойства метода обобщенного портрета,



§ 12. СТАТИСТИЧЕСКИЕ ОСОБЕННОСТИ МЕТОДА

329

Итак, пусть задача такова, что для любой выборки дли­ ны I при заданном параметре к < 1 существует обобщен­ ный портрет множества X относительно X .

Оказывается, что при этом качество R алгоритма, ис­ пользующего метод обобщенного портрета, может быть оце­ нено:

Д < п р г ’

(і4.зв)

где п — размерность пространства.

 

Эта оценка может быть еще усилена. В § 3 было пока­ зано, что обобщенный портрет ф всегда может быть разло­ жен по своим крайним векторам в виде

аЬ

ф= 2

2

І—1

J=1

Это разложение, вообще говоря, не единственно. Назовем крайний вектор информативным, если он входит с нену­ левым весом во все разложения вектора ф. Обозначим че­ рез т — математическое ожидание числа информативных векторов в выборке длины I + 1. Ниже будет показано, что справедлива оценка

Д < Г р Г -

(14.37)

Будет показано также, что всегда имеет место неравен­ ство

mп.

Впрактических задачах часто оказывается, что m мно­ го меньше п, и тогда методом обобщенного портрета удается по выборке, соизмеримой с размерностью про­ странства, построить разделяющую гиперплоскость, га­ рантирующую малую вероятность ошибочной класси­ фикации.

Для вывода оценок (14.36) и (14.37) воспользуемся свойством несмещенности оценки скользящего контроля (см. § 7 главы VI). Несмещенность означает, что мате­

матическое ожидание частоты ошибок на экзамене после обучения на последовательности длины I равно матема­ тическому ожиданию частоты ошибок при скользящем


330 ГЛ. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

контроле на последовательности длины I + 1. Приме­ нительно к методу обобщенного портрета скользящий кон­ троль проводится так: из обучающей выборки последова­ тельно (каждый раз по одному) удаляются векторы хр (хр); по оставшейся части выборки строится обобщенный порт­ рет фр и проверяется правильность опознания удаленного вектора; после этого подсчитывается частота ошибок.

Справедлива теорема Теорема 14.11. Число ошибок при скользящем контроле

не превосходит числа информативных векторов обобщен­ ного портрета ф (к), построенного по всей выборке.

Д о к а з а т е л ь с т в о . Достаточно показать, что при удалении неинформативного вектора из обучающей выборки в ходе скользящего контроля ошибки на этом векторе не произойдет.

В самом деле, если вектор хѵ (хр) не является инфор­ мативным, то существует разложение обобщенного порт­ рета

аЬ

 

Ф =

2

 

2

 

 

 

 

І=1

J=1

 

 

осг >

0; ß; > 0,

( Xi ,

ф) >

1,

( X j , ф) <

/г, (14.38)

®i (1

— (жг, Ф))

=

ßj ( *

(«л ф)) =

0,

в которое вектор хр (хр) входит с нулевым весом. Но это значит, что вектор ф является одновременно обобщенным портретом и для выборки, из которой вектор хр удален, так как для него выполняются все условия теоремы 14.6 применительно к укороченной выборке, т. е. ф = фр. Следовательно,

(Хр, фр) = ір'рі ф)

1

или

(хр, ф) == (хр, ф) < к,

а значит, удаленный вектор опознается правильно. Тео­ рема доказана.

Из теоремы, с учетом несмещенности оценки сколь­ зящего контроля, немедленно вытекает неравенство

(14.37).

Покажем еще, что число информативных векторов ни­ когда не превосходит размерность пространства п. Для


§ 12. СТАТИСТИЧЕСКИЕ

ОСОБЕННОСТИ

МЕТОДА

331

этого достаточно построить

разложение

вида

(14.38),

в которое с ненулевым весом входит не более п векторов. Действительно, если в разложении (14.38) входит бо­ лее п векторов, то всегда можно построить разложение того же вида, в которое входит меньшее число векторов. Всякая система из т ]> п векторов линейно зависима.

Поэтому существуют числа Хі (7j) такие, что

аЬ

2 № —2 W = о,

і= 1

3=1

причем в это разложение входят только те векторы, кото­ рые входят в (14.38) с ненулевым весом, и но крайней мере одно Хі (Хі) положительно.

Тогда выражение

аb

Ф= 2 (“ і *Т і) хі

2 (Pi — f T j) b

( 1 4 . 3 9 )

i=l

y=i

 

задает семейство разложений обобщенного портрета по своим крайним векторам. Поскольку все а и ß положи­ тельны, то при достаточно малых по модулю t все коэф­ фициенты остаются положительными. В то же время,

поскольку среди чисел Ті з') есть положительные, при достаточно большом t 0 некоторые коэффициенты ста­ нут отрицательными. Значит, найдется t= <min, при кото­ ром впервые один или несколько коэффициентов разло­ жения (14.39) обратятся в нуль, в то время как остальные сохранят положительное значение. Применяя это построе­ ние, если нужно, несколько раз получим искомое разло­ жение.

Для метода обобщенного портрета при к <С 0 удается получить также оценку качества, зависящую от относи­ тельного расстояния между классами. При к = — 1 оценка совпадает с выведенной в главе VI (теорема 6.2) оценкой качества для персептронного алгоритма с много­ кратным повторением обучающей последовательности, а именно:

1

R < (14.40)

1+ 1