Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 177

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Г л а в а V

А Л Г О Р И Т М Ы , М И Н И М И З И Р У Ю Щ И Е Э М П И Р И Ч Е С К И Й Р И С К

§ 1. Метод минимизации эмпирического риска

Выше было установлено, что рекуррентные алгоритмы обучения распознаванию образов приводят к успеху, но при этом необходимо использовать достаточно большую обучающую последовательность. Длину последователь­ ности можно сократить, но тогда обучающееся устройство должно иметь память и помнить'всю обучающую последо­ вательность. Последовательность должна использоваться многократно до тех пор, пока коэффициенты разделяющей гиперплоскости не перестанут меняться, т. е. до тех пор, пока элементы обучающей последовательности не будут разделены гиперплоскостью безошибочно. Безошибочное разделение обучающей последовательности означает, что выбрано решающее правило, минимизирующее эмпири­ ческий риск.

Таким образом, оказалось, что попытка уменьшить достаточную для обучения длину последовательности при­ вела к минимизации эмпирического риска. Возникает вопрос, всегда ли в задаче обучения распознаванию обра­ зов метод минимизации эмпирического риска приводит к успеху?

Нет, это не так. Вот пример обучающегося устройства, которое минимизирует эмпирический риск, но не способ­ но обучаться. Устройство запоминает элементы обучаю­ щей последовательности, а каждую ситуацию, предъяв­ ленную для распознавания, сравнивает с примерами, хранящимися в памяти. Если предъявленная ситуация совпадает с одним из хранящихся в памяти! примеров, to она будет отнесена к тому классу, к которому относится

90 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

пример. Если же в памяти устройства нет аналогичного примера, то ситуации классифицируются наудачу (на­ пример, с помощью бросания монеты). Понятно, что это устройство, вообще говоря, не может ничему научиться, так как в обучающую последовательность обычно входит лишь ничтожная доля ситуаций, которые могут возник­ нуть при контроле. А вместе с тем такое устройство клас­ сифицирует элементы обучающей последовательности безо­ шибочно.

Как же различить, когда метод минимизации эмпири­ ческого риска может быть успешно применен в задаче обучения распознаванию образов, а когда нет? Ответ на вопрос и составляет содержание теории алгоритмов обу­ чения распознаванию образов, минимизирующих эмпи­ рический риск.

§ 2. Равномерная сходимость частот появления событий к их вероятностям

Рассмотрим снова функционал, минимизация которого в нашей постановке составляет суть задачи обучения рас­ познаванию,

Р (а) = j(cü — F (х, а))2 dP (со, х).

Как уже указывалось, этот функционал для каждого решающего правила F (х, а) определяет вероятность ошибочной классификации. Эмпирическая оценка функ­ ционала, вычисленная на обучающей последовательности

I

Рэмп (а) = ѵ(а) = 4" S К — F (я, а))2

г—1

для каждого решающего правила F (х, а), определяет частоту неправильной классификации на обучающей по­ следовательности.

Согласно классическим теоремам теории вероятностей частота появления любого события сходится к вероятно­ сти этого события при неограниченном увеличении числа испытаний. Однако из этих теорем никак не следует, что решающее правило F (х, а*), которое имеет минималь­ ную частоту ошибок ѵ (а), будет иметь минимальную (среди этих же правил) или близкую к минимальной вероятность


§ 2. РАВНОМЕРНАЯ СХОДИМОСТЬ ЧАСТОТ К ВЕРОЯТНОСТЯМ 91

ошибки. Это утверждение является очень важным и по­ этому разберем его подробнее.

Предположим для наглядности, что решающие правила F (ж, а) задаются скаляром а, который может принимать значения от 0 до 1. Каждому значению а ставится в соот­ ветствие решающее правило, для котогого существует вероятность ошибки Р (а).

Таким образом, каждому

а может быть поставлено

всоответствие число Р(а). Рассмотрим функцию Р (а) (рис. 10). Наряду с этой функцией может быть по­

строена и функция V (а),

 

которая для

каждого

а

 

определяет

частоту оши­

 

бочной классификации

с

Рис. 10.

помощью правила F (ж, а),

 

вычисленную на

обучающей

последовательности.

Метод минимизации эмпирического риска предлагает

по минимуму функции V (а) судить о минимуме функции

Р (а). Для того чтобы по точке

минимума и минималь­

ному значению функции ѵ (а) можно было судить о точке минимума функции Р (а) и о ее минимальном значении, достаточно, чтобы кривая ѵ (а) находилась внутри е-трубки кривой Р (а). Напротив, выброс хотя бы в од­ ной точке (как на рис. 10) может привести к тому, что в качестве минимального значения Р (а) будет выбрана точка выброса. В этом случае минимум ѵ (а) никак не характеризует минимум функции Р (а). Если же функция V (а) приближает Р (а) равномерно по а с точностью е, то качество эмпирически оптимального решающего пра­ вила отличается от качества истинно оптимального пра­ вила не более чем на 2е.

Формально это означает, что нас интересуют не клас­

сические условия, когда

для л)Ы?ых а и

е

имеет место

Р {I ѵ (а) — Р (а) I > е) -> 0,

/W. И

 

1-*оо

 

л aKf

a более сильные условия, когда для любого е справедливо

Р {sup| V (а)

Р (а) I )> е}

0.

(5.1)

а

І-ѵоо


92ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Вслучае, когда выполняется (5.1), говорят, что имеет место равномерная сходимость частот к вероятностям по классу S событий А (а). Каждое событие А (а) в классе S задается решающим правилом F (х , а) как множество векторов X, которое это правило ошибочно классифи­ цирует.

Таким образом, эффективность решения задачи обуче­ ния распознаванию образов методом минимизации эмпи­ рического риска оказалась связанной с существованием равномерной сходимости частот к вероятностям по классу

событий S.

§3. Теорема Гливенко

Вклассической математике уже однажды решалась задача о равномерной сходимости. В 30-х годах замеча­ тельный советский математик В. И. Гливенко доказал теорему, согласно которой с ростом объема выборки эм­

пирическая кривая распределения сходится к функции

распределения

равномерно.

 

 

 

Теорема Гливенко может быть сформулирована еще и

так: на

прямой х задана система решающих правил

F (х, а).

Правило F (х, а) относит точку х к первому

классу,

если х ^ а,

и

относит ко второму,

если х

а.

В соответствие

этому

правилу

может быть

поставлено

событие

А (а),

которое

состоит

в том, что точка

х

отнесена к первому классу. Теорема утверждает, что ча­ стоты сходятся к вероятностям равномерно по всем собы­ тиям А (а) €= S1.

Однако с помощью этой теоремы можно обосновывать правомочность замены среднего риска эмпирическим лишь при поиске решений среди самых примитивных решаю­ щих правил, таких, которые позволяют классифицировать только одномерные векторы по принципу: вектор х отно­

сится к первому классу,

если х

а*,

и ко второму,

если X > а*.

 

 

 

ми­

Чтобы гарантировать успех в применении метода

нимизации эмпирического

риска в классе

линейных

ре­

шающих правил, надо установить равномерную сходи­ мость частот к вероятностям для более сложного класса событий S m. Подобно тому как класс событий S1 в теореме Гливенко задавался всеми возможными полупрямыми,


§ 4. ЧАСТНЫЙ СЛУЧАЙ

93

класс событий S m определяется всеми возможными полу­ пространствами m-мерного векторного пространства х. Здесь, аналогично одномерному случаю, каждое событие задается неравенством

m

2 h& < К- i=l

В этом смысле теорема, доказывающая равномерную сходимость частот к вероятностям по классу событий S m, явилась бы прямым обобщением теоремы Гливенко на многомерный случай. Для обоснования же применения метода минимизации эмпирического риска в задаче обучения распознаванию образов (не только для случая линейных решающих правил!) надо найти условия, при которых можно гарантировать равномерную сходимость частот к вероятностям для различных классов событий.

§ 4. Частный случаи

Рассмотрим простой случай: множество S конечно и состоит из N событий А г, . . ., А и. Для каждого фикси­ рованного события справедлив закон больших чисел (ча­ стота сходится к вероятности при неограниченном увели­ чении числа испытаний). Одним из выражений этого за­ кона является оценка

Р (| ѵ( Л) ~ Р ( А ) I

(5.2)

Нас, однако, интересует случай равномерной сходи­ мости, т. е. вероятность одновременного выполнения всех неравенств | ѵ (A t) — Р {A t) | <; е (t = 1, 2, . . ., N).

Такая вероятность может быть оценена, коль скоро оце­ нена вероятность выполнения отдельно каждого неравен­ ства (5.2), а именно

Р {sup

I V {Ад - Р {Ад I > 8} <

 

1

N

 

 

< % Р { \ ѵ { А д - Р

( Лі )|> в } .

 

і=»1

 

Учитывая (5.2), получим

 

 

Р {sup I V (4,) - Р {Ад I > е} <

(5.3)

і


94

ГЛ. V. МИНИМИЗАЦИЯ*ЭМПИРИЧЕСКОГО РИСКА

Неравенство (5.3) означает, что имеет место равномер­ ная сходимость

Р {sup \ ѵ { А і) - Р { А і) | > е } — >0.

І

Потребуем теперь, чтобы вероятность

Р (sup I V ( A t ) Р ( A t) I > е }

І

не превосходила величины т), т. е.

Р {sup I V ( Ai ) Р ( A i ) I > 8} < Т).

(5.4)

Неравенство (5.4) во всяком случае будет иметь место, если величины N, е, т], I связаны соотношением

N e -2t“ = т].

(5.5)

Разрешая равенство (5.5) относительно е, найдем для данных N, I, т] оценку максимального уклонения частоты от вероятности в рассматриваемом классе событий:

_

, /

ln N — ln т|

Е -

V

21

Разрешая равенство (5.5) относительно I, найдем, какова должна быть длина обучающей последовательности, чтобы с вероятностью, не меньшей 1 — т], можно было утвер­ ждать, что минимум вероятности по классу событий S отличается от минимума частоты по этому же классу событий на величину, не превосходящую е:

7 In ІѴ— ln. rj 2ea

Иначе говоря, выше была доказана следующая теорема.

Теорема 5.1. Если из множества, состоящего из N ре­ шающих правил, выбирается решающее правило, частота ошибок которого на обучающей последовательности рав­ на V, то с вероятностью 1 — г) можно утверждать, что вероятность ошибочной классификации с помощью вы­ бранного правила составит величину, меньшую ѵ + е, если длина обучающей последовательности не меньше

7 _

lnW — ln Г)

(5.6)

1 ~

2еа