Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 178

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

1Ö2

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Найдем функцию роста для класса линейных решаю­ щих функций. Для этого достаточно определить макси­ мальное число точек в пространстве размерности т, ко­ торые с помощью гиперплоскости можно разбить всеми возможными способами на два класса. Известно, что это число равно т + 1. Поэтому

+1

Тот факт, что емкость класса линейных правил конеч­ на (равна т + 1), доказывает обобщенную теорему Гливенко. Отметим, что для гиперплоскостей, проходящих через начало координат, более точная оценка функции роста фактически была выведена в предыдущем параграфе.

§ 8. Оценка уклонения эмпирически оптимального решающего правила

В главе X будет получена оценка скорости равномер­ ной сходимости. Оказывается, что

0 ( 1- 1)

Р {sup IР (а) — V (а) I > е} < Sms (21) е

4 •

(5-9)

а

 

 

Оценка имеет тот же вид, что и для конечной системы событий, но вместо числа событий N в правой части нера­ венства стоит функция роста. Таким образом, функция роста служит мерой разнообразия класса событий.

Если емкость класса бесконечна (ms (I) = 2г), оценка (5.9) тривиальна, так как правая часть неравенства боль; ше единицы при всех I.

Если же емкость г конечна, оценка

приобретает вид

г

 

0(1-1)

 

P {sup|P (a) — V(a) I > е} < 4 ,5 - у

е

4

(5.10)

Правая часть неравенства стремится

к

нулю

при

I -> оо и притом тем быстрее, чем меньше г.

Можно по­

требовать, чтобы вероятность Р {sup | Р )—v (a) |

е}

a

 

 

 

 

не превышала заданное значение тгр


§ 8. ОЦЕНКА УКЛОНЕНИЯ

103

Это во всяком случае произойдет, если

 

ЕгР-1)

 

4,5

4

= 11-

Это равенство можно разрешить относительно е. Таким образом, справедливо утверждение: с вероятностью, не превышающей 1 — р, максимальное по классу S укло­ нение частоты выпадения событий от вероятности не пре­ восходит

8 = 2

+

'

(5.11)

Отсюда, в силу сказанного в § 2, непосредственно сле­ дует, что с вероятностью, превышающей 1 — р, качество эмпирически оптимального решающего правила отлича­ ется от качества истинно оптимального не более чем на Л — 2е, т. е.

где I — длина обучающей выборки, а г — емкость класса решающих правил, из которого осуществляется выбор. В частности, для линейных решающих правил в простран­ стве размерности т

А = 4 /

И + 1)

21

- ln д5

 

 

 

 

Таким образом, при заданной длине обучающей вы­ борки качество решающего правила, выбранного алго­ ритмом, тем ближе к наилучшему в классе, чем меньше емкость класса £2. Но следует помнить, что качество наи­ лучшего в классе Q решающего правила, вообще говоря, напротив, тем выше, чем шире класс Q.

Разрешая равенство (5.11) относительно I, можно оценить для фиксированной точности и надежности до­ статочную длину обучающей последовательности (см. главу XIII). Оказывается, что качество эмпирически оптимального решающего правила с вероятностью,

104

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

превышающей 1—ц, отличается от наилучшего в классе Q не более чем на е, если только длина обучающей выборки достигает

гДос-г~с^

— •

(5.12)

Следовательно, достаточная длина выборки пропор­ циональна емкости класса решающих функций. В част­ ности, для линейных решающих функций в т-мерном спрямляющем пространстве достаточная длина пропор­ циональна размерности т.

§9. Метод минимизации эмпирического риска

вдетерминистской постановке задачи обучения

распознаванию образов

До сих пор при исследовании методов минимизации эмпирического риска в задаче обучения распознаванию образов не возникала необходимость различать две по­ становки — детерминистскую и стохастическую, как при исследовании методов стохастической аппроксимации.

Однако, вообще говоря, применение методов мини­ мизации эмпирического риска в детерминистском вариан­ те задачи обучения распознаванию образов дает более эффективные результаты. Во всяком случае, оценки ско­ рости равномерной сходимости указывают на более быст­ рую сходимость. Чтобы выяснить, почему это происходит,

вернемся

сначала к частному

случаю, рассмотренному

в § 4.

пусть класс решающих правил состоит из конеч­

. * Итак,

ного числа

N элементов {F (х, ос*)} (і =

1, 2, . . ., N).

Особенность

детерминистской

постановки

заключается

в том, что по предположению среди этих решающих пра­ вил есть то, которое идеально решает задачу. Его-то или близкое к нему правило и предлагается найти, используя

вы борку Хх, . . ., Ж(.

!-й Искать такое решающее правило будем'методом мини­ мизации эмпирического риска. Так как среди функций {F (х, а,})} есть та, которая идеально решает задачу, то заведомо ясно, что на любой выборке хх, . . ., xt зна­ чение минимума эмпирического риска будет равно нулю.

Однако этот минимум может достигаться на многих функциях. Поэтому возникает необходимость оценить ве-


§ 9. МИНИМИЗАЦИЯ РИСКА В ДЕТЕРМИНИСТСКОЙ ЗАДАЧЕ Ю5

роятность того, что при выборе любой функции, достав- ^ ляющей нуль величине эмпирического риска, можно га­ рантировать, что выбрана функция, качество которой не хуже заданного е.

Введем функцию

Ѳ>) =

1 ,

если z =

О,

О,

если z

0 .

Тогда формально оценка скорости равномерной схо­ димости частот к вероятностям по множеству правил, для которых частота ошибок равна нулю, связана с оценкой вероятности следующего события:

{sup I V* — Р і І-Ѳ (ѵj) > е}.

г

Так как число функций, на которых достигается нуль величины эмпирического риска, не превосходит N числа всех элементов в классе, то справедливо неравен­ ство

Р {sup I Ѵі Рі I • Ѳ(v;) > e} < NP[,

(5.13)

І

 

где P[ — вероятность того, что решающее правило, для которого вероятность совершить ошибку есть величина, большая е, правильно классифицирует все векторы обу­ чающей последовательности. Эту вероятность легко оце­ нить:

РІ < (1 - б)'.

Подставляя оценку РІ в (5.13), получим

Р {sup [ ѵ4 Рі I -Ѳ (Vj) > e} < N (1 — e)'.

І

Для того чтобы вероятность Р {sup [ ѵг— Р і |-Ѳ(ѵг) Д> е} i

не превосходила величину Г|, достаточно выполнения

условия

 

тр

(5.14)

N (1 — е)г =

Разрешая относительно I это

равенство,

получим

.

ln N — ln

 

(5.15)

f " - l n (1 - е ) •

 


106 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Так как для малых г справедливо

—ln (1 — е) да е,

то формула (5.15) может быть представлена в виде

I

ln N — ln Ti

(5.16)

е

 

 

Вотличие от оценки (5.6) здесь знаменатель равен е,

ане е2. Разрешая (5.14) относительно е, аналогично

получим

е =

ln N — ln г]

(5.17)

 

І

 

Таким образом, справедлива следующая теорема.

Теорема 5.2. Если из множества, состоящего из N ре­ шающих правил, выбирается такое правило, которое ни обучающей последовательности не совершает ни одной ошибки, то с вероятностью 1 — ц можно утверждать, что вероятность ошибочной классификации с помощью выбранного правила составит величину, меньшую г, если длина обучающей последовательности не меньше

і_ ln N ln г]

ln (1 — е)

Вобщем случае, когда класс решающих правил S состоит из бесконечного числа элементов, оценка скорости равномерной сходимости для тех правил, на которых частота равна нулю, имеет ту же структуру, что

и(5.6) (см. главу XIII):

 

Р (sup |P(ct) — V (а) I-Ѳ(ѵ (а))

£*

 

е} <^ms (2l)-e

2 , (5.18)

 

Gt

 

 

где ms (I) — функция роста

класса решающих правил S.

В

(5.18) величина ms (I) играет роль «числа

элементов»

в

классе.

 

 

 

Если объем класса ограничен:

 

mS(Z)< 1,5

т. е. выполнены достаточные условия равномерной


9 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю7

сходимости, то можно потребовать, чтобы вероятность

Р {sup I Р (а) — V(а) I • Ѳ(ѵ(а)) )> е}

а

не превосходила заданное значение г).

I, г, г\, г

Это заведомо произойдет, если величины

будут связаны соотношением

 

 

 

е/

 

1,5

~2 = л-

 

Разрешая это равенство относительно I, можно получить

(см. главу XIII)

г — ІП Г]

 

Iд о с т --- с

(5.19)

 

8

 

(в отличие от (5.12) здесь знаменатель не с2, а е). Разре­ шим еще это же равенство относительно е. Заменяя г! по формуле Стирлинга, получаем

 

 

21

I

-ІП -

 

 

 

In — •

(5.19')

8 =

2 -

Г

 

 

 

 

 

 

Таким образом, в детерминистском варианте поста­ новки задачи оценки оказываются лучше, чем в общем случае.

§10. Замечание об оценке скорости равномерной сходимости частот появления событий

ких вероятностям

Почему же оценки, полученные для детерминистского и стохастического вариантов постановки задачи, так сильно различаются

Объяснение этому частично дано в предыдущем пара­ графе, где формулы (5.3), (5.10) и (5.13), (5.18) определяют скорости равномерной сходимости частот появления событий к их вероятностям по различным классам событий S.

В детерминистском варианте постановки учитывают­ ся только те события исходного множества событий S, частоты которых равны нулю. Обозначим эт от подкласс