Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 178
Скачиваний: 4
1Ö2 |
ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
Найдем функцию роста для класса линейных решаю щих функций. Для этого достаточно определить макси мальное число точек в пространстве размерности т, ко торые с помощью гиперплоскости можно разбить всеми возможными способами на два класса. Известно, что это число равно т + 1. Поэтому
,т+1
Тот факт, что емкость класса линейных правил конеч на (равна т + 1), доказывает обобщенную теорему Гливенко. Отметим, что для гиперплоскостей, проходящих через начало координат, более точная оценка функции роста фактически была выведена в предыдущем параграфе.
§ 8. Оценка уклонения эмпирически оптимального решающего правила
В главе X будет получена оценка скорости равномер ной сходимости. Оказывается, что
0 ( 1- 1)
Р {sup IР (а) — V (а) I > е} < Sms (21) е |
4 • |
(5-9) |
а |
|
|
Оценка имеет тот же вид, что и для конечной системы событий, но вместо числа событий N в правой части нера венства стоит функция роста. Таким образом, функция роста служит мерой разнообразия класса событий.
Если емкость класса бесконечна (ms (I) = 2г), оценка (5.9) тривиальна, так как правая часть неравенства боль; ше единицы при всех I.
Если же емкость г конечна, оценка |
приобретает вид |
|||
г |
|
0(1-1) |
|
|
P {sup|P (a) — V(a) I > е} < 4 ,5 - у |
е |
4 |
• |
(5.10) |
Правая часть неравенства стремится |
к |
нулю |
при |
|
I -> оо и притом тем быстрее, чем меньше г. |
Можно по |
|||
требовать, чтобы вероятность Р {sup | Р (а)—v (a) | |
е} |
|||
a |
|
|
|
|
не превышала заданное значение тгр
§ 8. ОЦЕНКА УКЛОНЕНИЯ |
103 |
Это во всяком случае произойдет, если
|
ЕгР-1) |
|
4,5 |
4 |
= 11- |
Это равенство можно разрешить относительно е. Таким образом, справедливо утверждение: с вероятностью, не превышающей 1 — р, максимальное по классу S укло нение частоты выпадения событий от вероятности не пре восходит
8 = 2 |
+ |
' |
(5.11) |
Отсюда, в силу сказанного в § 2, непосредственно сле дует, что с вероятностью, превышающей 1 — р, качество эмпирически оптимального решающего правила отлича ется от качества истинно оптимального не более чем на Л — 2е, т. е.
где I — длина обучающей выборки, а г — емкость класса решающих правил, из которого осуществляется выбор. В частности, для линейных решающих правил в простран стве размерности т
А = 4 / |
И + 1) |
21 |
- ln д5 |
|
|||
|
|
|
Таким образом, при заданной длине обучающей вы борки качество решающего правила, выбранного алго ритмом, тем ближе к наилучшему в классе, чем меньше емкость класса £2. Но следует помнить, что качество наи лучшего в классе Q решающего правила, вообще говоря, напротив, тем выше, чем шире класс Q.
Разрешая равенство (5.11) относительно I, можно оценить для фиксированной точности и надежности до статочную длину обучающей последовательности (см. главу XIII). Оказывается, что качество эмпирически оптимального решающего правила с вероятностью,
104 |
ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
превышающей 1—ц, отличается от наилучшего в классе Q не более чем на е, если только длина обучающей выборки достигает
гДос-г~с^ |
— • |
(5.12) |
Следовательно, достаточная длина выборки пропор циональна емкости класса решающих функций. В част ности, для линейных решающих функций в т-мерном спрямляющем пространстве достаточная длина пропор циональна размерности т.
§9. Метод минимизации эмпирического риска
вдетерминистской постановке задачи обучения
распознаванию образов
До сих пор при исследовании методов минимизации эмпирического риска в задаче обучения распознаванию образов не возникала необходимость различать две по становки — детерминистскую и стохастическую, как при исследовании методов стохастической аппроксимации.
Однако, вообще говоря, применение методов мини мизации эмпирического риска в детерминистском вариан те задачи обучения распознаванию образов дает более эффективные результаты. Во всяком случае, оценки ско рости равномерной сходимости указывают на более быст рую сходимость. Чтобы выяснить, почему это происходит,
вернемся |
сначала к частному |
случаю, рассмотренному |
||
в § 4. |
пусть класс решающих правил состоит из конеч |
|||
. * Итак, |
||||
ного числа |
N элементов {F (х, ос*)} (і = |
1, 2, . . ., N). |
||
Особенность |
детерминистской |
постановки |
заключается |
в том, что по предположению среди этих решающих пра вил есть то, которое идеально решает задачу. Его-то или близкое к нему правило и предлагается найти, используя
вы борку Хх, . . ., Ж(.
!-й Искать такое решающее правило будем'методом мини мизации эмпирического риска. Так как среди функций {F (х, а,})} есть та, которая идеально решает задачу, то заведомо ясно, что на любой выборке хх, . . ., xt зна чение минимума эмпирического риска будет равно нулю.
Однако этот минимум может достигаться на многих функциях. Поэтому возникает необходимость оценить ве-
§ 9. МИНИМИЗАЦИЯ РИСКА В ДЕТЕРМИНИСТСКОЙ ЗАДАЧЕ Ю5
роятность того, что при выборе любой функции, достав- ^ ляющей нуль величине эмпирического риска, можно га рантировать, что выбрана функция, качество которой не хуже заданного е.
Введем функцию
Ѳ>) = |
1 , |
если z = |
О, |
О, |
если z |
0 . |
Тогда формально оценка скорости равномерной схо димости частот к вероятностям по множеству правил, для которых частота ошибок равна нулю, связана с оценкой вероятности следующего события:
{sup I V* — Р і І-Ѳ (ѵj) > е}.
г
Так как число функций, на которых достигается нуль величины эмпирического риска, не превосходит N числа всех элементов в классе, то справедливо неравен ство
Р {sup I Ѵі — Рі I • Ѳ(v;) > e} < NP[, |
(5.13) |
І |
|
где P[ — вероятность того, что решающее правило, для которого вероятность совершить ошибку есть величина, большая е, правильно классифицирует все векторы обу чающей последовательности. Эту вероятность легко оце нить:
РІ < (1 - б)'.
Подставляя оценку РІ в (5.13), получим
Р {sup [ ѵ4 — Рі I -Ѳ (Vj) > e} < N (1 — e)'.
І
Для того чтобы вероятность Р {sup [ ѵг— Р і |-Ѳ(ѵг) Д> е} i
не превосходила величину Г|, достаточно выполнения
условия |
|
тр |
(5.14) |
|
N (1 — е)г = |
||||
Разрешая относительно I это |
равенство, |
получим |
||
. |
ln N — ln |
|
(5.15) |
|
f " - l n (1 - е ) • |
||||
|
106 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА
Так как для малых г справедливо |
—ln (1 — е) да е, |
||
то формула (5.15) может быть представлена в виде |
|||
I |
ln N — ln Ti |
(5.16) |
|
е |
|||
|
|
Вотличие от оценки (5.6) здесь знаменатель равен е,
ане е2. Разрешая (5.14) относительно е, аналогично
получим
е = |
ln N — ln г] |
(5.17) |
|
І |
|
Таким образом, справедлива следующая теорема.
Теорема 5.2. Если из множества, состоящего из N ре шающих правил, выбирается такое правило, которое ни обучающей последовательности не совершает ни одной ошибки, то с вероятностью 1 — ц можно утверждать, что вероятность ошибочной классификации с помощью выбранного правила составит величину, меньшую г, если длина обучающей последовательности не меньше
і_ ln N —ln г]
—ln (1 — е)
Вобщем случае, когда класс решающих правил S состоит из бесконечного числа элементов, оценка скорости равномерной сходимости для тех правил, на которых частота равна нулю, имеет ту же структуру, что
и(5.6) (см. главу XIII):
|
Р (sup |P(ct) — V (а) I-Ѳ(ѵ (а)) |
— |
£* |
|
е} <^ms (2l)-e |
2 , (5.18) |
|
|
Gt |
|
|
где ms (I) — функция роста |
класса решающих правил S. |
||
В |
(5.18) величина ms (I) играет роль «числа |
элементов» |
|
в |
классе. |
|
|
|
Если объем класса ограничен: |
|
mS(Z)< 1,5
т. е. выполнены достаточные условия равномерной
9 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю7
сходимости, то можно потребовать, чтобы вероятность
Р {sup I Р (а) — V(а) I • Ѳ(ѵ(а)) )> е}
а
не превосходила заданное значение г). |
I, г, г\, г |
|
Это заведомо произойдет, если величины |
||
будут связаны соотношением |
|
|
|
е/ |
|
1,5 |
~2 = л- |
|
Разрешая это равенство относительно I, можно получить |
||
(см. главу XIII) |
г — ІП Г] |
|
Iд о с т --- с |
(5.19) |
|
|
8 |
|
(в отличие от (5.12) здесь знаменатель не с2, а е). Разре шим еще это же равенство относительно е. Заменяя г! по формуле Стирлинга, получаем
|
|
21 |
I |
-ІП - |
|
|
|
In — • |
(5.19') |
||
8 = |
2 - |
Г |
|
|
|
|
|
|
|
Таким образом, в детерминистском варианте поста новки задачи оценки оказываются лучше, чем в общем случае.
§10. Замечание об оценке скорости равномерной сходимости частот появления событий
ких вероятностям
Почему же оценки, полученные для детерминистского и стохастического вариантов постановки задачи, так сильно различаются
Объяснение этому частично дано в предыдущем пара графе, где формулы (5.3), (5.10) и (5.13), (5.18) определяют скорости равномерной сходимости частот появления событий к их вероятностям по различным классам событий S.
В детерминистском варианте постановки учитывают ся только те события исходного множества событий S, частоты которых равны нулю. Обозначим эт от подкласс