Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 181
Скачиваний: 4
108 |
ГЛ. V- МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
S 0. В стохастическом варианте задачи уклонение оцени валось для всех событий исходного класса событий S.
Формально этот факт находит свое отражение в струк туре формул, задающих оценку равномерной сходимости, (5.10), (5.18). Правая часть неравенств (5.10), (5.18) со стоит из двух сомножителей. Первый сомножитель ха рактеризует емкость класса событий (он идентичен, как в случае (5.10), так и в (5.18)), второй сомножитель оцени вает вероятность уложиться в заданное уклонение е частоты от вероятности для любого события заданного класса (в детерминистской постановке этот класс есть S 0, в стохастической — этот класс совпадает с S).
Оказывается, удается существенно по-разному оценить этот второй сомножитель. Так как при стохастическом варианте постановки априори не известны никакие ха рактеристики вероятностей событий класса S, то оценка уклонения частоты от вероятности для любого события А, принадлежащего S, производится в условиях наиболее
неблагоприятного |
случая, |
когда |
Р (^4) |
= |
Поэтому |
|
возможна лишь оценка (5.10). |
|
|
|
|||
Для детерминистского |
варианта постановки наиболее |
|||||
неблагоприятное |
событие |
в |
классе |
S то, |
для |
которого |
Р (А) = е. Для оценки уклонения частоты от вероятно сти этого события возможна более тонкая оценка (5.14).
Таким образом, оценки, полученные для детерминист ского и стохастического вариантов постановки задачи, различаются так, как различаются оценки уклонения частот от вероятностей в двух событиях: в событии А, для которого Р (А) близко к нулю, и в событии А', для которого Р (A') близко к г/2.
Это обстоятельство заставляет внимательно отнестись к тем требованиям, которые предъявляются к величинам уклонения частот от вероятностей.
В задаче обучения распознаванию образов можно ослабить требования к характеру сходимости: разумно требовать не равномерного отклонения частот от вероят ностей для всех событий, а разрешить большее уклонение для тех событий, которым соответствует вероятность, близкая к Ѵ2 , и меньшее для событий с вероятностями,
близкими |
к нулю. Рассмотрим снова функции Р (а) и |
V (а) (рис. |
12), где Р (а) — вероятность ошибки для рѳ- |
§ 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю9
шающего правила F (х, а), ѵ (а) — частота ошибок этого правила на выборке хг, . . . , х г.
Допустим, что оптимальным является правило F (х, а 0), т. е. при а = а 0 достигается минимум функции Р (а). Для того чтобы гарантировать, что качество решающего
правила F(x, |
аД, выбранного |
из условия |
минимума числа |
ошибок, отличается от опти мального не более чем на е, не обходимо и достаточно, чтобы этот минимум лежал в области, где Р (ос) < Р (а0) + е.
Учтем далее, что сходимость частот к вероятностям для фик сированного значения а проис ходит значительно быстрее, чем равномерная сходимость по
всем значениям параметра. Поэтому уже при сравнительно
небольшой длине |
выборки можно |
принять, |
что Р (ос0) ж |
|||||
ж ѵ (а0). |
Тогда е —- близость качества правил F (х, осД |
|||||||
и F (х, а 0) будет гарантирована, если потребовать, |
чтобы |
|||||||
для всех |
ос, для |
которых |
Р (ос) |
Р (сс0) |
+ в, частота |
|||
V ( а ) была бы больше чем ѵ ( а 0) ж |
Р ( ос0) . |
|
В гла |
|||||
Оценим требующуюся для этого длину выборки. |
||||||||
ве XII будет показано, что справедлива односторонняя |
||||||||
оценка: |
sup Р(Я)-ѵ(а(°) 0 |
',< l 6ms(2Qg |
ьч |
|
||||
Р |
4 |
(5.20) |
||||||
|
V р |
|
|
|
|
|
|
|
Положим |
|
|
|
|
|
|
|
|
|
|
Ö = |
V Р («о)+ е |
|
|
|
||
Тогда из условия |
|
|
|
|
|
|||
|
Р і а ) - |
vjx) < |
ö |
|
(5.211 |
|||
|
|
sup |
|
|||||
|
|
|
------- |
|
|
|||
следует, |
что |
а |
|
У Р |
(=0 |
|
|
|
|
|
|
|
|
|
|
||
|
V к ' |
Р w |
/ Р (<*>) + в |
|
|
|||
При Р (а) > (Ра) (>а0) +(а)е- получаем, |
/ Р Й - |
|
|
|||||
|
|
V (а) > |
Р (осД ж |
V (аД. |
|
|
HO |
ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА |
Таким образом, условия (5.21) достаточно для е-бли- зости эмпирически оптимального решающего правила к истинно оптимальному. Подставляя значение б в (5.20), получаем
____ гЧ___ |
|
Р {Р (oti) — Р (а0) > 8} < 16ms (2/) е |
4(Р(а°)+е) . (5.22) |
В детерминистском случае Р (сс0) — 0 и мы получаем |
|
оценку, близкую к (5.18), а при Р (а) |
~ х/а — оценку, |
близкую к (5.10). |
|
Результаты главы XII позволяют получить и другую оценку качества решающего правила. Допустим, что
выполняется (5.21). Тогда, |
разрешая (5.21) относитель |
|
но Р (а), получим |
|
|
^ ( “) < Т - ( 1 + / |
1 + і ^ г І )+ ѵ ( а ) . |
(5.22') |
Потребуем теперь, чтобы (5.21) выполнялось для всех а с вероятностью, превышающей 1 — г). Для этого до статочно правую часть (5.20) приравнять ц:
ъч
16mS(2Z)e 4 = гр
Разрешая это уравнение относительно б и подставляя найденное значение в (5.22'), получаем окончательно
lnm s (2Z) — ln |
^ |
4ѵ (а) I |
|
|
Р ( а ) < 2 |
|
16 |
|
|
|
/ 1 + In т ° (21) — ln -jg- |
|||
|
|
|||
|
|
|
+ |
ѵ(а) |
При m(2l) |
f |
|
|
|
1,5 -py |
|
|
|
|
г (ln — + l ) — l n - ^- |
|
|
||
а {P < 2 —---- ------I-- |
4v (а) I |
+ v(o). |
(5.23) |
|
X / 1 + |
|
r(la-2L + l ) - l n £ |
i 11. ЗАМЕЧАНИЯ OB ОСОБЕННОСТЯХ МЕТОДА |
111 |
Как и раньше, примем, что в точке & 0
V (а0) ж Р (а0).
Заметим, что для эмпирически оптимального а х справед ливо
V (а ,) <
Тогда с вероятностью 1
г Іи 21
Р (аі) — Р (а0) < 2 -
X 1 + / s
V ( а 0) = Р (ао).
ln -24
X |
|
|
4v2 (ofi) I |
(5.23') |
|
21 |
||
|
||
r In ' |
|
Используя (5.22), можно получить оценку длины обу чающей последовательности, которая в одном предельном
случае |
(при Р (а0) = |
0) совпадает с оценкой (5.19), а в |
другом |
предельном |
случае (Р (а 0) ä 2/2) — с оценкой |
(5.12). Для этого достаточно правую часть неравенства
(5.22) приравнять ц и разрешить относительно I. Получаем
I (г —In В) (Р (<*») + е)
е2
В этой главе были приведены качественные оценки длины обучающей последовательности. Строгие оценки получены в главе X III. Однако при использовании оце нок важно не столько их конкретное выражение (ведь оценки получены в предположении наиболее неблаго приятных условий), сколько структура связи основных параметров
г, I, е, Р ( а0), У].
§ И . Замечания об особенностях метода минимизации эмпирического риска
Характерной особенностью изложенной теории мини мизации эмпирического риска является полное отсутст вие каких бы то ни было указаний на конструктивную воз можность построения алгоритма. Это обстоятельство име ет как свои недостатки, так и преимущества. Недостаток заключается в том, что построенная теория не указывает