Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 181

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

108

ГЛ. V- МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

S 0. В стохастическом варианте задачи уклонение оцени­ валось для всех событий исходного класса событий S.

Формально этот факт находит свое отражение в струк­ туре формул, задающих оценку равномерной сходимости, (5.10), (5.18). Правая часть неравенств (5.10), (5.18) со­ стоит из двух сомножителей. Первый сомножитель ха­ рактеризует емкость класса событий (он идентичен, как в случае (5.10), так и в (5.18)), второй сомножитель оцени­ вает вероятность уложиться в заданное уклонение е частоты от вероятности для любого события заданного класса (в детерминистской постановке этот класс есть S 0, в стохастической — этот класс совпадает с S).

Оказывается, удается существенно по-разному оценить этот второй сомножитель. Так как при стохастическом варианте постановки априори не известны никакие ха­ рактеристики вероятностей событий класса S, то оценка уклонения частоты от вероятности для любого события А, принадлежащего S, производится в условиях наиболее

неблагоприятного

случая,

когда

Р (^4)

=

Поэтому

возможна лишь оценка (5.10).

 

 

 

Для детерминистского

варианта постановки наиболее

неблагоприятное

событие

в

классе

S то,

для

которого

Р (А) = е. Для оценки уклонения частоты от вероятно­ сти этого события возможна более тонкая оценка (5.14).

Таким образом, оценки, полученные для детерминист­ ского и стохастического вариантов постановки задачи, различаются так, как различаются оценки уклонения частот от вероятностей в двух событиях: в событии А, для которого Р (А) близко к нулю, и в событии А', для которого Р (A') близко к г/2.

Это обстоятельство заставляет внимательно отнестись к тем требованиям, которые предъявляются к величинам уклонения частот от вероятностей.

В задаче обучения распознаванию образов можно ослабить требования к характеру сходимости: разумно требовать не равномерного отклонения частот от вероят­ ностей для всех событий, а разрешить большее уклонение для тех событий, которым соответствует вероятность, близкая к Ѵ2 , и меньшее для событий с вероятностями,

близкими

к нулю. Рассмотрим снова функции Р (а) и

V (а) (рис.

12), где Р (а) — вероятность ошибки для рѳ-



§ 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю9

шающего правила F (х, а), ѵ (а) — частота ошибок этого правила на выборке хг, . . . , х г.

Допустим, что оптимальным является правило F (х, а 0), т. е. при а = а 0 достигается минимум функции Р (а). Для того чтобы гарантировать, что качество решающего

правила F(x,

аД, выбранного

из условия

минимума числа

ошибок, отличается от опти­ мального не более чем на е, не­ обходимо и достаточно, чтобы этот минимум лежал в области, где Р (ос) < Р (а0) + е.

Учтем далее, что сходимость частот к вероятностям для фик­ сированного значения а проис­ ходит значительно быстрее, чем равномерная сходимость по

всем значениям параметра. Поэтому уже при сравнительно

небольшой длине

выборки можно

принять,

что Р (ос0) ж

ж ѵ (а0).

Тогда е —- близость качества правил F (х, осД

и F (х, а 0) будет гарантирована, если потребовать,

чтобы

для всех

ос, для

которых

Р (ос)

Р (сс0)

+ в, частота

V ( а ) была бы больше чем ѵ ( а 0) ж

Р ( ос0) .

 

В гла­

Оценим требующуюся для этого длину выборки.

ве XII будет показано, что справедлива односторонняя

оценка:

sup Р(Я)-ѵ) 0

',< l 6ms(2Qg

ьч

 

Р

4

(5.20)

 

V р

 

 

 

 

 

 

Положим

 

 

 

 

 

 

 

 

 

 

Ö =

V Р («о)+ е

 

 

 

Тогда из условия

 

 

 

 

 

 

Р і а ) -

vjx) <

ö

 

(5.211

 

 

sup

 

 

 

 

-------

 

 

следует,

что

а

 

У Р

(=0

 

 

 

 

 

 

 

 

 

 

 

V к '

Р w

/ Р (<*>) + в

 

 

При Р (а) > (Ра) (>а0) +(а)е- получаем,

/ Р Й -

 

 

 

 

V (а) >

Р (осД ж

V (аД.

 

 


HO

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Таким образом, условия (5.21) достаточно для е-бли- зости эмпирически оптимального решающего правила к истинно оптимальному. Подставляя значение б в (5.20), получаем

____ гЧ___

Р {Р (oti) — Р (а0) > 8} < 16ms (2/) е

4(Р(а°)+е) . (5.22)

В детерминистском случае Р (сс0) — 0 и мы получаем

оценку, близкую к (5.18), а при Р (а)

~ х/а — оценку,

близкую к (5.10).

 

Результаты главы XII позволяют получить и другую оценку качества решающего правила. Допустим, что

выполняется (5.21). Тогда,

разрешая (5.21) относитель­

но Р (а), получим

 

 

^ ( “) < Т - ( 1 + /

1 + і ^ г І )+ ѵ ( а ) .

(5.22')

Потребуем теперь, чтобы (5.21) выполнялось для всех а с вероятностью, превышающей 1 — г). Для этого до­ статочно правую часть (5.20) приравнять ц:

ъч

16mS(2Z)e 4 = гр

Разрешая это уравнение относительно б и подставляя найденное значение в (5.22'), получаем окончательно

lnm s (2Z) — ln

^

4ѵ (а) I

 

Р ( а ) < 2

 

16

 

 

/ 1 + In т ° (21) — ln -jg-

 

 

 

 

 

+

ѵ(а)

При m(2l)

f

 

 

 

1,5 -py

 

 

 

г (ln — + l ) — l n - ^-

 

 

а {P < 2 —---- ------I--

4v (а) I

+ v(o).

(5.23)

X / 1 +

 

r(la-2L + l ) - l n £


i 11. ЗАМЕЧАНИЯ OB ОСОБЕННОСТЯХ МЕТОДА

111

Как и раньше, примем, что в точке & 0

V (а0) ж Р (а0).

Заметим, что для эмпирически оптимального а х справед­ ливо

V (а ,) <

Тогда с вероятностью 1

г Іи 21

Р (аі) — Р (а0) < 2 -

X 1 + / s

V ( а 0) = Р (ао).

ln -24

X

 

4v2 (ofi) I

(5.23')

21

 

r In '

 

Используя (5.22), можно получить оценку длины обу­ чающей последовательности, которая в одном предельном

случае

(при Р (а0) =

0) совпадает с оценкой (5.19), а в

другом

предельном

случае (а 0) ä 2/2) — с оценкой

(5.12). Для этого достаточно правую часть неравенства

(5.22) приравнять ц и разрешить относительно I. Получаем

I (г —In В) (<*») + е)

е2

В этой главе были приведены качественные оценки длины обучающей последовательности. Строгие оценки получены в главе X III. Однако при использовании оце­ нок важно не столько их конкретное выражение (ведь оценки получены в предположении наиболее неблаго­ приятных условий), сколько структура связи основных параметров

г, I, е, Р ( а0), У].

§ И . Замечания об особенностях метода минимизации эмпирического риска

Характерной особенностью изложенной теории мини­ мизации эмпирического риска является полное отсутст­ вие каких бы то ни было указаний на конструктивную воз­ можность построения алгоритма. Это обстоятельство име­ ет как свои недостатки, так и преимущества. Недостаток заключается в том, что построенная теория не указывает