Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 210

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Г л а в а X III

П Р И М Е Н Е Н И Е Т Е О Р И И Р А В Н О М Е Р Н О Й С Х О Д И М О С Т И

К М Е Т О Д А М М И Н И М И З А Ц И И Э М П И Р И Ч Е С К О Г О Р И С К А

§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию

1.В главе X было показано, что значения риска R (а

вточках истинного и эмпирического минимумов заведомо отличаются не более чем на е, если выполнено условие

sup I R (а) — Rmn (а) I <

-5- .

ае<3

^

Далее было показано, что в задачах распознавания об­ разов с функцией штрафа

0 при со = F,

Ф(со, F) =

1 при со Ф F

это условие переходит в следующее:

s u p H ^ - P ^ K - l - ,

aeQ

4

где Та — событие {(со, х): F {х , а) Ф со}, F (х, а) — решающее правило с параметром a, Q — множество до­ пустимых значений параметра а.

Таким образом, проблема оценки близости истинно оптимального и эмпирически оптимального решающего правила непосредственно сводится к исследованной в предыдущих главах проблеме равномерной сходимости частот к вероятностям по классу событий.

1. ОЦЕНКА ДЛ И Н Ы ОБУЧАЮ ЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 277

Обозначим,

как и ранее, через а 0 значение параметра,

доставляющего

минимум функции!

R (а) = § Ф (со — F (х, а)) dP\(x, со),

а через а* значение параметра, при котором достигается

минимум функции

I

^эмп (а) = -у 2 Ф (®І—F (хх, а)),

1=1

где сох, хх , . . ., coj, хі — обучающая последовательность. Тогда на основании формулы (10.19) получаем

1)

(13.1)

Р {R (а*) — R (а0) > е} < 6ms (21) е и ,

где ms (I) — функция роста класса событий вида

Та = {(со, х): со ф F (X, а)}.

В этой формуле функция роста берется для событий, заданных в пространстве пар со, х.

Рассмотрим

число

различных

разбиений

выборки

хъ . . .,

х\ на

классы

с помощью

решающих

правил

F (х, а).

Обозначим это число

 

 

N (хѵ . . ., хх).

Иными словами, будем считать два решающих пра­

вила F (х, а х) и F (X,

а 2) эквивалентными

относительно

выборки хх, . . ., х 2, если для всех хх (1

г ^ I)

F (хх,

а х) = F (хі, ос2).

(13.2)

Тогда число N (хѵ . . ., х{) равно числу классов экви­ валентности, на которые разбивается множество решаю­ щих правил этим отношением.

С другой стороны,

два множества Та, и Таг,

в соответ­

ствии с соглашением главы X, считаем эквивалентными

относительно выборки

соі, хх,

. . .,

со г, х г,

если

для всех

1 < і <

I

 

 

 

 

 

 

Гсоj ^=F (Х(, схх)] /*s>/

[ соX

F (xf,

а 2)],

(13.3)

причем

As (хх, ах,

хх,

со г)

есть

число

классов

эквивалентности. Очевидно, что (13.3) следует из (13.2), а


278

ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

в случае, когда со и F принимают всего два значения 0 и

1,

и соотношение (13.2) следует из (13.3). Поэтому

As (жх, (Оі, . . ., х ь со/) < N (хи . . ., хі),

ms (I) max N (хи . . ., хі).

Соответственно из

(13.1)

следует, что

Р {R (о*) — R (а0)

 

_e*C£—1)

е} <[ 6

max N (жх, ..., хі) е 16 . (13.4)

 

 

*і....Ж/

Рассмотрим более подробно дихотомический случай, когда распознаются два класса. При этом как «о, так и функция F могут принимать всего два значения: 0 и 1.

Пусть система S ' состоит из событий

А = {х: F (х, а) = 1}

при всевозможных а ЕЕ (?.

Тогда очевидно, что число разбиений выборки хъ . . .

..., Хі на классы с помощью решающих правил F (х, а) рав­

но

числу подвыборок,

индуцируемых S' на x lt . . ., х и

т.

е.

 

 

N (хи . . ., хі) = As (хи . . ., хі).

 

Кроме того, как указано выше, в дихотомическом слу­

чае соотношения (13.2)

и (13.3) равносильны. Поэтому

As (xv сох, . . ., х и юг) = N (хг, . . ., xj) =

= As'(«i , • • • , хі),

ms (І)= ms' (І)

и соответственно

_ ечг-1)

P{R (а*) R (а) > е } < 6/ns' (l)e 18 ,

где ms' (І) — функция роста для системы S ' событий вида

{х: F (х, а) = 1}.

2. Ограничиваясь, далее, случаем дихотомии, оцени длину обучающей последовательности, достаточную для того, чтобы решающее правило, выбранное произвольным



§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 279

алгоритмом обучения рассматриваемого типа, отличалось от оптимального не более чем на е, с вероятностью боль­ шей, чем 1 — тр Для этого, в соответствии с (13.1), дос­ таточно положить

 

т]]> 6ms (21) е

іКі-1)

 

 

 

16

 

 

и разрешить это неравенство относительно I.

 

Допустим,

что ms (I) ф 2[, и пусть

п — такое число,

что ms (п) =

2", а ms (п + 1) <

2П+1;

тогда,

в соответ­

ствии с замечанием 1 к теореме 10.1,

ms (Z )< l,5-^-

или, заменяя п\ по формуле Стирлинга,

тҢ 1)< 1,5 ( - M V .

Здесь п — это максимальная длина последователь­ ности, которую можно разбить всеми возможными спо­ собами с помощью решающих правил из Q.

Разрешим относительно I неравенство

21

еЧІ-1)

г| -> 9 ( 1 е'1е

16

Л огарифмируем:

. д . , 121 \ . ln - J - > n ln ^ — ) +

Обозначим

гЧ

=

16п

е2 (I — 1)

(13.5)

и ------*----- L

16

 

X.

Тогда

 

 

1

11

 

1п“9"

1 - * - 1п -32ш

- ШГ + —

Іпх +

и соответственно

П

е2

 


580 гл. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Разрешим это неравенство относительно х. Учитывая, что

 

 

ln X <

0,5 X ,

 

 

получаем

 

 

 

 

 

 

 

 

Т)

 

е2

 

 

ж > 2

1 -

1п 6 — 16

 

 

 

 

ІПІГ )

 

откуда

 

 

 

 

 

1JL

 

 

 

 

32п

IL

 

 

^дост —

1 - 1п

6

— 16

1пж

(13.6)

 

 

 

 

-

 

Эта оценка, однако, завышена.

Более точную оценку получим из следующих сооб­ ражений.

Пусть обучение проведено на последовательности длины I, а затем устроен экзамен на последовательности такой же длины. Оценим вероятность того, что частота ошибок на обучении и на экзамене будет отличаться более чем на е для решающего правила, выбранного произвольным алгоритмом, из класса Q по обучающей последовательности. Эта вероятность во всяком случае меньше, чем

Р {sup I V (4;

хх , . . .,

*,) — V (А;

х 1+1 , . . ., хг1) | > е}.

A&S

 

 

 

где А — событие вида

{со Ф F (х,

а)}.

Но для этой величины оценка получена при выводе

теоремы 10.2:

 

 

 

Р {sup Iу

(Л) - ѵ" (Л) I > е) < 3ms (2l)é-^l-1K

А

 

 

 

Отсюда, аналогично выводу (13.6), получаем, что для того, чтобы с вероятностью, большей 1 — ц, частота оши­ бок на материале обучения и на экзамене отличалась меньше чем на 8, достаточно, чтобы

 

2п

 

(13.7)

 

Iдост

 

где

п — максимальная!

длина

последовательности