Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 210
Скачиваний: 4
Г л а в а X III
П Р И М Е Н Е Н И Е Т Е О Р И И Р А В Н О М Е Р Н О Й С Х О Д И М О С Т И
К М Е Т О Д А М М И Н И М И З А Ц И И Э М П И Р И Ч Е С К О Г О Р И С К А
§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию
1.В главе X было показано, что значения риска R (а
вточках истинного и эмпирического минимумов заведомо отличаются не более чем на е, если выполнено условие
sup I R (а) — Rmn (а) I < |
-5- . |
ае<3 |
^ |
Далее было показано, что в задачах распознавания об разов с функцией штрафа
0 при со = F,
Ф(со, F) =
1 при со Ф F
это условие переходит в следующее:
s u p H ^ - P ^ K - l - ,
aeQ |
4 |
где Та — событие {(со, х): F {х , а) Ф со}, F (х, а) — решающее правило с параметром a, Q — множество до пустимых значений параметра а.
Таким образом, проблема оценки близости истинно оптимального и эмпирически оптимального решающего правила непосредственно сводится к исследованной в предыдущих главах проблеме равномерной сходимости частот к вероятностям по классу событий.
1. ОЦЕНКА ДЛ И Н Ы ОБУЧАЮ ЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 277
Обозначим, |
как и ранее, через а 0 значение параметра, |
доставляющего |
минимум функции! |
R (а) = § Ф (со — F (х, а)) dP\(x, со),
а через а* значение параметра, при котором достигается
минимум функции
I
^эмп (а) = -у 2 Ф (®І—F (хх, а)),
1=1
где сох, хх , . . ., coj, хі — обучающая последовательность. Тогда на основании формулы (10.19) получаем
1) |
(13.1) |
Р {R (а*) — R (а0) > е} < 6ms (21) е и , |
где ms (I) — функция роста класса событий вида
Та = {(со, х): со ф F (X, а)}.
В этой формуле функция роста берется для событий, заданных в пространстве пар со, х.
Рассмотрим |
число |
различных |
разбиений |
выборки |
|
хъ . . ., |
х\ на |
классы |
с помощью |
решающих |
правил |
F (х, а). |
Обозначим это число |
|
|
N (хѵ . . ., хх).
Иными словами, будем считать два решающих пра
вила F (х, а х) и F (X, |
а 2) эквивалентными |
относительно |
выборки хх, . . ., х 2, если для всех хх (1 |
г ^ I) |
|
F (хх, |
а х) = F (хі, ос2). |
(13.2) |
Тогда число N (хѵ . . ., х{) равно числу классов экви валентности, на которые разбивается множество решаю щих правил этим отношением.
С другой стороны, |
два множества Та, и Таг, |
в соответ |
||||
ствии с соглашением главы X, считаем эквивалентными |
||||||
относительно выборки |
соі, хх, |
. . ., |
со г, х г, |
если |
для всех |
|
1 < і < |
I |
|
|
|
|
|
|
Гсоj ^=F (Х(, схх)] /*s>/ |
[ соX |
F (xf, |
а 2)], |
(13.3) |
|
причем |
As (хх, ах, |
хх, |
со г) |
есть |
число |
классов |
эквивалентности. Очевидно, что (13.3) следует из (13.2), а
278 |
ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ |
в случае, когда со и F принимают всего два значения 0 и |
|
1, |
и соотношение (13.2) следует из (13.3). Поэтому |
As (жх, (Оі, . . ., х ь со/) < N (хи . . ., хі),
ms (I) max N (хи . . ., хі). |
||
Соответственно из |
(13.1) |
следует, что |
Р {R (о*) — R (а0) |
|
_e*C£—1) |
е} <[ 6 |
max N (жх, ..., хі) е 16 . (13.4) |
|
|
|
*і....Ж/ |
Рассмотрим более подробно дихотомический случай, когда распознаются два класса. При этом как «о, так и функция F могут принимать всего два значения: 0 и 1.
Пусть система S ' состоит из событий
А = {х: F (х, а) = 1}
при всевозможных а ЕЕ (?.
Тогда очевидно, что число разбиений выборки хъ . . .
..., Хі на классы с помощью решающих правил F (х, а) рав
но |
числу подвыборок, |
индуцируемых S' на x lt . . ., х и |
т. |
е. |
|
|
N (хи . . ., хі) = As (хи . . ., хі). |
|
|
Кроме того, как указано выше, в дихотомическом слу |
|
чае соотношения (13.2) |
и (13.3) равносильны. Поэтому |
As (xv сох, . . ., х и юг) = N (хг, . . ., xj) =
= As'(«i , • • • , хі),
ms (І)= ms' (І)
и соответственно
_ ечг-1)
P{R (а*) — R (а) > е } < 6/ns' (l)e 18 ,
где ms' (І) — функция роста для системы S ' событий вида
{х: F (х, а) = 1}.
2. Ограничиваясь, далее, случаем дихотомии, оцени длину обучающей последовательности, достаточную для того, чтобы решающее правило, выбранное произвольным
580 гл. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ
Разрешим это неравенство относительно х. Учитывая, что
|
|
ln X < |
0,5 X , |
|
|
|
получаем |
|
|
|
|
|
|
|
|
Т) |
|
е2 |
|
|
ж > 2 |
1 - |
1п 6 — 16 |
|
|
||
|
|
ІПІГ ) |
|
|||
откуда |
|
|
|
|
||
|
1JL |
|
|
|
||
|
32п |
IL |
|
|
||
^дост — |
1 - 1п |
6 |
— 16 |
1пж |
(13.6) |
|
|
|
|
|
- |
|
Эта оценка, однако, завышена.
Более точную оценку получим из следующих сооб ражений.
Пусть обучение проведено на последовательности длины I, а затем устроен экзамен на последовательности такой же длины. Оценим вероятность того, что частота ошибок на обучении и на экзамене будет отличаться более чем на е для решающего правила, выбранного произвольным алгоритмом, из класса Q по обучающей последовательности. Эта вероятность во всяком случае меньше, чем
Р {sup I V (4; |
хх , . . ., |
*,) — V (А; |
х 1+1 , . . ., хг1) | > е}. |
A&S |
|
|
|
где А — событие вида |
{со Ф F (х, |
а)}. |
|
Но для этой величины оценка получена при выводе |
|||
теоремы 10.2: |
|
|
|
Р {sup Iу |
(Л) - ѵ" (Л) I > е) < 3ms (2l)é-^l-1K |
||
А |
|
|
|
Отсюда, аналогично выводу (13.6), получаем, что для того, чтобы с вероятностью, большей 1 — ц, частота оши бок на материале обучения и на экзамене отличалась меньше чем на 8, достаточно, чтобы
|
2п |
|
(13.7) |
|
Iдост |
|
|
где |
п — максимальная! |
длина |
последовательности |