Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Скачать файл (11,72Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 210

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Г л а в а X III

П Р И М Е Н Е Н И Е Т Е О Р И И Р А В Н О М Е Р Н О Й С Х О Д И М О С Т И

К М Е Т О Д А М М И Н И М И З А Ц И И Э М П И Р И Ч Е С К О Г О Р И С К А

§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию

1.В главе X было показано, что значения риска R (а

вточках истинного и эмпирического минимумов заведомо отличаются не более чем на е, если выполнено условие

sup I R (а) — Rmn (а) I <	-5- .
ае<3	^

Далее было показано, что в задачах распознавания об разов с функцией штрафа

0 при со = F,

Ф(со, F) =

1 при со Ф F

это условие переходит в следующее:

s u p H ^ - P ^ K - l - ,

aeQ

где Та — событие {(со, х): F {х , а) Ф со}, F (х, а) — решающее правило с параметром a, Q — множество до пустимых значений параметра а.

Таким образом, проблема оценки близости истинно оптимального и эмпирически оптимального решающего правила непосредственно сводится к исследованной в предыдущих главах проблеме равномерной сходимости частот к вероятностям по классу событий.

1. ОЦЕНКА ДЛ И Н Ы ОБУЧАЮ ЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 277

Обозначим,	как и ранее, через а 0 значение параметра,
доставляющего	минимум функции!

R (а) = § Ф (со — F (х, а)) dP\(x, со),

а через а* значение параметра, при котором достигается

минимум функции

^эмп (а) = -у 2 Ф (®І—F (хх, а)),

1=1

где сох, хх , . . ., coj, хі — обучающая последовательность. Тогда на основании формулы (10.19) получаем

1)	(13.1)
Р {R (а*) — R (а0) > е} < 6ms (21) е и ,

где ms (I) — функция роста класса событий вида

Та = {(со, х): со ф F (X, а)}.

В этой формуле функция роста берется для событий, заданных в пространстве пар со, х.

Рассмотрим		число	различных	разбиений	выборки
хъ . . .,	х\ на	классы	с помощью	решающих	правил
F (х, а).	Обозначим это число

N (хѵ . . ., хх).

Иными словами, будем считать два решающих пра

вила F (х, а х) и F (X,	а 2) эквивалентными	относительно
выборки хх, . . ., х 2, если для всех хх (1		г ^ I)
F (хх,	а х) = F (хі, ос2).	(13.2)

Тогда число N (хѵ . . ., х{) равно числу классов экви валентности, на которые разбивается множество решаю щих правил этим отношением.

С другой стороны,		два множества Та, и Таг,				в соответ
ствии с соглашением главы X, считаем эквивалентными
относительно выборки		соі, хх,	. . .,	со г, х г,	если	для всех
1 < і <	I
	Гсоj ^=F (Х(, схх)] /*s>/		[ соX	F (xf,	а 2)],	(13.3)
причем	As (хх, ах,	хх,	со г)	есть	число	классов

эквивалентности. Очевидно, что (13.3) следует из (13.2), а

278	ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ
в случае, когда со и F принимают всего два значения 0 и
1,	и соотношение (13.2) следует из (13.3). Поэтому

As (жх, (Оі, . . ., х ь со/) < N (хи . . ., хі),

ms (I) max N (хи . . ., хі).
Соответственно из	(13.1)	следует, что
Р {R (о*) — R (а0)		_e*C£—1)
Р {R (о*) — R (а0)	е} <[ 6	max N (жх, ..., хі) е 16 . (13.4)
		*і....Ж/

Рассмотрим более подробно дихотомический случай, когда распознаются два класса. При этом как «о, так и функция F могут принимать всего два значения: 0 и 1.

Пусть система S ' состоит из событий

А = {х: F (х, а) = 1}

при всевозможных а ЕЕ (?.

Тогда очевидно, что число разбиений выборки хъ . . .

..., Хі на классы с помощью решающих правил F (х, а) рав

но	числу подвыборок,	индуцируемых S' на x lt . . ., х и
т.	е.
	N (хи . . ., хі) = As (хи . . ., хі).
	Кроме того, как указано выше, в дихотомическом слу
чае соотношения (13.2)		и (13.3) равносильны. Поэтому

As (xv сох, . . ., х и юг) = N (хг, . . ., xj) =

= As'(«i , • • • , хі),

ms (І)= ms' (І)

и соответственно

_ ечг-1)

P{R (а*) — R (а) > е } < 6/ns' (l)e 18 ,

где ms' (І) — функция роста для системы S ' событий вида

{х: F (х, а) = 1}.

2. Ограничиваясь, далее, случаем дихотомии, оцени длину обучающей последовательности, достаточную для того, чтобы решающее правило, выбранное произвольным

§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 279

алгоритмом обучения рассматриваемого типа, отличалось от оптимального не более чем на е, с вероятностью боль шей, чем 1 — тр Для этого, в соответствии с (13.1), дос таточно положить

	т]]> 6ms (21) е	іКі-1)
	т]]> 6ms (21) е	16
и разрешить это неравенство относительно I.
Допустим,	что ms (I) ф 2[, и пусть		п — такое число,
что ms (п) =	2", а ms (п + 1) <	2П+1;	тогда,	в соответ

ствии с замечанием 1 к теореме 10.1,

ms (Z )< l,5-^-

или, заменяя п\ по формуле Стирлинга,

тҢ 1)< 1,5 ( - M V .

Здесь п — это максимальная длина последователь ности, которую можно разбить всеми возможными спо собами с помощью решающих правил из Q.

Разрешим относительно I неравенство

21	еЧІ-1)
г\| -> 9 ( 1 е'1‘е	16

Л огарифмируем:

. д . , 121 \ . ln - J - > n ln ^ — ) +

Обозначим

гЧ

16п

е2 (I — 1)	(13.5)
и ------*----- L	(13.5)
16

Тогда
1	11
1п“9"		1 - * - 1п -32ш
- ШГ + —	Іпх +	1 - * - 1п -32ш
и соответственно	П	е2
	П	е2

580 гл. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Разрешим это неравенство относительно х. Учитывая, что

		ln X <	0,5 X ,
получаем
		Т)		е2
ж > 2	1 -	1п 6 — 16
ж > 2	1 -			ІПІГ )
откуда				ІПІГ )
откуда		1JL
	32п	1JL		IL
^дост —	32п	1 - 1п	6	— 16	1пж	(13.6)
				-	1пж

Эта оценка, однако, завышена.

Более точную оценку получим из следующих сооб ражений.

Пусть обучение проведено на последовательности длины I, а затем устроен экзамен на последовательности такой же длины. Оценим вероятность того, что частота ошибок на обучении и на экзамене будет отличаться более чем на е для решающего правила, выбранного произвольным алгоритмом, из класса Q по обучающей последовательности. Эта вероятность во всяком случае меньше, чем

Р {sup I V (4;	хх , . . .,	*,) — V (А;	х 1+1 , . . ., хг1) \| > е}.
A&S
где А — событие вида		{со Ф F (х,	а)}.
Но для этой величины оценка получена при выводе
теоремы 10.2:
Р {sup Iу	(Л) - ѵ" (Л) I > е) < 3ms (2l)é-^l-1K
А

Отсюда, аналогично выводу (13.6), получаем, что для того, чтобы с вероятностью, большей 1 — ц, частота оши бок на материале обучения и на экзамене отличалась меньше чем на 8, достаточно, чтобы

	2п		(13.7)
	Iдост		(13.7)
где	п — максимальная!	длина	последовательности

Смотрите также файлы

Исследование отношения к здоровью у подростков некоторые ученые относят к наиболее актуальному направлению изучения психологии здоровья, что связано с особенностями подросткового возраста как важного периода в становлении личности.docx

5 Расчет центрально нагруженного фундамента под колонну.docx

Задача Проанализируйте движение и техническое состояние основных фондов, рассчитав при этом.docx

Как накопить деньги на мечту Что такое мечта.pptx

1. Основные направления работы с семьей, имеющей больного ребенка. Информационное направление.docx

Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно