Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Скачать файл (11,72Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 207

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 1.	ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 281
х х ,	. . хп такой, что ее можно разбить всеми возмож
ными способами с помощью правил из Q.

Обе оценки зависят только от свойств класса решаю щих функций и никак не связаны с распределением ве роятностей на множестве пар х, и. Требуется лишь, чтобы ситуации возникали независимо и с неизменным распределением. Полудим еще оценку для задачи'*’обучения распознаванию в детерминированной постановке. В этом случае среди решающих правил заведомог есть правило, обеспечивающее безошибочное распознавание. Алгоритм, минимизирующий эмпирический риск, выбе рет решающее правило, которое всю обучающую после довательность классифицирует безошибочно. Оценим ве роятность Р (е, Z) того, что решающее правило, выбран ное таким алгоритмом по обучающей последовательности длины I, сделает более гі ошибок на экзамене длины I. Очевидно, что вероятность Р (е, Z) не превосходит

Р (sup (ѵ (А; хѵ . . ., Х[) = 0) и (ѵ (А; х [+ь . . ., x2t) > е)}, AeS

т. е. вероятность того, что найдется событие А вида

{х, ca: F (х, a) =f=со}

такое, что частота его выпадения на первой полувыборке равна 0, а частота выпадения на второй полувыборке пре вышает е. Для одного события А вероятность того, что ѵ'(А) = 0, а ѵ"(Л)^>8, равна

С[і-т	(2г —m)...(Z —m-f-1)
- C1 -	2г.(2г —!)...(/+ i) ’

если число т элементов А в выборке хъ ..., х21 превос ходит е/, и нулю в противном случае.

Поэтому во всех случаях

В общем случае, как и при доказательстве условий равномерной сходимости, достаточно учесть* конечное Число событий А , различимых на выборке хг , . . . ,Хщ.

282 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Поэтому

I	\ J	_ ^
Р (е, I) < ms (21) 1 -	-i-j < mS (21) i	2 .

Опять-таки аналогично выводу (13.6), получаем, что длина обучающей последовательности, достаточная для того, чтобы с вероятностью 1 — т] частота ошибок на экзамене такой же длины не превышала е, равна

W = (і — ln -J- — ln - p j ,

где n определяется, как и раньше, как максимальная длина последовательности, которую еще можно разбить всеми возможными способами с помощью правил из Q.

Эта величина является характеристической. Все оценки при фиксированных е и ц являются линейными функция ми п. В ряде случаев оказывается, что с вероятностью 1 As (хг , . . . ,Хі) = ms (1). В этом случае, рассуждая аналогично доказательству необходимости в теореме 11.1, можно показать, что с вероятностью, близкой к единице, максимальное по классу S уклонение частот в двух следующих друг за другом полувыборках длины I

не меньше п!2і при 21 >			п и равно 1 при 21 <1 п. Поэтому
без дополнительных предположений нельзя получить
оценку лучшую, чем
		I	-	—
		''дост —		2е ’
3.	Выясним,	наконец,		чему равна функция ms (I)
для наиболее часто		используемых классов решающих

функций.

Линейные решающие правила в случае двух классов (случай большего числа классов сводится к последова

тельной дихотомии) имеют вид:
X	относится к I классу, если (х,	<р)	с,
X	относится ко II классу, если (х,	ф) <	с.

Здесь тг-мерный вектор ф и константа с являются па раметрами класса решающих функций.

Нас интересует функция ms (Г) для системы событий вида

{(х, ф) > с].

§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 283

Для случая с — О функция ms (I) была найдена в примере 3 § 3 главы X. Она равна

тҢ1) = 2 % С 1 1< 3 - g ^ j - ,

і=0 ' '

где п — размерность пространства.

Случай произвольного с сводится к предыдущему пу тем введения дополнительной координаты, причем раз мерность увеличивается на единицу. Таким образом, для линейных решающих правил

где п — размерность пространства.

Отсюда следует, что в оценках длины обучающей последовательности, полученных в предыдущем пункте для линейных решающих правил, п — это размерность пространства.

К этому же случаю сводятся алгоритмы решающих правил, основанных на переходе к спрямляющему про странству и построении в этом новом пространстве линей ного решающего правила. Соответствующие правила имеют вид:

			П
X относится к	I	классу,	если 2	ѴРі (я) > с,
			г=1
			п
X относится ко	II	классу,	если 2	^іФі (*) <Сс -
			г=1

Здесь набор функций срг (х) фиксирован для данного клас са решаюших правил, а параметры и с задают конкрет ное решающее правило в классе. В этом случае оценки те же, что для линейных правил, но и — это размерность спрямляющего пространства (число функций ф* (ж)).

Рассмотрим более сложный вид решающего правила:

і е і , если К (Ѳо.фі (ж, Ѳ^.фг (ж,Ѳ2), . . . , фь {x,Qh)) > О,

ж еІІ, если К (Ѳ0, фі (ж, Ѳх), ф2 {х, Ѳ2), ..., фь (ж, Ѳь))< 0 .

284 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

f десь функции Ä”и фі фиксированы для класса решаю щих правил, а параметры Ѳ0, Ѳь . . . ,Ѳк (скалярные или векторные) задают конкретное решающее правило. Кро ме того, предположим, что функции фі принимают лишь два значения: —1 и - fl.

Тогда, если известны функции

ms0 (I) для класса событий {у: К (Ѳ0, уи . . ., у к) > 0}, . . .,

mfi (I) для класса событий {х\ фг (£0г) = 1}.

то интересующая нас функция ms (I) оценивается

к -

гпЧІХЦт-Ні)-

і=0І

В частности, пусть х — m-мерный вектор, а функции Фі и К — линейные пороговые функции, т. е.

к = sgn2 ѳог/д

Уі = Фі(я) = SgH 2 QiXP

3=1

где Ѳ{ и Ѳо — настраиваемые параметры,

(— 1	при z ^	0,
sgnz = < .	.	f.
I 1	при z \|> 0.
Тогда	Z)]* Ф (к ,	Z),
ms (I) [Ф (m ,	Z)]* Ф (к ,	Z),
где	m
	m

® (m,z) = 2 2 c U

i=l

Ф ( к , 0= 22 с ц .

Я= 1

Порядок роста функции ms (Z) равен тк + к и, сле довательно, в оценках длины обучающей последователь ности, полученных в предыдущем пункте, в качестве п для этого случая можно взять

п = тк -f к.

І 2. СХОДИМОСТЬ К МАТЕМАТИЧЕСКИМ ОЖИДАНИЯМ 285

Этот класс решающих функций используется при настройке многослойных персептронов, в машинах типа «Маделин» и вообще нри построении кусочно-линейных решающих правил.

Во всех рассмотренных случаях оказалось, что за число п в оценках предыдущего пункта может быть при нято число настраиваемых параметров данного алгорит ма обучения распознаванию образов. Видимо, и вообще, за исключением патологических случаев, эти оценки справедливы для алгоритмов обучения распознаванию при п, равном числу настраиваемых параметров.

§2. Равномерная сходимость средних

кматематическим ожиданиям

1.В общем случае вопрос о равномерной близости функций Я (а) и Ята (а) сводится к равномерной по пара метру а сходимости средних к математическим ожиданиям.

Всамом деле, функция

R (а) = ^ Q (z, а)dP (z)

есть математическое ожидание функции потерь Q (z, а),

тогда как

-Яэма (а) = -J - 2 Q&Zi, а)

І—1

есть среднее арифметическое этой случайной величины, вычисленное по выборке zt , . . . ,z{.

Сформулируем в точных терминах проблему равно мерной сходимости средних к математическим ожиданиям.

Пусть X — элементарное событие из пространства X , Р (X) — вероятностная мера в нем, а — некоторый абст рактный параметр, F (х, а) — некоторая функция, измери мая при всех а относительно меры Р (х) в пространстве X.

Предположим, что существует математическое ожи дание этой функции при всех а

М (<х) = ^ F (X, а) dP (х).

Пусть, далее, задана повторная выборка Х ‘~ хх , ...

. . . ,хі из пространства X , т. е. выборка, полученная в