Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 207

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 1.

ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 281

х х ,

. . хп такой, что ее можно разбить всеми возмож­

ными способами с помощью правил из Q.

Обе оценки зависят только от свойств класса решаю­ щих функций и никак не связаны с распределением ве­ роятностей на множестве пар х, и. Требуется лишь, чтобы ситуации возникали независимо и с неизменным распределением. Полудим еще оценку для задачи'*’обучения распознаванию в детерминированной постановке. В этом случае среди решающих правил заведомог есть правило, обеспечивающее безошибочное распознавание. Алгоритм, минимизирующий эмпирический риск, выбе­ рет решающее правило, которое всю обучающую после­ довательность классифицирует безошибочно. Оценим ве­ роятность Р (е, Z) того, что решающее правило, выбран­ ное таким алгоритмом по обучающей последовательности длины I, сделает более гі ошибок на экзамене длины I. Очевидно, что вероятность Р (е, Z) не превосходит

Р (sup (ѵ (А; хѵ . . ., Х[) = 0) и (ѵ (А; х [+ь . . ., x2t) > е)}, AeS

т. е. вероятность того, что найдется событие А вида

{х, ca: F (х, a) =f=со}

такое, что частота его выпадения на первой полувыборке равна 0, а частота выпадения на второй полувыборке пре­ вышает е. Для одного события А вероятность того, что ѵ'(А) = 0, а ѵ"(Л)^>8, равна

С[і-т

(2г —m)...(Z —m-f-1)

- C1 -

2г.(2г —!)...(/+ i) ’

если число т элементов А в выборке хъ ..., х21 превос­ ходит е/, и нулю в противном случае.

Поэтому во всех случаях

В общем случае, как и при доказательстве условий равномерной сходимости, достаточно учесть* конечное Число событий А , различимых на выборке хг , . . . ,Хщ.


282 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Поэтому

I

\ J

_ ^

Р (е, I) < ms (21) 1 -

-i-j < mS (21) i

2 .

Опять-таки аналогично выводу (13.6), получаем, что длина обучающей последовательности, достаточная для того, чтобы с вероятностью 1 — т] частота ошибок на экзамене такой же длины не превышала е, равна

W = (і — ln -J- — ln - p j ,

где n определяется, как и раньше, как максимальная длина последовательности, которую еще можно разбить всеми возможными способами с помощью правил из Q.

Эта величина является характеристической. Все оценки при фиксированных е и ц являются линейными функция­ ми п. В ряде случаев оказывается, что с вероятностью 1 As (хг , . . . ,Хі) = ms (1). В этом случае, рассуждая аналогично доказательству необходимости в теореме 11.1, можно показать, что с вероятностью, близкой к единице, максимальное по классу S уклонение частот в двух следующих друг за другом полувыборках длины I

не меньше п!2і при 21 >

п и равно 1 при 21 <1 п. Поэтому

без дополнительных предположений нельзя получить

оценку лучшую, чем

 

 

 

 

 

I

-

 

 

''дост —

2е ’

3.

Выясним,

наконец,

чему равна функция ms (I)

для наиболее часто

используемых классов решающих

функций.

Линейные решающие правила в случае двух классов (случай большего числа классов сводится к последова­

тельной дихотомии) имеют вид:

 

 

X

относится к I классу, если (х,

<р)

с,

X

относится ко II классу, если (х,

ф) <

с.

Здесь тг-мерный вектор ф и константа с являются па­ раметрами класса решающих функций.

Нас интересует функция ms (Г) для системы событий вида

{(х, ф) > с].


§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 283

Для случая с — О функция ms (I) была найдена в примере 3 § 3 главы X. Она равна

тҢ1) = 2 % С 1 1< 3 - g ^ j - ,

і=0 ' '

где п — размерность пространства.

Случай произвольного с сводится к предыдущему пу­ тем введения дополнительной координаты, причем раз­ мерность увеличивается на единицу. Таким образом, для линейных решающих правил

где п — размерность пространства.

Отсюда следует, что в оценках длины обучающей последовательности, полученных в предыдущем пункте для линейных решающих правил, п — это размерность пространства.

К этому же случаю сводятся алгоритмы решающих правил, основанных на переходе к спрямляющему про­ странству и построении в этом новом пространстве линей­ ного решающего правила. Соответствующие правила имеют вид:

 

 

 

П

 

X относится к

I

классу,

если 2

ѴРі (я) > с,

 

 

 

г=1

 

 

 

 

п

 

X относится ко

II

классу,

если 2

^іФі (*) с -

 

 

 

г=1

 

Здесь набор функций срг (х) фиксирован для данного клас­ са решаюших правил, а параметры и с задают конкрет­ ное решающее правило в классе. В этом случае оценки те же, что для линейных правил, но и — это размерность спрямляющего пространства (число функций ф* (ж)).

Рассмотрим более сложный вид решающего правила:

і е і , если К (Ѳо.фі (ж, Ѳ^.фг (ж,Ѳ2), . . . , фь {x,Qh)) > О,

ж еІІ, если К (Ѳ0, фі (ж, Ѳх), ф2 {х, Ѳ2), ..., фь (ж, Ѳь))< 0 .


284 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

f десь функции Ä”и фі фиксированы для класса решаю­ щих правил, а параметры Ѳ0, Ѳь . . . ,Ѳк (скалярные или векторные) задают конкретное решающее правило. Кро­ ме того, предположим, что функции фі принимают лишь два значения: —1 и - fl.

Тогда, если известны функции

ms0 (I) для класса событий {у: К (Ѳ0, уи . . ., у к) > 0}, . . .,

mfi (I) для класса событий {х\ фг (£0г) = 1}.

то интересующая нас функция ms (I) оценивается

к -

гпЧІХЦт-Ні)-

і=0І

В частности, пусть х — m-мерный вектор, а функции Фі и К — линейные пороговые функции, т. е.

к = sgn2 ѳог/д

т

Уі = Фі(я) = SgH 2 QiXP

3=1

где Ѳ{ и Ѳо — настраиваемые параметры,

(— 1

при z ^

0,

sgnz = < .

.

f.

I 1

при z |> 0.

Тогда

Z)]* Ф (к ,

Z),

ms (I) [Ф (m ,

где

m

 

 

 

® (m,z) = 2 2 c U

i=l

к

Ф ( к , 0= 22 с ц .

Я= 1

Порядок роста функции ms (Z) равен тк + к и, сле­ довательно, в оценках длины обучающей последователь­ ности, полученных в предыдущем пункте, в качестве п для этого случая можно взять

п = тк -f к.


І 2. СХОДИМОСТЬ К МАТЕМАТИЧЕСКИМ ОЖИДАНИЯМ 285

Этот класс решающих функций используется при настройке многослойных персептронов, в машинах типа «Маделин» и вообще нри построении кусочно-линейных решающих правил.

Во всех рассмотренных случаях оказалось, что за число п в оценках предыдущего пункта может быть при­ нято число настраиваемых параметров данного алгорит­ ма обучения распознаванию образов. Видимо, и вообще, за исключением патологических случаев, эти оценки справедливы для алгоритмов обучения распознаванию при п, равном числу настраиваемых параметров.

§2. Равномерная сходимость средних

кматематическим ожиданиям

1.В общем случае вопрос о равномерной близости функций Я (а) и Ята (а) сводится к равномерной по пара­ метру а сходимости средних к математическим ожиданиям.

Всамом деле, функция

R (а) = ^ Q (z, а)dP (z)

есть математическое ожидание функции потерь Q (z, а),

тогда как

I

-Яэма (а) = -J - 2 Q&Zi, а)

І—1

есть среднее арифметическое этой случайной величины, вычисленное по выборке zt , . . . ,z{.

Сформулируем в точных терминах проблему равно­ мерной сходимости средних к математическим ожиданиям.

Пусть X — элементарное событие из пространства X , Р (X) — вероятностная мера в нем, а — некоторый абст­ рактный параметр, F (х, а) — некоторая функция, измери­ мая при всех а относительно меры Р (х) в пространстве X.

Предположим, что существует математическое ожи­ дание этой функции при всех а

М (<х) = ^ F (X, а) dP (х).

X

Пусть, далее, задана повторная выборка Х ‘~ хх , ...

. . . ,хі из пространства X , т. е. выборка, полученная в