Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Скачать файл (11,72Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 172

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Обозначим

тдо = 2

+ (х —;о2-

'■у.

г= 1

Тогда

интеграл (3.22) перепишется в виде

00 00

,_і

С С

у 1 1

•

ехр

йг/йр =

*+і

3 3 7 + 2 /и

(2я)

^ Д О

Ф'

1+1

7+2(1,) J

Ч у .

Обозначим

(2я)

оо

. Г л

Я(і- 1

с ^

—

Ч-і

У1

(2я)

где С (I) не зависит ни от

р, ни от о.

в виде

Итак,

интеграл

может

быть представлен

= „,!>

(3.23)

j L

^ (Ю ■

Преобразуем

теперь

выражение

Т (р).

Для

этого

заметим,

что

(xi ~ fO2 =

lst + 1(Д -

хъ?.

где х в = - ^

2 x i ’

al =

- J -

2 ( ж г

~ ж э ) 2 -

Соответственно

і—1

г—I

Т (p) =

h l

I (p

— xaf

(X — p)2.

Положим

теперь

XrJ+X

l + l

Тогда T (p)

может

быть

представлено в виде

Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).

s 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 71

Запишем теперь интеграл I в виде

ф
Г(*) = с(9 §	-L	“
[ к + т р г ( * - 8)3 + ( -	и)*(I +1)] 2
	оо
	dz
1 (х —хаУ	Е Г $	*2) '
1 (х —хаУ	2 — оо (1 +	*2) '
V

! + 1 аэ •+• (1 + 1)»

Заметим, что подынтегральное выражение не зависит от парамет

ров. Таким образом, оказывается,	что
с' (I)	с" (Z, сэ)	(—1	(3.24)
І(х)			(3.24)
1(х — х9)г 1 i-2i	(х — хэ)2
LT+T+ (z+ D2J

Нам остается нормировать к единице выражение (3.24):

1 (х)

Р(х)

(3.25)

j I (х) dx

Известно [57], что интеграл в знаменателе (3.25) равен следующему выражению:

Г	?		o"(l,ea)dx
\ J { x ) d x = \		Г	(* — ха? 1	г- i
		Г	(* — ха? 1	г- i
		L1+ ( ■ + « <		2
		L1+ ( ■ + « <
			с"(1,в9 ) Ѵ 1 + 1о8Г (4-) Г (4-1
				г— 1
Обозначим
Е(1)	/1 + 1 г ^ М - у - 1) /я У і+ і г (4- і
Е(1)		г -1 )		г— 1
	Т [	^	)	Г і ~ 2	“
Таким	образом,	окончательно		находим
	Р(*)		1	1	•
	Р(*)		£(0 +	(Ж—Жэ)2	•
				1	2

(1 + 1)8

Г л а в а IV

Р Е К У Р Р Е Н Т Н Ы Е А Л Г О Р И Т М Ы О Б У Ч Е Н И Я Р А С П О З Н А В А Н И Ю О Б Р А З О В

§ 1. Метод стохастической аппроксимации

Метод стохастической аппроксимации применительно к задаче о минимизации среднего риска состоит в том, что для отыскания минимума по а функционала

R (а) = J Q (z, а) dP (z)

используется	рекуррентная			процедура
а (і) =		а (і — 1) — у (і)д (ztJTa (і — 1)).			(4.1)
Теория этого метода устанавливает, когда (при каких
Q (z, а), q (z, а),		у (і)) рекуррентная процедура приводит
к успеху. Оказывается, итерационный процесс (4.1)					при
водит к успеху (см. главу IX), если:					по а
вектор-функция q (z, а)				является градиентом
функции Q (z,	а)	при фиксированном z (или обобщенным
градиентом *) этой^функции);
последовательность			положительных чисел у (1), . . .
. . ., ѵ*(0, • • •	такова,		что
	2	Т (*) =	°°»	2 т2(і) < ° °
	І=1			і=1

*) Обобщенным градиентом функции F (х) называется векторфункция / (х), которая определяет некоторый вектор, совпадающий с градиентом функции F (х) в тех точках, где градиент существует, и которая специально определяется в тех точках, где градиент не существует. Обобщенный градиент может быть определен нетдля всех функций F (х). Точное определение см. в главе IX.

$ 1. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ

(примером такой последовательности может служить гар-

моническии ряд	1	1	1	\
	и	, -г-,	П	I
		О

Если при любом фиксированном z функция Q (z, а) одноэкстремальна по а, то с помощью процедуры (4.1) может быть достигнут минимум функционала R (а). Если же функция не одноэкстремальна, то можно га рантировать лишь достижение локального минимума (под робнее см. главу IX).

1I I I I

а	а*	â
	Рис. 6.

Попытка применить метод стохастической аппрокси мации непосредственно для решения задачи обучения распознаванию образов к успеху не приводит. Функция потерь этой задачи

Ф = (о) — F (х, а))2

(4.2)

такова, что поиск нужного значения а этим методом не возможен. На рис. 6 приведена функция потерь при фик сированных значениях со и ж. Во всех точках прямой, кроме точки а = а*, градиент этой функции равен нулю, а в точке а = а* его не существует. Отыскание решения для такой функции потерь должно проходить согласно процедуре (4.1). В нашем случае вектор q (z, а) либо равен нулю, либо не определен. Таким образом, проце дура (4.1) оказывается невозможной.

§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов

Идея применения метода стохастической аппроксима ции для решения задачи обучения распознаванию обра зов связана с заменой функции потерь (4.2) другой функци ей, такой, чтобы по ней была возможна организация рѳ-

74 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

куррентной процедуры. Замена функции потерь, по суще ству, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других — непри емлема, так как дает результаты, значительно отличаю щиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обу чения распознаванию образов — детерминистскую поста новку и стохастическую *). В детерминистской постанов ке предполагается, что среди характеристических функ ций F (X, а) есть такая, которая идеально решает задачу классификации, т. е. существует такое а = а 0, что Р (а0) = 0- Стохастическая постановка предусма тривает случай, когда идеальное решение задачи не возможно.

Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции F (X, а 0), которая обеспечивает безошибочное разделение классов, а с другой стороны, для введенной функции потерь может быть организована рекуррентная процедура поиска.

В качестве примера вновь обратимся к классу решаю щих правил персептрона. Вспомним, что для перспептрона Розенблатта может быть выписан функционал, миними зация которого составляет суть задачи обучения. В коор динатах спрямляющего пространства функционал имеет вид

	ТП
Р ( Ь ) =	ХіУ^ dP (<и, у).

Предположим, что существует точное решение задачи распознавания, т. е. существует такое X = Х°, что Р (Х°) = 0, и, кроме того, для всех векторов у первого класса справедливо

(Ь°, у ) > б > О,

а для векторов второго класса

______________

(Ь°, У) < - в .

*) Термины здесь выбраны неудачно, так как и в той и в другой постановке задача остается статистической. Однако эти термины широко распространены и поэтому будем их придерживаться.

Смотрите также файлы

Исследование отношения к здоровью у подростков некоторые ученые относят к наиболее актуальному направлению изучения психологии здоровья, что связано с особенностями подросткового возраста как важного периода в становлении личности.docx

5 Расчет центрально нагруженного фундамента под колонну.docx

Задача Проанализируйте движение и техническое состояние основных фондов, рассчитав при этом.docx

Как накопить деньги на мечту Что такое мечта.pptx

1. Основные направления работы с семьей, имеющей больного ребенка. Информационное направление.docx

Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно