Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Скачать файл (11,72Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 171

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ

Известно [57], что определенный интеграл (3.16) может быть вычислен

I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)

		1 -	Г ( т . ( 1 )	+ ... + т . ( Т . ) +		Т.)	’
где	Г (п) — гамма-функция.			Для	целых п	она	равна Г (п) =
=	(я - 1)!	образом,	нормировочная константа				равна
	Таким
		(.	, Г(ті (1) +		1)...Г(тп.(Ті)+1)
	с	(!«•••.»)-Г (я»і(1)+			. . . + ПІі(Ті) + Ті) •

Найдем теперь байесову оценку функции распределения вероят

ностей. Согласно (3.5) она равна

£(*) =

п Х[^(/)ГіШ[1 -	(/)]ГПі<Хі>^ \| (і)... dP\ x - 1)
X j=i	j=i
	C [xi, ...,xt)

Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна

чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте гралу (3.16)

><«*(*)) =

Tj-l

JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)

3=1

Таким образом,

Сг3=1		1
(хі, ..., ж;)
Г(т.(Л-) + 2)Г(/ + т{)	т. (/,-) +	1
Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) -	1 + х.

/(1 )	т (1) + 1	если	І	с	І /4ѵ
/(1 )	/ + Т.	если	X =	с	(1),
	/ + Т.
Р ( X 1) =					(3.17)
і	mi(Ti) + 1	если	i	i
P (Ti) =	~ 'L\|_T. ~ -	если	* = c		(Ti).

Заметим, что оценки, полученные байесовым методом (3.17), от личаются от оценок, полученных методом максимума правдо подобия (3.14).

Отличаются эти оценки тем больше, чем меньше объем выбор ки и чем большее число значений ті могут принимать координаты

вектора х\.

$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65

§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия

В случае, когда функция плотности распределения вероятностей задана нормальным законом

р {х’	Л) =		ехр [	т^х ~ ^)т А_1 -			и-)] *
где	р =	(а1, . . ., р” — га-мерный			вектор	параметров,
а Д — матрица параметров п				X п,	функция правдоподо
бия оказывается равной
L(xu	Х[, р, Д) =		I
			I
=	~(2я)^2\|А\|г/г~ѲХР [ “		^	{Хі ~	Ц)Г Л_1 {Хі ~	•	(3,18)
Логарифм функции правдоподобия равен величине
ln L{xx, ...,		р, Д) =		I
				I

=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)

і—1

-.У

Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.

і=1

а матрица Д есть оценка ковариационной матрицы, т. е.

4-2 (4- 4)(4- 4)I = II к1}||. (3.20)

Доказательство этого факта имеется во всех руковод ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции

			,	2 ^ - ц ) »
ln L (хъ .., Х[, р , б) — I	In 2л	— I In б —	1	г—1_______
	2		2	я2

3 В. Н. Валник, А. Я. Червоненкис

66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

достигается при
Хэ = -J- 2 Щ, бэ = 1[	4~ 2 (Жі — Жэ)2 •
і=Ч	і=1

Как уже указывалось, по оценке параметров плотно сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило

F{x) = Q (^— (х — ц2)гАГ (х - Ц8) —

- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •

Особенность этого правила заключается в том, что оно образовано с помощью операции обращения

Y = A~XZ.

Известно, что к использованию операции обращения ма триц следует относиться с большой осторожностью: воз можны случаи, когда достаточно малой ошибке при за дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи лась оценка, и чем хуже обусловленность самой ковариа ционной матрицы.

Поэтому может оказаться, что для построения надеж ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При нято пять вариантов таких постановок.

1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими нантной функцией.

2 в а р и а н т . Считается, что коварицаионные ма трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф метическое матриц, полученных соответственно для

§ 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД

векторов первого и второго классов:

д _ Аі 4~ Дг

В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)

F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .

3 в а р и а н т . Считается, что ковариационные ма трицы векторов разные классов различны, но диагональны:

бц	0 ..,. 0
0	,. 0
	g22 •■

0 0 ..,. а,

Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному

закону с дисперсией	При	этом решающее правило
оказывается квадратичной дискриминантной формой.
4 в а р и а н т . Считается,		что ковариационные ма

трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.

5 в а р и а н т . Считается, что ковариационные матри цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,

Ясно, что каждый последующий вариант более «по мехоустойчив», чем предыдущий.

§ 9. Байесов метод восстановления нормального распределения

К сожалению, восстановить методом Байеса распре деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег

68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.

Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас пределения случайной величины х имеет вид

р ь(?)~ Е(і)9в '			i-i
		(х — хяу-
		1 + (7+7ЙГ
	Ѵл	Ѵі + і г ( у - і )
	---------- т г г Д 2-
I		гМI
= T 2	xu	o i= j 2	(xi — хэТ-
i=l		1=1

Интересно, что эта оценка плотности нормального распре деления оказалась не принадлежащей классу нормаль ных. Однако читатель легко может убедиться, что при I —>ос справедливо

(X— Х э У

Рб(х) =

ѴШая

Использование более точных байесовых оценок плот ности для построения дискриминантных функций при водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.

Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:

а д = ѳ ( | ] ^ Ь п

\і=і

-2

1 4

№ + і )(<4)2-

i +		+
(й + і )(4і)2.
+ 2	ln	E (h) <s\ (2)
+ 2	ln	E(h)ai(l)
i=i		E(h)ai(l)

+ lnIL

Pil.

S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69

Fм (ж) =

	(хг— sa)	^	(х1— з ^ )2	^	вад	Рі
= ѳ	2	і= і	2 (а,)		4 ,	Ри
	\і=і 2 ( 4 ) 2	і= і	2 (а,)		4 ,	Ри

где xh, «за — соответственно эмпирическая оценка мате матического ожидания і-й координаты векторов пер

вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо

Рб (ж) -> FM(ж).

Итак, пусть известно, что величина х распределена по нормаль ному закону

г,,	,	1	Г (* —цЛ
Р	в ) = У Ш І * ХѴ		*

Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна

		Г	I	1
			2	(і —і)5
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР			i-i	2а*
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР				2а*
Байесова	оценка плотности	распределения	вероятностей		равна
	Т N		(зе-р)«
	Y = S S - ^ - L ( x u	. . . , x l,\i,<3)e	2°‘	dpia
Р (*) =	----------~ Т °Т N-------------------------------------------------			.	(3.21)

^^ L ( x i ....... жг,р,а)йрйа

-Г '0

Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).

Вычислим интеграл

ОО ОО

I	= __L-	5	J	~ L ( x i , . . . , x h р, р,				а) ехр	ф йа =
	Y 2я	—оо О					I	L	J
	1	оо	оо	1
		И			ехр	[	1		Ѵр) 1Ф d(J-
‘	j+i_			аІ+1			2а* ( 2	(і - Iх)2 + ( -

	(2я) 2	—оо .0					'1 = 1		/J (3.22)

Смотрите также файлы

Исследование отношения к здоровью у подростков некоторые ученые относят к наиболее актуальному направлению изучения психологии здоровья, что связано с особенностями подросткового возраста как важного периода в становлении личности.docx

5 Расчет центрально нагруженного фундамента под колонну.docx

Задача Проанализируйте движение и техническое состояние основных фондов, рассчитав при этом.docx

Как накопить деньги на мечту Что такое мечта.pptx

1. Основные направления работы с семьей, имеющей больного ребенка. Информационное направление.docx

Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно