Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 171
Скачиваний: 4
64 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИИ
Известно [57], что определенный интеграл (3.16) может быть вычислен
I Г Ң ( 1 ) + 1 ) . . . Г Ң ( т . ) 4 1)
|
|
1 - |
Г ( т . ( 1 ) |
+ ... + т . ( Т . ) + |
Т.) |
’ |
|
где |
Г (п) — гамма-функция. |
Для |
целых п |
она |
равна Г (п) = |
||
= |
(я - 1)! |
образом, |
нормировочная константа |
равна |
|||
|
Таким |
||||||
|
|
(. |
, Г(ті (1) + |
1)...Г(тп.(Ті)+1) |
|||
|
с |
(*!«•••.*»)-Г (я»і(1)+ |
. . . + ПІі(Ті) + Ті) • |
Найдем теперь байесову оценку функции распределения вероят
ностей. Согласно (3.5) она равна
П
£(*) =
п Х[^(/)ГіШ[1 - |
(/)]ГПі<Хі>^ | (і)... dP\ x - 1) |
X j=i |
j=i |
|
C [xi, ...,xt) |
Обозначим каждый сомножитель произведения Р (х1). Учитывая, что функция Р (хг I р) представлена в виде (3.11), вычислим зна
чение Р (х1) при ж* = с1 (к). Легко видеть, что аналогично инте гралу (3.16)
><«*(*)) =
Tj-l
JJJ...J П [р;(/)Г1Ш[1- S У(/)Г1<Ті)pUk)dp\i)...dpHr-i)
3=1
Таким образом,
Сг3=1 |
|
1 |
(хі, ..., ж;) |
|
|
Г(т.(Л-) + 2)Г(/ + т{) |
т. (/,-) + |
1 |
Г ( т . ( А )+ 1 ) Г (/ + т{ + 1) - |
1 + х. |
|
/(1 ) |
т (1) + 1 |
если |
І |
с |
І /4ѵ |
/ + Т. |
X = |
(1), |
|||
|
|
|
|
|
|
Р ( X 1) = |
|
|
|
|
(3.17) |
і |
mi(Ti) + 1 |
если |
i |
i |
|
P (Ti) = |
~ 'L|_T. ~ - |
* = c |
(Ti). |
Заметим, что оценки, полученные байесовым методом (3.17), от личаются от оценок, полученных методом максимума правдо подобия (3.14).
Отличаются эти оценки тем больше, чем меньше объем выбор ки и чем большее число значений ті могут принимать координаты
вектора х\.
$ 8. ВОССТАНОВЛЕНИЕ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 65
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
В случае, когда функция плотности распределения вероятностей задана нормальным законом
р {х’ |
Л) = |
ехр [ |
т^х ~ ^)т А_1 - |
и-)] * |
|||
где |
р = |
(а1, . . ., р” — га-мерный |
вектор |
параметров, |
|||
а Д — матрица параметров п |
X п, |
функция правдоподо |
|||||
бия оказывается равной |
|
|
|
|
|
||
L(xu |
Х[, р, Д) = |
I |
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
~(2я)^2|А|г/г~ѲХР [ “ |
^ |
{Хі ~ |
Ц)Г Л_1 {Хі ~ |
• |
(3,18) |
|
Логарифм функции правдоподобия равен величине |
|||||||
ln L{xx, ..., |
р, Д) = |
|
I |
|
|
|
|
|
|
|
|
|
|
|
=- 4 - IA J - 4 - S И - р)Д-1 (*!-»*). (3.19)
і—1
-.У
Оказывается, что максимум (3.18), а следовательно, и (3.19) достигается, когда вектор параметров р есть оценка математического ожидания вектора xt, т. е.
I
і=1
а матрица Д есть оценка ковариационной матрицы, т. е.
4-2 (4- 4)(4- 4)I = II к1}||. (3.20)
Доказательство этого факта имеется во всех руковод ствах по многомерному статистическому анализу [2]. Оно в векторной форме буквально повторяет очевидное для одномерного случая] утверждение: максимум, функции
|
|
|
, |
2 ^ - ц ) » |
ln L (хъ .., Х[, р , б) — I |
In 2л |
— I In б — |
1 |
г—1_______ |
|
2 |
|
2 |
я2 |
3 В. Н. Валник, А. Я. Червоненкис
66 гл. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
достигается при |
|
Хэ = -J- 2 Щ, бэ = 1[ |
4~ 2 (Жі — Жэ)2 • |
і=Ч |
і=1 |
Как уже указывалось, по оценке параметров плотно сти распределения обоих классов векторов: р,х, Дх и р,2, А2, немедленно находится решающее правило
F{x) = Q (^— (х — ц2)гАГ (х - Ц8) —
- 4 “ (^ - PifAT1 (* - Иі) - ln f è j + lD 7J7) •
Особенность этого правила заключается в том, что оно образовано с помощью операции обращения
Y = A~XZ.
Известно, что к использованию операции обращения ма триц следует относиться с большой осторожностью: воз можны случаи, когда достаточно малой ошибке при за дании матрицы А соответствуют значительные ошибки величины Y. В нашем случае, когда в качестве матрицы А берется ее эмпирическая оценка, такие ошибки тем более вероятны, чем меньше объем выборки, по которой строи лась оценка, и чем хуже обусловленность самой ковариа ционной матрицы.
Поэтому может оказаться, что для построения надеж ного решающего правила потребуется такая точность в оценке ковариационных матриц, которая при заданном объеме выборки не может быть гарантирована. Вот по чему на практике применяются частные постановки, использующие особенности ковариационных матриц. При нято пять вариантов таких постановок.
1 в а'р и а н т . На матрицы Ах и А2 не наложено никаких дополнительных ограничений. В этом случае решающее правило оказывается^ квадратичной дискрими нантной функцией.
2 в а р и а н т . Считается, что коварицаионные ма трицы векторов обоих классов равны, т. е. Ах = Д2 = А. В качестве”оценки такой матрицы берется среднее ариф метическое матриц, полученных соответственно для
§ 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД |
67 |
векторов первого и второго классов:
д _ Аі 4~ Дг
2
В этом случае решающее правило оказывается линейной дискриминантной функцией (функцией Фишера)
F (х) = — р2)т А П х + - J - (p2A ~ % — РіА-1рі) + 1 п -^ .
3 в а р и а н т . Считается, что ковариационные ма трицы векторов разные классов различны, но диагональны:
бц |
0 ..,. 0 |
0 |
,. 0 |
|
g22 •■ |
0 0 ..,. а,
Этому варианту соответствует случай, когда координаты векторов X распределены независимо по нормальному
закону с дисперсией |
При |
этом решающее правило |
оказывается квадратичной дискриминантной формой. |
||
4 в а р и а н т . Считается, |
что ковариационные ма |
трицы векторов различных классов равны и диагональны. В этом случае решающее правило оказывается линейной дискриминантной функцией.
5 в а р и а н т . Считается, что ковариационные матри цы векторов обоих классов единичные. К этому варианту приводится случай известных одинаковых ковариацион ных матриц. При этом решающее правило оказывается линейной дискриминантной функцией. и* jps*,
Ясно, что каждый последующий вариант более «по мехоустойчив», чем предыдущий.
§ 9. Байесов метод восстановления нормального распределения
К сожалению, восстановить методом Байеса распре деление вероятностей в многомерном случае не удается. Как уже указывалось, это связано с тем, что не удается вычислить аналитически соответствующие кратные интег
3*
68 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
ралы. Не удается аналитически получить байесову оценку даже для случая, когда вектор х имеет размерность 2.
Ниже мы покажем, что при минимальной априорной информации байесова оценка плотности нормального рас пределения случайной величины х имеет вид
р ь(?)~ Е(і)9в ' |
i-i |
||
|
|
(х — хяу- |
|
|
|
1 + (7+7ЙГ |
|
|
Ѵл |
Ѵі + і г ( у - і ) |
|
|
---------- т г г Д 2- |
||
I |
|
гМI |
|
= T 2 |
xu |
o i= j 2 |
(xi — хэТ- |
i=l |
|
1=1 |
|
Интересно, что эта оценка плотности нормального распре деления оказалась не принадлежащей классу нормаль ных. Однако читатель легко может убедиться, что при I —>ос справедливо
(X— Х э У
1
Рб(х) =
ѴШая
Использование более точных байесовых оценок плот ности для построения дискриминантных функций при водит к тому, что дискриминантная функция оказывается не квадратичной, а более сложного вида.
Сравним дискриминантные функции, полученные для третьего варианта постановки на основе байесовых оценок и оценок максимума правдоподобия:
а д = ѳ ( | ] ^ Ь п
\і=і
-2
1 4
In
№ + і )(<4)2-
i + |
|
+ |
|
(й + і )(4і)2. |
|||
+ 2 |
ln |
E (h) <s\ (2) |
|
E(h)ai(l) |
|||
i=i |
|
+ lnIL
Pil.
S Ѳ. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 69
Fм (ж) =
|
(хг— s*a)* |
^ |
(х1— з ^ )2 |
^ |
вад |
Рі |
= ѳ |
2 |
і= і |
2 (а*,)* |
|
4 , |
Ри |
|
\і=і 2 ( 4 ) 2 |
|
где xh, «за — соответственно эмпирическая оценка мате матического ожидания і-й координаты векторов пер
вого и второго классов, ah, ah — эмпирическая оценка дисперсии і-й координаты векторов первого и второго классов. Эти функции различаются тем больше, чем меньше объем выборки. Однако в пределе при I —>эо
Рб (ж) -> FM(ж).
Итак, пусть известно, что величина х распределена по нормаль ному закону
г,, |
, |
1 |
Г (* —цЛ |
Р |
в ) = У Ш І * ХѴ |
* |
Кроме того, пусть априорное распределение параметров р и а подчиняется равномерному закону на интервале — Т р ^ + Т и 0 ^ а ^ N. Функция правдоподобия в этом случае будет равна
|
|
Г |
I |
1 |
|
|
|
|
2 |
(*і —і*)5 |
|
L (жі,. . . . xh р, а) = (2я)"Ѵ ѲХР |
i-i |
2а* |
|
||
|
|
||||
Байесова |
оценка плотности |
распределения |
вероятностей |
равна |
|
|
Т N |
|
(зе-р)« |
|
|
|
Y = S S - ^ - L ( x u |
. . . , x l,\i,<3)e |
2°‘ |
dpia |
|
Р (*) = |
----------~ Т °Т N------------------------------------------------- |
|
|
. |
(3.21) |
^^ L ( x i ....... жг,р,а)йрйа
-Г '0
Мы будем считать, что интервалы [ — Т, Т] и [О, JV] столь велики, что пределы интегрирования в (3.21) могут быть расширены до [ — оо, оо] и [0, оо]. Это' во всяком случае можно сделать, если I > 2 (так как при I > 2 интегралы в выражении (3.21) сходятся).
Вычислим интеграл
ОО ОО
I |
= __L- |
5 |
J |
~ L ( x i , . . . , x h р, р, |
а) ехр |
ф йа = |
||||
|
Y 2я |
—оо О |
|
|
|
I |
L |
J |
||
|
1 |
оо |
оо |
1 |
|
|
|
|
||
|
И |
ехр |
[ |
1 |
|
Ѵр) 1Ф d(J- |
||||
‘ |
j+i_ |
аІ+1 |
2а* ( 2 |
(*і - Iх)2 + (* - |
||||||
|
||||||||||
|
(2я) 2 |
—оо .0 |
|
|
'1 = 1 |
/J (3.22) |