Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 169
Скачиваний: 4
60 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
аналитическое интегрирование выражения
Р |
L {хх, |
..., x l I а) Р (х I а) Р (а) ^ |
(3.10) |
|
|
с (ад......*,) |
аа |
||
|
|
|
||
Численное интегрирование (3.10) — задача чрезвы |
||||
чайно трудоемкая из-за |
высокой |
кратности интеграла |
(вектор а обычно имеет большую размерность).
В свою очередь метод максимума правдоподобия менее привлекателен чем байесов: теория гарантирует лишь асимптотическую эффективность метода.
Байесова процедура имеет интерпретацию оптимальной стратегии в игре с известной смешанной стратегией про тивника. Правда, при ее реализации требуются сведения о плотности априорного распределения параметров а, что не всегда имеется у исследователя. Однако известно (теорема С. Н. Бернштейна), что влияние априорных сведений на получение апостериорной плотности распре деления вероятностей падает с ростом объема выборки. В случае, когда нет никаких иных сведений, обычно поль зуются равномерным законом априорных распределений параметров а. Таким образом, ситуация такова, что при оценивании плотности распределения желательно полу чить байесову оценку, хотя найти ее часто бывает крайне трудно. Когда получение байесовой оценки невозможно, используются оценки метода максимума правдоподобия.
Ниже, для первого класса распределений будут при ведены оценки параметров методом максимума правдо подобия и байесовы оценки. Для второго класса распре делений будут приведены оценки параметров методом максимума правдоподобия; будет показано, в чем состоят трудности при получении байесовых оценок, и, наконец, будут найдены байесовы оценки для некоторых специ альных видов ковариационных матриц Д.
§ 6. Оценка параметров распределения дискретных независимых признаков
Итак, пусть координаты вектора х распределены не зависимо и, кроме того, каждая координата х* вектора х может принимать тг значений, т. е. известно, что
П
Р(х, р) = ПР р1),
г=*1
§ 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ |
61 |
где |
|
|
|
|
|
|
Ср*(1), |
если ж* = |
с»(1), |
|
|
|
Р (х1, р1) = I ....................................... |
(3.11) |
|||
|
I Р* (Ті)і |
ѲСЛИ Х* = |
£І (ti), |
|
|
|
3=1 |
|
|
|
|
Составим функцию правдоподобия |
|
|
|||
|
|
I |
П |
|
|
|
L {хи ..., x t, p ) = |
П П Р (4, Р% |
|
||
|
|
fc=l г=1 |
|
|
|
где |
х\ — значение і-й координаты /с-го вектора |
обучаю |
|||
щей |
последовательности. |
|
|
|
|
Переставив порядок сомножителей, получим |
|
||||
|
|
П |
I |
|
|
|
Ь (хі,..., х„ р) = |
П П ^(4> |
Р*)- |
|
|
|
|
і=1 К=1 |
|
|
|
Перейдем к функции ln L: |
|
|
|
|
|
|
|
N |
I |
|
|
|
ln L (хъ ..., хь р) = |
2 |
2 ln -Р (4 , Р*)- |
|
|
|
|
1=1(С=1 |
|
|
Рассмотрим теперь величину
I
2 in р (4, р*).
іс=1
Согласно (3.11) она может быть представлена в виде
I Х'
2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»
/С=1 |
3=1 |
где Wj (/) — число векторов выборки, у которых коорди ната принимает значение х{ — с1(/); £ — объем выборки,
(/) =Л-
62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Таким образом, логарифм функции правдоподобия равен
|
|
п |
ті |
|
|
la L {xl, . . . , z l,p)=‘ 2 |
2 |
т гО')1пРЧ/)- |
(3-12) |
||
|
|
і = 1 3=1 |
|
|
|
Найдем максимум по р{ (/) |
функции ln L (a^, . . |
Хі, р) |
|||
при ограничениях |
(/) = |
1. |
Для |
этого воспользуемся |
|
і |
Лагранжа. |
|
|
||
методом множителей |
|
|
Составим функцию Лагранжа Ф (р, Я):
пті
Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),
і —X 3=1
где ЯI — множители Лагранжа. |
|
||
Вектор р, |
доставляющий максимум функции Ф (pt Я), |
||
определяется |
из системы |
уравнений |
|
|
ЭФ (р, X) = |
ті (/) |
(3.13) |
|
(/) |
Р1(/’) |
|
|
|
Из (3.13), учитывая условия нормировки
получаем
>mt о -) р1(Л = • /
Таким образом, рекомендации метода максимума прав доподобия состоят в том, чтобы в качестве функции распре деления вероятностей использовать ее эмпирическую оценку, т. е.
т, (1) |
хг = сг(1), |
рг(1) = —2— , если |
|
Р (х\ р1) ....................................................... |
(3.14) |
т. (т.) |
X1= сг(Ті). |
рг{?і) — — J— , если |
§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
Ниже будет показано, что при минимальных априор ных сведениях относительно значения параметров рас
пределения Р (х1, рх) (параметры р1 = |
(1) |
, . . |
||
|
|
ч |
р1(/) |
|
распределены равномерно на симплексе |
l, p4 j) > |
|||
;> 0) байесова оценка имеет |
вид |
і=і |
|
|
рЧ1) = |
m (1) f-1 |
|
|
|
l -\-n |
|
(3.15) |
||
P(xl, pi) == |
|
|
|
|
Pl N |
= |
1Щ ( f j ) - f - |
1 |
|
I -\- Xi |
|
|
Согласно § 5 байесовы оценки являются наиболее точ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли чаться от оценок максимума правдоподобия (3.14).
Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками
(3.14), а оценками (3.15).
|
Получим байесовы оценки распределения. |
|
|
константу |
|||||||
|
Для этого |
вычислим |
сначала |
нормировочную |
|||||||
|
с (»1, • • |
•, Щ) == ^L ( хі, . . . , xt, » |
Р (р ) dp, |
|
|||||||
где |
L (хх, . . ., хі, р) |
— функция |
правдоподобия, Р (р) |
— апри |
|||||||
орная плотность. Подставляя сюда |
функцию правдоподобия и учи |
||||||||||
тывая, что параметры |
р* (/). |
распределены |
равномерно, |
получим |
|||||||
|
с (жі......... хі) = о Д |
с |
(хь . . ., |
хі); |
|
|
|||||
где |
а — Р (р) = |
const |
и |
І=1 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|||||
|
c \ x h . .. ,хі) |
= |
§ |
|
П 1 CP*i </■))'"jW x |
|
|||||
|
|
|
|
|
2 |
|
i=i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
J = i |
|
|
|
|
|
|
|
|
|
|
|
4-1 |
PU)>о |
<Ti> dpI |
|
|
|
|
|
|
|
|
|
(/))m i |
(1). . . dp{ |
|
|
||||
|
X |
[i - |
2 P |
(X. - |
1), (3,16) |
i=i