Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 169

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

60 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

аналитическое интегрирование выражения

Р

L {хх,

..., x l I а) Р (х I а) Р (а) ^

(3.10)

 

с (ад......*,)

аа

 

 

 

Численное интегрирование (3.10) — задача чрезвы­

чайно трудоемкая из-за

высокой

кратности интеграла

(вектор а обычно имеет большую размерность).

В свою очередь метод максимума правдоподобия менее привлекателен чем байесов: теория гарантирует лишь асимптотическую эффективность метода.

Байесова процедура имеет интерпретацию оптимальной стратегии в игре с известной смешанной стратегией про­ тивника. Правда, при ее реализации требуются сведения о плотности априорного распределения параметров а, что не всегда имеется у исследователя. Однако известно (теорема С. Н. Бернштейна), что влияние априорных сведений на получение апостериорной плотности распре­ деления вероятностей падает с ростом объема выборки. В случае, когда нет никаких иных сведений, обычно поль­ зуются равномерным законом априорных распределений параметров а. Таким образом, ситуация такова, что при оценивании плотности распределения желательно полу­ чить байесову оценку, хотя найти ее часто бывает крайне трудно. Когда получение байесовой оценки невозможно, используются оценки метода максимума правдоподобия.

Ниже, для первого класса распределений будут при­ ведены оценки параметров методом максимума правдо­ подобия и байесовы оценки. Для второго класса распре­ делений будут приведены оценки параметров методом максимума правдоподобия; будет показано, в чем состоят трудности при получении байесовых оценок, и, наконец, будут найдены байесовы оценки для некоторых специ­ альных видов ковариационных матриц Д.

§ 6. Оценка параметров распределения дискретных независимых признаков

Итак, пусть координаты вектора х распределены не­ зависимо и, кроме того, каждая координата х* вектора х может принимать тг значений, т. е. известно, что

П

Р(х, р) = ПР р1),

г=*1



§ 6. СЛУЧАЙ НЕЗАВИСИМЫХ ПРИЗНАКОВ

61

где

 

 

 

 

 

 

Ср*(1),

если ж* =

с»(1),

 

 

Р (х1, р1) = I .......................................

(3.11)

 

I Р* (Ті)і

ѲСЛИ Х* =

£І (ti),

 

 

3=1

 

 

 

 

Составим функцию правдоподобия

 

 

 

 

I

П

 

 

 

L {хи ..., x t, p ) =

П П Р (4, Р%

 

 

 

fc=l г=1

 

 

где

х\ — значение і-й координаты /с-го вектора

обучаю­

щей

последовательности.

 

 

 

 

Переставив порядок сомножителей, получим

 

 

 

П

I

 

 

 

Ь (хі,..., х„ р) =

П П ^(4>

Р*)-

 

 

 

і=1 К=1

 

 

Перейдем к функции ln L:

 

 

 

 

 

 

N

I

 

 

 

ln L (хъ ..., хь р) =

2

2 ln -Р (4 , Р*)-

 

 

 

1=1(С=1

 

 

Рассмотрим теперь величину

I

2 in р (4, р*).

іс=1

Согласно (3.11) она может быть представлена в виде

I Х'

2 1п р (4 . р*) = 2 щ ( / ) ln ^ о-)»

/С=1

3=1

где Wj (/) — число векторов выборки, у которых коорди­ ната принимает значение х{ — с1(/); £ — объем выборки,

(/) =Л-


62 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Таким образом, логарифм функции правдоподобия равен

 

 

п

ті

 

 

la L {xl, . . . , z l,p)=‘ 2

2

т гО')1пРЧ/)-

(3-12)

 

 

і = 1 3=1

 

 

Найдем максимум по р{ (/)

функции ln L (a^, . .

Хі, р)

при ограничениях

(/) =

1.

Для

этого воспользуемся

і

Лагранжа.

 

 

методом множителей

 

 

Составим функцию Лагранжа Ф (р, Я):

пті

Ф (р, я) = 2 '%(phO)inpl (j) — КрЧі )),

і —X 3=1

где ЯI — множители Лагранжа.

 

Вектор р,

доставляющий максимум функции Ф (pt Я),

определяется

из системы

уравнений

 

 

ЭФ (р, X) =

ті (/)

(3.13)

 

(/)

Р1(/’)

 

 

Из (3.13), учитывая условия нормировки

получаем

>mt о -) р1(Л = • /

Таким образом, рекомендации метода максимума прав­ доподобия состоят в том, чтобы в качестве функции распре­ деления вероятностей использовать ее эмпирическую оценку, т. е.

т, (1)

хг = сг(1),

рг(1) = —2— , если

Р (х\ р1) .......................................................

(3.14)

т. (т.)

X1= сг(Ті).

рг{?і) — — J— , если


§ 7. БАЙЕСОВЫ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 63

§ 7. Байесовы оценки параметров распределения дискретных независимых признаков

Ниже будет показано, что при минимальных априор­ ных сведениях относительно значения параметров рас­

пределения Р (х1, рх) (параметры р1 =

(1)

, . .

 

 

ч

р1(/)

 

распределены равномерно на симплексе

l, p4 j) >

;> 0) байесова оценка имеет

вид

і=і

 

 

рЧ1) =

m (1) f-1

 

 

l -\-n

 

(3.15)

P(xl, pi) ==

 

 

 

Pl N

=

1Щ ( f j ) - f -

1

 

I -\- Xi

 

 

Согласно § 5 байесовы оценки являются наиболее точ­ ными. В случае, когда объем выборки I мал — соизмерим с числом градаций — эти оценки могут значительно отли­ чаться от оценок максимума правдоподобия (3.14).

Поэтому для построения дискриминантной функции по малым выборкам лучше пользоваться не оценками

(3.14), а оценками (3.15).

 

Получим байесовы оценки распределения.

 

 

константу

 

Для этого

вычислим

сначала

нормировочную

 

с (»1, • •

•, Щ) == ^L ( хі, . . . , xt, »

Р (р ) dp,

 

где

L (хх, . . ., хі, р)

— функция

правдоподобия, Р (р)

— апри­

орная плотность. Подставляя сюда

функцию правдоподобия и учи­

тывая, что параметры

р* (/).

распределены

равномерно,

получим

 

с (жі......... хі) = о Д

с

(хь . . .,

хі);

 

 

где

а — Р (р) =

const

и

І=1

 

 

 

 

 

 

 

 

 

 

 

 

 

c \ x h . .. ,хі)

=

§

 

П 1 CP*i </■))'"jW x

 

 

 

 

 

 

2

 

i=i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J = i

 

 

 

 

 

 

 

 

 

 

4-1

PU)>о

<Ti> dpI

 

 

 

 

 

 

 

 

(/))m i

(1). . . dp{

 

 

 

X

[i -

2 P

(X. -

1), (3,16)

i=i