Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 165

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

50 г л . Ш . МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

независимо, т. е.

 

Р (X, р ) ^ Р (х\ р1) X . . . X Р (хп, рп),

(3.1)

и, кроме того, каждая координата хг вектора х может принимать лишь фиксированное число значений. Для определенности будем считать, что каждая координата хі принимает тj значений с* ( 1 ) , ... , сг (и)-

Таким образом, рассматривается случай, когда распре­ деление вероятностей для каждого класса объектов задано выражением (3.1), где функция Р (хх, р*) может быть записана так:

р1(1),

если

X* =

с* (1),

Р (х1, р1) =

 

 

(ЗЛ')

р1(т4),

если

хх=

é (tj),

2 Р' (/) = !•

 

 

Здесь рх (к) есть вероятность того,

что хх примет значение

с* (к). Восстановить распределение вероятностей (3.1')

значит найти значения параметров р* (к) (к = 1, 2, .

. ., т*).

В т о р о й к л а с с р а с п р е д е л е н и й .

Плот­

ность распределения вероятностей для каждого класса

объектов задана нормальным

законом

Р

Д) = (2п)и^|Ѵ |‘~г ехр [ ~

4 " “ ^ ТА_1 (Х - »*)]• М

Восстановить плотности распределения вероятностей зна­ чит найти вектор средних р, и ковариационную матрицу А для каждого класса объектов. Однако часто решение такой задачи на выборках ограниченного объема оказы­ вается недостаточно точным и поэтому рассматриваются еще более узкие постановки, где наложены ограничения на свойства ковариационных матриц А (например, счита­ ется, что ковариационные матрицы различных классов равны либо являются диагональными или даже единич­ ными). Согласно формуле (2.4) знание плотностей распре­ деления вероятностей векторов для различных классов объектов и вероятностей появления представителя каж­ дого класса дают возможность немедленно определить оптимальное решающее правило.



§ 1. ВОССТАНОВЛЕНИЕ АСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 51

Представим, как это часто принято в теории обучения распознаванию образов, п-мерный вектор х, каждая ко­ ордината которого может принимать лишь тг значений,

как бинарный вектор х = (ж1, . . х') размерности

П

т = 2

хі-

Это делается так. Каждой

координате

х{ ста-

і=1

в

соответствие вектор

£{,

координаты которого

вится

хі, . . ., хі1 определяются следующим образом:

 

 

 

X?

0,

если

X1ф с1(к),

 

 

 

1,

если

х1 = с1(к).

 

 

 

 

 

Например, если координата ж» может принимать че­

тыре значения и имеет значение

с*

(3), то соответствую­

щий вектор Хі равен (0, 0, 1, 0).

1,

2,

. . ., п) записыва­

Координаты векторов

i t (i

=

ются подряд, образуя новый

вектор

X = (ж1, . .

ж*),

так что первые тх координат

этого вектора совпадают

с Х\, следующие т2 — образуют £2 и т. д.

Тогда для первого класса функций, согласно (2.4), оптимальным решающим правилом является линейная

дискриминантная

функция

 

 

 

 

 

Ч=г

Р\

рп '

где р\

и

рп — соответственно вероятности появления

векторов

первого

и второго

классов; р\ — вероятность

того,

что

хч = 1 для векторов 4

первого класса; р\

вероятности того,

что жк =

V

для векторов второго

класса.

 

■;**$«**

 

Для нормальных распределений оптимальное решаю­ щее правило, согласно (2.4), оказывается, вообще говоря, квадратичной дискриминантной функцией

F (х) = Ѳ[ix — |х2)т А;1 {х р2) — {х ~ Р'і)тАІ1 {х — Рі) —

- l n


52 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

где (д.Аи Aj — параметры плотности распределения векто­ ров первого класса, а ц2 и Д2 — векторов второго класса.

Таким образом, задача построения решающего прави­ ла сводится к нахождению соответствующих параметров плотностей распределения вероятностей.

Среди параметрических методов восстановления плот­ ности распределения вероятностей наиболее эффективны­ ми являются метод максимума правдоподобия и методы, основанные на байесовой оценке. Применение этих двух методов для восстановления плотностей распределения вероятностей в описанных классах и составляет содержа­ ние теории параметрических методов обучения распозна­ ванию образов. Прежде чем перейти к изложению этой теории, напомним некоторые понятия статистической теории оценивания.

§ 2. Классификация оценок

Итак, задача состоит в том, чтобы, используя случай­ ную и независимую выборку хи . . ., жг фиксированной длины I, полученную согласно плотности распределения вероятностей Р (х, а 0), восстановить значение векторапараметров а 0.

Иначе говоря, задача заключается в том, чтобы найти функцию, которая по каждой выборке векторов хг, . . ., х х

вычисляла бы вектор а (жх, . . ., x t), который мы

примем

за приближение вектора-параметров а,

т. е.

найти

функцию

 

 

а = а (хъ . . ., x t).

 

(3.3)

Функция (3.3) получила название оценки параме­ тров а 0. Так как векторы xlt ... , x t случайны, то оцен­ ка а (хг, . . ., хі) является случайной величиной, обла­ дающей такими характеристиками случайной величины, как функция плотности распределения h (а), математи­ ческое ожидание

дисперсия

!2. КЛАССИФИКАЦИЯ ОЦЕНОК

53

В математической статистике приняты следующие характеристики оценок.

Несмещенной называется такая оценка, для которой математическое ожидание оценки равно самой определяе­ мой величине.

Эффективной оценкой называется несмещенная оценка с минимальной дисперсией т. е. наиболее точная из всех

а)

Оценки

 

Асимптотически

Асимптотически

смешенные

несмещенные

Несостоятельные I

Состоятельные

Оценки с

асимпто­

Асимптотически

тической. эффек­

эффективнь/е

тивностью

0 < е < і

б)

Рис. 4.

несмещенных оценок. Для остальных (неэффективных оценок) вводится количественная мера точности оценки е < 1, называемая эффективностью оценки, которая опре­ деляется отношением дисперсии эффективной оценки к дис­ персии данной оценки. Очевидно, что эффективность эф­ фективной оценки равна 1, а для остальных оценок е < 1. На основе этих определений можно ввести первоначальную классификацию оценок (рис. 4, а).


54 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Эта классификация предназначена для характеристик оценок, полученных на выборках малого объема. Для выборок большого объема предлагается несколько иная система классификации, в которую введены понятия асимптотически несмещенных, состоятельных и эффектив­

ных

оценок.

 

 

 

 

 

 

 

 

 

Асимптотически несмещенной называется оценка, для

которой

 

 

 

 

 

 

 

 

 

 

а (хи . .

Хі)

 

а 0 при

I ->■

оо.

 

Состоятельной называется

оценка,

для

которой

Р (I а — а„ I

е) —>- 0 при

I ->- оо

для всех г

0.

Асимптотически

эффективной

называется

оценка,

для

которой

е -> 1

при

I

 

оо.

Такая

классификация

оценок представлена

на

рис.

4,

б.

 

 

 

§ 3. Метод максимума правдоподобия

Метод максимума правдоподобия в задаче о восстанов­ лении плотности распределения вероятностей в классе функций Р (х, а) связан с исследованием так называемой функции правдоподобия Фишера. Функция правдопо­ добия задается на выборке хг, . . ., х х и имеет вид

 

 

 

I

 

 

 

 

 

 

L (хъ ...,

хі I а) = П

Р (sj, а).

 

(3.4)

 

 

 

г = 1

 

 

 

 

Если величины х

дискретны, то функция L

(хг, . ..

. . . , Хі I а) для каждого

а

определяет

вероятность

случайной и

независимой

выборки

образовать

после­

довательность

хг, . . .,

хі. Если

же

х1,

. . .,

х г — непре­

рывные величины, то

функция

L (хг, .

. ., х х \ а)

может

быть истолкована как плотность совместного распределе­ ния величин xt, . . ., хі.\

Таким образом, каждой выборке может быть поставле­ на в соответствие функция правдоподобия (рис. 5). Метод максимума правдоподобия состоит в том, чтобы в качестве

восстановленного

значения

параметра

а

выбирать

то, которое доставляет максимум

функции

правдопо­

добия. Наряду с

функцией L

(хх,

. . .,

хг| а)] принято