Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 89

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

§ 2. Р А З Л И Ч И М Ы Е С М Е С И И О Ц Е Н К А П А Р А М Е Т Р О В

В практических ситуациях обычно имеют дело^с наблюдениями

Х ъ Х 2, ..., Хп,

которые следует разнести

в несколько

однородных

групп (классов).

Выше мы видели, что это можно

сделать объективно

только в том случае, когда наблюдения Xj

(j = 1,

2, ...,

п) получены

из различимой смеси, плотность которой далее будет обозначаться через h (U).

Мы будем предполагать, что смесь h (U) является конечной смесью. Это ограничение объясняется тем, что по конечному числу п наблю­ дений нельзя определить бесконечное число компонент смеси. Мы будем предполагать также, что существуют плотности / (U | Ѳ) у каждой составляющей смеси, причем функции / (U | Ѳ) — известные функции своих аргументов U и Ѳ.

Ранее было показано (см. главу I), что наблюдения Xj можно достаточно хорошо классифицировать, если удается хорошо оценить параметры Ѳг и вероятности я г, и число компонент k, которые опреде­ ляют смесь

h(U)= 2 ni f(U\Qi).

І = 1

Таким образом, для того, чтобы различить смесь h (U) или класси­ фицировать Xj из выборки {Xj} (/ = 1, 2, ..., п) следует оценить:

число классов (компонент), входящих в смесь, т. е. число k различных функций / (Л/ | Ѳг) в смеси;

доли каждого класса — вероятности яф;

распределение каждого класса, т. е. оценить параметр Ѳг или функцию / (U I Ѳг).

Это означает, что следует оценить по данным Х г, Х 2, ..., Х п пара­

метр Ѳ, компонентами

которого

являются

числа k я 1( я 2, ...,.

k

 

 

 

 

 

= 1), Ѳь

Ѳ2,

...,

Ѳй, т. е.

 

 

і= I

 

 

 

 

 

Ѳ“

(^, jTj,

я 2, ...,

Ѳі, Ѳ2, ...,

Ѳ,).

Отсюда следует, что при неизвестном k не определена даже размер­ ность пространства неизвестных параметров.

В работе [6] доказано, что существуют состоятельные оценки всех этих параметров. Идея доказательства состоит в следующем. Разли­

чимость смеси h (U) = J / (U I ѲdG (Ѳ) означает, что по h (U) £ Н функция G (Ѳ) = Gh (Ѳ) определена однозначно для любой h £ Н (см. § 1 гл. II). По результатам наблюдений Х г, Х 2, ..., Хп, получен­ ным из смеси к (U), строится подходящая состоятельная оценка плот­

ности смеси h (U) (см. § 3 гл I). Затем строится G (Ѳ) = G% (Ѳ), которая, оказывается состоятельной оценкой G (Ѳ). Метод, которым доказано существование состоятельных оценок, мало пригоден для практичес­ ких целей классификации. Поэтому в практических задачах еще бо­ лее ограничивают класс смесей. Обычно рассматривается следующая схема (модель) получения наблюдений Xj.

63


Пусть имеется целочисленная случайная величина ѵ (номер класса),

принимающая значения 1, 2, М (М — возможное число классов)

м

с вероятностями рг, р2, ..., рм (S

Рі = !)•

Для каждого значения ѵ

г—I

 

 

известно семейство плотностей

 

 

Fv — {/ (С/1 Ѳ; V),

U 6Х,

Ѳ6 в},

где Ѳ — конечное множество точек Ѳ (не более чем М 0) и Ѳ— параметр, принимающий какое-либо случайное, с распределением рѵ (Ѳ), но фик­

сированное значение для всей выборки (X)', Х\, ..., XJ, ...}. Выборка получена по следующему правилу: на каждом шаге t вначале разыг­ рывается значение ѵ с вероятностями ріу не зависящими от t, затем

для каждого ѵ = і выбирается Ѳг- £ Ѳ*,

если этого не было сделано

раньше, с

помощью известного распределения

pt (Ѳ) и,

наконец,

по f (U I Ѳѵ;

ѵ) разыгрывается значение X j (t =

1, 2, ...).

 

Таким образом, мы сталкиваемся с

последовательностью точек

X t, которые распределены по закону

 

 

 

 

 

MXM«

 

 

 

 

 

h(U)=

Z

f {UI

Ѳг) я г,

 

 

 

 

і = 1

 

 

 

 

где f (U \ ді) = f (U I Ѳ, i), а

Яі =

pi (Ѳ) pt — вероятность

того, что

параметр принял значение Ѳг. Некоторые pt могут быть равны нулю, поэтому действительное число классов k ^ М.

В этой модели мы имеем дело уже с пространством фиксированной размерности, поэтому задача классификации (различения смеси) несколько упрощается, так как нам следует оценить только параметры Ѳг и itj, т. е. параметр Ѳ = (яг, Ѳг) по наблюдениям Xj из смеси h (U). Дальнейшее упрощение модели уже связано с предположениями типа:

а)

вероятности рі — известны, б) вероятности

рі (Ѳ) — известны

В работе [8] приводится несколько алгоритмов состоятельного

оценивания параметра

Ѳ, когда

предположение а)

не выполнено,

а предположение

б) выполнено.

В предположении

о различимости

смесей,

состоящих

из

компонент

семейств Fv (т. е.

м

h (U) tfL U Fv)

V = 1

и при некоторых дополнительных, довольно общих предположениях

доказано, что байесовские оценки Ѳдля Ѳединственны и состоятельны. Более того, существуют числа с, 0 < с <Z <х>, % > 0 и зависящее от функций f (U\Q) число s > 0 такие, что при п > п0

М{IѲ—Ѳ||2}^ cn~s.

Вработах [5] и [9] приводится обзор методов различения смесей, когда выполнены предположения а) и б) вместе. Эти методы основаны на определении апостериорных вероятностей параметров Ѳг по апри­

орным и имеют ряд серьезных недостатков как теоретического, так и вычислительного планов.

Далее мы остановимся подробнее на одном специальном случае оценки параметров смеси, для которого вычислительные процедуры достаточно просты и хорошо обоснованы.

64


§3. СМЕСИ И МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ

1.Общие свойства метода

Рассмотрим задачу классификации наблюдений, когда известны виды плотностей, каждая из которых определяет однородную гене­ ральную совокупность — класс. Параметры совокупности неизвестны,

наблюдаемые

р-мерные точки Х и Х 2, ..., Хп независимы и получены

из смеси k

классов.

Априорные

вероятности я г появления точки

из класса с номером і (і— 1, 2, ...,

k) неизвестны. Таким образом, наб­

людения Лц

Х 2, ...,

Хп можно рассматривать как выборку из гене­

ральной совокупности с плотностью распределения

 

 

h(U)= І

« і/(і/|Ѳ г),

 

 

г = 1

где f (U I Ѳ;) — плотность распределения вероятностей в і-ш классе, который определяется векторным параметром Ѳг.

В предположении, что смесь h (U) — различима, можно ставить задачу о классификации членов последовательности {Х;} на& классов. Задача классификации была бы решена, если бы удалось оценить не­ известные Я; и Ѳг по результатам наблюдений Х ъ Х 2, ..., Х п. Подход, использующий метод максимального правдоподобия для оценивания

параметров я г-

и Ѳ;,

рассмотрен в работах [2], [3], [4].

 

Обозначим набор всех неизвестных параметров через Ѳ. Таким

образом, если

все

Ѳг

различны,

то

 

k

 

 

 

Ѳ=

(лу,

я2, ..., я^, Ѳи Ѳ2, •• •» 0/і),

ny = 1•

 

 

jiu

 

 

 

 

 

 

 

 

 

i = 1

 

 

Если неизвестные параметры Ѳг каждого класса распадаются на два

множества

Ѳіг и Ѳ2І,

таких, что Ѳіг меняются при переходе от класса

к классу, а Ѳзг

одинаковы для всех классов (Ѳ2І =

Ѳ2), то

 

 

 

 

 

 

 

 

k

 

 

Ѳ—■(я^, Я2,

... ,Я^, Ѳш Ѳ^2» •1 » @ikt ^2)’ і= 1

^ •

Аналогично можно

 

поступить,

если

известно,

что

nit = я І2 =

= ... — Я;

И Т. Д.

 

 

 

 

 

 

 

 

В принятых обозначениях логарифмическая функция

правдоподо­

бия имеет вид

 

 

 

 

 

 

 

 

 

 

ln L (0)

 

п

ln h(Xj)=

п

Г k

nJiXjlQi) .

 

 

2

2 ln

2

 

 

 

/ =1

 

1 = 1

Li = i

 

 

 

Требуется определить такую точку Ѳ, для которой

InL (é) = шах ln L (Ѳ),

ѳ 6 в

где Ѳ — множество допустимых значений параметров. Обозначим через Р (і I Xj) вероятность наблюдать класс і при получении точки

3 Зак* 358

65


Xj, тогда в соответствии с правилом вычисления условных, в данном случае так называемых апостериорных вероятностей

P(i\Xj)

Щ f (Xj I Ѳі)

~

 

2 пі f IXі [ Ѳг)

 

і= 1

k

Введем вспомогательные величины gi} ^ 0, такие, что 2 ёи — 1

г=1

для любого /. В этом случае выражение для ln L (Ѳ) можно предста­ вить в виде

1 п І ( Ѳ ) = 2

2

г У

1 п яi t , +ёи^2п fiXjlQi) -

і= 1і = 1

 

 

і = 1/ = 1

V

V

1

*чНХ}\Ѳі)

2 j

2j

ëu ln — -----------------

^ i mf(Xj\Qi)

/ = 1

и использовать итерационную процедуру для определения точки Ѳ,

вкоторой достигается максимум ln L (Ѳ). Итерационная процедура состоит в следующем.

Пусть на шаге

t процедуры получено значение Ѳ(і) =

(я (/ ),

...

...,

я**,

Ѳ(/ \

Ѳг\

....Ѳ**),

при ^ — О Ѳ<0) —начальные данные.

 

Положив

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

»!°/ (*,W > ) ’

 

 

 

 

 

 

 

 

(=1

 

 

 

 

 

 

 

следует определить такие величины Ѳ(/ +!>

и

я (! + >),

для

которых

выражения

 

 

 

 

 

 

 

 

 

 

 

 

 

É

^ р Іп /^ - ІѲ Л

(/ —1,

2,

... , &)

 

 

 

и величина s

( I

gjj) j ln Я;

достигают максимума.

Легко обна-

 

 

 

 

 

 

k

п

 

 

 

 

 

ружить,

что максимум величины

2

2 ёи 1п пг по я г

ПРИ

условии

k

 

 

 

 

 

»■= 1/= 1

 

 

 

 

 

2

Я ;= 1

достигается в точке

 

 

 

 

 

 

 

і = і

 

 

 

 

 

 

 

 

 

 

 

 

П

66


поэтому

+ ? + Ч

 

 

 

/

= 1

 

 

Определить максимум выражения

 

 

 

 

S fi# )]n /№ i0 f)

а = і , 2 ,.... k)

 

 

/= 1

 

 

 

 

 

по Ѳ; гораздо

проще,

чем определить

максимум

выражения для

ln L

(Ѳ) по

Ѳ= (jt1(

л 2,

nk, Ѳъ Ѳ2,

ѲА).

Далее (см. п.

2 § 3

главы

II) будут

приведены

выражения для

00+ 1)^ которые максимизируют

Vgjj) ln n X t \ Q t)

/= 1

при заданных gj.n

для

частного случая,

когда /({/|Ѳ г) — плотности

нормального распределения .

можно

продолжить итерационную

Зная теперь 04+ ч

и лЧ + Ч,

процедуру

с

Л2

 

, ... ,

Jl,

 

Ѳ

= (л l'

+ 1)

 

0 + 1)

0 + 1)

0

 

TT'

 

Прежде чем излагать основные результаты об итерационной про­ цедуре, приведем несколько замечаний и обратим внимание читате­ ля на то, что вспомогательные величины имеют смысл апостериорных вероятностей, а именно

З а м е ч а н и е

1. Полезно знать

поведение

 

 

 

k П

 

 

l n L (0( ( + 1 ) ) = 2 2 Р (І) ( / | ^ )1п я (*+ 1 , +

 

 

 

і= 1/= 1

 

 

+

2 2

Pit)(i\Xj)\ nf {Xj \Q{ti + l)) ~

 

*

і = 1/=1

 

л^"ЧЧ/(х I н0+ ч\

 

п

 

 

- 2

2

 

П< 'А I + '

>

і = і /= і

2

" (/ + , ) / ( ^ | ѳ<і<+1>)

 

 

 

і = 1

 

при возрастании числа итераций t, чтобы в случае сходимости быть

уверенным в сходимости к максимуму.

полезно знать про­

З а м е ч а н и е

2.

Если

0* = (Ѳ1І; Ѳ2), то

цедуру, которая давала бы максимум величине

 

2

І

P { t)

j X j ) In / (X; I Ѳі;,

Ѳ2)

і\= 1/ = 1

 

 

по всем Ѳі; и Ѳ2.

 

 

 

 

3*

 

 

 

67