Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 89
Скачиваний: 0
§ 2. Р А З Л И Ч И М Ы Е С М Е С И И О Ц Е Н К А П А Р А М Е Т Р О В
В практических ситуациях обычно имеют дело^с наблюдениями
Х ъ Х 2, ..., Хп, |
которые следует разнести |
в несколько |
однородных |
|
групп (классов). |
Выше мы видели, что это можно |
сделать объективно |
||
только в том случае, когда наблюдения Xj |
(j = 1, |
2, ..., |
п) получены |
из различимой смеси, плотность которой далее будет обозначаться через h (U).
Мы будем предполагать, что смесь h (U) является конечной смесью. Это ограничение объясняется тем, что по конечному числу п наблю дений нельзя определить бесконечное число компонент смеси. Мы будем предполагать также, что существуют плотности / (U | Ѳ) у каждой составляющей смеси, причем функции / (U | Ѳ) — известные функции своих аргументов U и Ѳ.
Ранее было показано (см. главу I), что наблюдения Xj можно достаточно хорошо классифицировать, если удается хорошо оценить параметры Ѳг и вероятности я г, и число компонент k, которые опреде ляют смесь
h(U)= 2 ni f(U\Qi).
І = 1
Таким образом, для того, чтобы различить смесь h (U) или класси фицировать Xj из выборки {Xj} (/ = 1, 2, ..., п) следует оценить:
—число классов (компонент), входящих в смесь, т. е. число k различных функций / (Л/ | Ѳг) в смеси;
—доли каждого класса — вероятности яф;
—распределение каждого класса, т. е. оценить параметр Ѳг или функцию / (U I Ѳг).
Это означает, что следует оценить по данным Х г, Х 2, ..., Х п пара
метр Ѳ, компонентами |
которого |
являются |
числа k я 1( я 2, ...,. |
||
k |
|
|
|
|
|
= 1), Ѳь |
Ѳ2, |
..., |
Ѳй, т. е. |
|
|
і= I |
|
|
|
|
|
Ѳ“ |
(^, jTj, |
я 2, ..., |
Ѳі, Ѳ2, ..., |
Ѳ,). |
Отсюда следует, что при неизвестном k не определена даже размер ность пространства неизвестных параметров.
В работе [6] доказано, что существуют состоятельные оценки всех этих параметров. Идея доказательства состоит в следующем. Разли
чимость смеси h (U) = J / (U I ѲdG (Ѳ) означает, что по h (U) £ Н функция G (Ѳ) = Gh (Ѳ) определена однозначно для любой h £ Н (см. § 1 гл. II). По результатам наблюдений Х г, Х 2, ..., Хп, получен ным из смеси к (U), строится подходящая состоятельная оценка плот
ности смеси h (U) (см. § 3 гл I). Затем строится G (Ѳ) = G% (Ѳ), которая, оказывается состоятельной оценкой G (Ѳ). Метод, которым доказано существование состоятельных оценок, мало пригоден для практичес ких целей классификации. Поэтому в практических задачах еще бо лее ограничивают класс смесей. Обычно рассматривается следующая схема (модель) получения наблюдений Xj.
63
Пусть имеется целочисленная случайная величина ѵ (номер класса),
принимающая значения 1, 2, М (М — возможное число классов)
м
с вероятностями рг, р2, ..., рм (S |
Рі = !)• |
Для каждого значения ѵ |
г—I |
|
|
известно семейство плотностей |
|
|
Fv — {/ (С/1 Ѳ; V), |
U 6Х, |
Ѳ6 в}, |
где Ѳ — конечное множество точек Ѳ (не более чем М 0) и Ѳ— параметр, принимающий какое-либо случайное, с распределением рѵ (Ѳ), но фик
сированное значение для всей выборки (X)', Х\, ..., XJ, ...}. Выборка получена по следующему правилу: на каждом шаге t вначале разыг рывается значение ѵ с вероятностями ріу не зависящими от t, затем
для каждого ѵ = і выбирается Ѳг- £ Ѳ*, |
если этого не было сделано |
|||||
раньше, с |
помощью известного распределения |
pt (Ѳ) и, |
наконец, |
|||
по f (U I Ѳѵ; |
ѵ) разыгрывается значение X j (t = |
1, 2, ...). |
|
|||
Таким образом, мы сталкиваемся с |
последовательностью точек |
|||||
X t, которые распределены по закону |
|
|
|
|||
|
|
MXM« |
|
|
|
|
|
h(U)= |
Z |
f {UI |
Ѳг) я г, |
|
|
|
|
і = 1 |
|
|
|
|
где f (U \ ді) = f (U I Ѳ, i), а |
Яі = |
pi (Ѳ) pt — вероятность |
того, что |
параметр принял значение Ѳг. Некоторые pt могут быть равны нулю, поэтому действительное число классов k ^ М.
В этой модели мы имеем дело уже с пространством фиксированной размерности, поэтому задача классификации (различения смеси) несколько упрощается, так как нам следует оценить только параметры Ѳг и itj, т. е. параметр Ѳ = (яг, Ѳг) по наблюдениям Xj из смеси h (U). Дальнейшее упрощение модели уже связано с предположениями типа:
а) |
вероятности рі — известны, б) вероятности |
рі (Ѳ) — известны |
|||
В работе [8] приводится несколько алгоритмов состоятельного |
|||||
оценивания параметра |
Ѳ, когда |
предположение а) |
не выполнено, |
||
а предположение |
б) выполнено. |
В предположении |
о различимости |
||
смесей, |
состоящих |
из |
компонент |
семейств Fv (т. е. |
м |
h (U) tfL U Fv) |
V = 1
и при некоторых дополнительных, довольно общих предположениях
доказано, что байесовские оценки Ѳдля Ѳединственны и состоятельны. Более того, существуют числа с, 0 < с <Z <х>, % > 0 и зависящее от функций f (U\Q) число s > 0 такие, что при п > п0
М{IѲ—Ѳ||2}^ cn~s.
Вработах [5] и [9] приводится обзор методов различения смесей, когда выполнены предположения а) и б) вместе. Эти методы основаны на определении апостериорных вероятностей параметров Ѳг по апри
орным и имеют ряд серьезных недостатков как теоретического, так и вычислительного планов.
Далее мы остановимся подробнее на одном специальном случае оценки параметров смеси, для которого вычислительные процедуры достаточно просты и хорошо обоснованы.
64
§3. СМЕСИ И МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ
1.Общие свойства метода
Рассмотрим задачу классификации наблюдений, когда известны виды плотностей, каждая из которых определяет однородную гене ральную совокупность — класс. Параметры совокупности неизвестны,
наблюдаемые |
р-мерные точки Х и Х 2, ..., Хп независимы и получены |
||
из смеси k |
классов. |
Априорные |
вероятности я г появления точки |
из класса с номером і (і— 1, 2, ..., |
k) неизвестны. Таким образом, наб |
||
людения Лц |
Х 2, ..., |
Хп можно рассматривать как выборку из гене |
|
ральной совокупности с плотностью распределения |
|||
|
|
h(U)= І |
« і/(і/|Ѳ г), |
|
|
г = 1 |
где f (U I Ѳ;) — плотность распределения вероятностей в і-ш классе, который определяется векторным параметром Ѳг.
В предположении, что смесь h (U) — различима, можно ставить задачу о классификации членов последовательности {Х;} на& классов. Задача классификации была бы решена, если бы удалось оценить не известные Я; и Ѳг по результатам наблюдений Х ъ Х 2, ..., Х п. Подход, использующий метод максимального правдоподобия для оценивания
параметров я г- |
и Ѳ;, |
рассмотрен в работах [2], [3], [4]. |
|
|||||||
Обозначим набор всех неизвестных параметров через Ѳ. Таким |
||||||||||
образом, если |
все |
Ѳг |
различны, |
то |
|
k |
|
|
||
|
Ѳ= |
(лу, |
я2, ..., я^, Ѳи Ѳ2, •• •» 0/і), |
ny = 1• |
|
|||||
|
jiu |
|
||||||||
|
|
|
|
|
|
|
|
i = 1 |
|
|
Если неизвестные параметры Ѳг каждого класса распадаются на два |
||||||||||
множества |
Ѳіг и Ѳ2І, |
таких, что Ѳіг меняются при переходе от класса |
||||||||
к классу, а Ѳзг |
одинаковы для всех классов (Ѳ2І = |
Ѳ2), то |
||||||||
|
|
|
|
|
|
|
|
k |
|
|
Ѳ—■(я^, Я2, |
... ,Я^, Ѳш Ѳ^2» •1 » @ikt ^2)’ і= 1 |
^ • |
||||||||
Аналогично можно |
|
поступить, |
если |
известно, |
что |
nit = я І2 = |
||||
= ... — Я; |
И Т. Д. |
|
|
|
|
|
|
|
|
|
В принятых обозначениях логарифмическая функция |
правдоподо |
|||||||||
бия имеет вид |
|
|
|
|
|
|
|
|
|
|
|
ln L (0) |
|
п |
ln h(Xj)= |
п |
Г k |
nJiXjlQi) . |
|||
|
|
2 |
2 ln |
2 |
||||||
|
|
|
/ =1 |
|
1 = 1 |
Li = i |
|
|
|
Требуется определить такую точку Ѳ, для которой
InL (é) = шах ln L (Ѳ),
ѳ 6 в
где Ѳ — множество допустимых значений параметров. Обозначим через Р (і I Xj) вероятность наблюдать класс і при получении точки
3 Зак* 358 |
65 |
Xj, тогда в соответствии с правилом вычисления условных, в данном случае так называемых апостериорных вероятностей
P(i\Xj) |
Щ f (Xj I Ѳі) |
~ |
|
|
2 пі f IXі [ Ѳг) |
|
і= 1 |
k
Введем вспомогательные величины gi} ^ 0, такие, что 2 ёи — 1
г=1
для любого /. В этом случае выражение для ln L (Ѳ) можно предста вить в виде
1 п І ( Ѳ ) = 2 |
2 |
г У |
1 п яi t , +ёи^2п fiXjlQi) - |
і= 1і = 1 |
|
|
і = 1/ = 1 |
V |
V |
1 |
*чНХ}\Ѳі) |
— 2 j |
2j |
ëu ln — ----------------- |
^ i mf(Xj\Qi)
/ = 1
и использовать итерационную процедуру для определения точки Ѳ,
вкоторой достигается максимум ln L (Ѳ). Итерационная процедура состоит в следующем.
Пусть на шаге |
t процедуры получено значение Ѳ(і) = |
(я (/ ), |
... |
|||||||||
..., |
я**, |
Ѳ(/ \ |
Ѳг\ |
....Ѳ**), |
при ^ — О Ѳ<0) —начальные данные. |
|||||||
|
Положив |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
»!°/ (*,W > ) ’ |
|
|
|
|
|||
|
|
|
|
(=1 |
|
|
|
|
|
|
|
|
следует определить такие величины Ѳ(/ +!> |
и |
я (! + >), |
для |
которых |
||||||||
выражения |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
É |
^ р Іп /^ - ІѲ Л |
(/ —1, |
2, |
... , &) |
|
|
|
||
и величина s |
( I |
gjj) j ln Я; |
достигают максимума. |
Легко обна- |
||||||||
|
|
|
|
|
|
k |
п |
|
|
|
|
|
ружить, |
что максимум величины |
2 |
2 ёи 1п пг по я г |
ПРИ |
условии |
|||||||
k |
|
|
|
|
|
»■= 1/= 1 |
|
|
|
|
|
|
2 |
Я ;= 1 |
достигается в точке |
|
|
|
|
|
|
|
|||
і = і |
|
|
|
|
|
|
|
|
|
|
|
|
П
66
поэтому
+ ? + Ч
|
|
|
/ |
= 1 |
|
|
Определить максимум выражения |
|
|
|
|||
|
S fi# )]n /№ i0 f) |
а = і , 2 ,.... k) |
|
|||
|
/= 1 |
|
|
|
|
|
по Ѳ; гораздо |
проще, |
чем определить |
максимум |
выражения для |
||
ln L |
(Ѳ) по |
Ѳ= (jt1( |
л 2, |
nk, Ѳъ Ѳ2, |
ѲА). |
|
Далее (см. п. |
2 § 3 |
главы |
II) будут |
приведены |
выражения для |
00+ 1)^ которые максимизируют
Vgjj) ln n X t \ Q t)
/= 1
при заданных gj.n |
для |
частного случая, |
когда /({/|Ѳ г) — плотности |
|||
нормального распределения . |
можно |
продолжить итерационную |
||||
Зная теперь 04+ ч |
и лЧ + Ч, |
|||||
процедуру |
с |
Л2 |
|
, ... , |
Jl, |
|
Ѳ |
= (л l' |
+ 1) |
|
|||
0 + 1) |
0 + 1) |
0 |
|
TT' |
|
Прежде чем излагать основные результаты об итерационной про цедуре, приведем несколько замечаний и обратим внимание читате ля на то, что вспомогательные величины имеют смысл апостериорных вероятностей, а именно
З а м е ч а н и е |
1. Полезно знать |
поведение |
|
|
|
|
k П |
|
|
l n L (0( ( + 1 ) ) = 2 2 Р (І) ( / | ^ )1п я (*+ 1 , + |
|
|||
|
|
і= 1/= 1 |
|
|
+ |
2 2 |
Pit)(i\Xj)\ nf {Xj \Q{ti + l)) ~ |
|
|
* |
і = 1/=1 |
|
л^"ЧЧ/(х I н0+ ч\ |
|
п |
|
|
||
- 2 |
2 |
|
П< 'А I + ' |
> |
і = і /= і |
2 |
" (/ + , ) / ( ^ | ѳ<і<+1>) |
|
|
|
|
і = 1 |
|
при возрастании числа итераций t, чтобы в случае сходимости быть
уверенным в сходимости к максимуму. |
полезно знать про |
|||
З а м е ч а н и е |
2. |
Если |
0* = (Ѳ1І; Ѳ2), то |
|
цедуру, которая давала бы максимум величине |
|
|||
2 |
І |
P { t) |
(і j X j ) In / (X; I Ѳі;, |
Ѳ2) |
і\= 1/ = 1 |
|
|
||
по всем Ѳі; и Ѳ2. |
|
|
|
|
3* |
|
|
|
67 |