Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 79

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Другими словами, основная гипотеза состоит в том, что наблюдение X получено из нового нормального класса, центр которого располо­ жен на прямой, соединяющей точки ах и а2. Описанная ранее проце­ дура приводит к линейной разделяющей функции. Поэтому если рас­ смотреть, например, наблюдение Х г и Х2, то как Х ъ так и Х2 будут отнесены к одному из заданных классов (Хг — к классу 2, а Х2 —

кклассу 1), хотя интуитивно ясно, что Хг может и не принадлежать

кклассу 2, хотя и относится к некоторому новому классу, центр кото­

рого лежит на прямой, соединяющей центры заданных двух классов,

*(г)

Рис. 1.5. Классификация наблю­ дений Х\ и Хі с учетом возмож­ ности извлечения наблюдения из нового класса

х !’)

а Х 2 по-видимому, получено из класса, центр которого не находится даже на прямой, соединяющей точки ах и а2. Рис. 1.5 отражает эту ситуацию при р = 2.

Известно [8], что при справедливости основной гипотезы статистика

(X—ßi)' 2 -1 (X—сіі) К Х - а г У S - * (X - fli)]»

(М2)

(а2— ах)' 2 _1 («2 — Щ)

 

распределена как %2 с р—1 степенями свободы, где р — размерность наблюдения X.

Это дает возможность не присоединять наблюдение X ни к одному из классов N (ах, 2) и N (а2> 2) и, более того, отвергнуть гипотезу о том, что наблюдение X извлечено из нового класса, центр которого лежит на прямой, соединяющей центры заданных классов. Если ве­ личина (1.12) статистически значима, т. е. больше, например, 5%-ной точки ^-распределения с —1) степенями свободы, то наблюдение X не следует относить ни к одному из классов, несмотря на то, что ис­ пользование линейной разделяющей поверхности, или линейной дис­ криминантной функции привело бы к этому.

37

Если же величина (1.12) мала, статистически незначима, то сле­ дует проводить дальнейший анализ, основанный на статистиках

. _ [(aa-fli)' ^ ( Х - Щ )]2 1 («2—%)' S _1 (“2 —öl)

2 («2—%)'

öl)

поскольку в отношении классификации наблюдения остаются еще три возможности: либо X принадлежит к классу 1, либо X принадлежит к классу 2, либо X принадлежит к некоторому новому классу, центр которого лежит на прямой, соединяющей центры заданных двух классов.

Первое решение (X £ Sj) следует принимать в случае ф і< ф 2 и °Дн0' временно > Xo.osÜ)1- Второе решение (X £ S2) принимается в случае ф2 < Фі и одновременно ф2 •< Xo.osU). И наконец, если min (фх, ф2) ^

^Хо,05 (1), то принимается решение о принадлежности наблюдения X

кновому классу с центром, лежащим на прямой, соединяющей цент­ ры заданных двух классов. Применение описанной процедуры к на­ блюдениям Х г и Х2, изображенным на рис. 1.5, дало следующие ре­

шения: ни Х ъ ни Х2 не принадлежат

к заданным классам

и S2;

если центр нового класса, к которому

принадлежит

наблюдение Х1(

лежит на прямой, соединяющей центры заданных

двух классов, то

о наблюдении Х2 нельзя сказать даже этого.

 

 

4. Решающие правила, допускающие неопределенные решения

Рассмотрим еще один случай классификации наблюдения X, при­ надлежащего к одному из k классов, но в ситуациях, когда кроме решений dj — отнести наблюдение к классу /, возможно решение d0 — воздержаться от отнесения наблюдения к какому-либо классу. В этом случае необходимо, кроме С (/ | і) знать еще С (0 | і) — потери от приня­ тия решения d0, когда X принадлежит к классу і.

В этом случае функции, приведенные в п. 1 настоящего парагра­ фа, будут иметь вид

ЫѴ) =

-

2 n i f i (U)C(j\i),

/ = 0,

1,2, ... , Ä

 

 

 

і=1

 

 

и решение dt (і

= 0,

1,

2, ..., k) будет приниматься в том случае, когда

бі (X) = max

бj (X).

Иногда в этой

работе

мы будем говорить

о функциях бj (X) как о решающих функциях. Это не приведет к пу­ танице, но позволит не вводить новый термин, дискриминантный ин­ формант, если следовать[8].

1 Здесь и в дальнейшем (т) —Ю0а% -ная точка %2-распределения с т сте­ пенями свободы.

38


=

Рассмотрим области принятия решений dj в случае, когда

С (01/) =

/ '( / = 1 , 2 ,

 

k),

С (i \i) — 0 (i =

1,

2, ....

k), C(j\ i)

1,

при

 

/

= 1, 2,

k , но / Ф i (/ ^

0). Легко

проверить, что при г >

1— ^

решение

d0 приниматься никогда не будет, поэтому будем предполо-

гать, что г ф.1 ----k—.

 

 

 

 

 

 

 

 

 

В случае k =

2 области принятия решения d0, db d2

 

 

 

 

 

 

 

S q -■ U :c2C ln /2 ( U)

 

 

 

 

 

 

 

 

 

 

 

 

h ( U )

 

 

 

 

 

 

 

 

 

 

S i —

 

 

M l ]

 

 

 

 

 

 

 

 

 

 

 

/1 (U) I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U : сг^ . ln M

l ]

 

 

 

 

 

 

 

 

 

 

 

 

/1 ( U ) J ’

 

 

 

 

где c-, =

, я1

r

 

,

я,

1—г

 

 

от отношения

f2 (U)

,

ln — -j---- , Co=ln —----- зависят только

 

 

1

я2

1— г’

2

я2

г

 

 

 

 

fi (t/) ’

которое

называют обычно

отношением правдоподобия (см. §

1 на­

стоящей

главы).

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим более подробно случай, когда величина X принадле­

жит к какому-либо из двух

нормальных

распределений

с разными

средними значениями ait но с одинаковыми ковариационными матри­ цами 2 . В этих предположениях

1пТ777Т = —

—Ö2) + 4 '( a2 + ß i)'2 ~ 1(ai —<h)

h\U )

*

и известно [1], что эта величина распределена по нормальному закону

N ( Р, Р ) при X е N (at, 2),

---- -1 Р, р)

при X 6 N (а2, У),

где р {аго2) '2 -1 (ax — й2).

Легко подсчитать, что вероятности

Р (j\i) принятия решения dj, когда X принадлежит классу /, выража­ ются в этом случае следующим образом:

Р(о |о = Ф ^ +

) - Ф

j ,

Р (1 I і) =Г 1 —Ф

 

) -

Р (2 I /) = 1 - Ф ( C2-t-(

\ '

V

у р

!

где Ф (и) — функция распределения стандартного нормального зако­ на [8].

39


 

Если вероятности

и я 2

неизвестны, но заданы вероятности пра­

вильной классификации Р (1 | 1) и Р{2|2), и константы сг и с2

можно

определить из приведенной выше системы уравнений:

 

 

 

 

 

----« і/р >

 

 

 

 

сг =

-----+W 2] /p ,

 

где

Ы; — решение уравнения

Р (і \ і) = Ф (и,) (і = 1,2) и q >

с2 при

Р >

і +

н2)а- При р =

(«1 + w2)2 область принятия решения d0 вы­

рождается,

при р < (их + ы2)2 получить вероятности Р (111) и Р (2 12)

невозможно.

 

 

 

 

Если /г (£/) б W (а,

2 г),

то

 

и ошибки Р (і\і) будут зависеть от распределения квадратичной фор­

мы (X —ß )'(2 r1 —^ г 1) (X —а), которая

распределена как

величина

р

стандартные

нормальные

случайные

2 Ьг2/, где Zi — независимые

і=1

Ъ%= 1—

и

— корни уравнения

величины, р—размерность X,

І2І21 —

1- о*

 

 

Используя это, можно получить ошибки классификации для клас­ сов с одним средним и разными эллипсоидами рассеивания.

§3. КЛАССИФИКАЦИЯ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК

1. Параметрические методы классификации

 

Классификация

многомерных наблюдений размерности

р, когда

имеются выборки

из каждого класса, называется обычно классифи­

кацией при наличии обучающих выборок,

или проще, классификацией

с учителем.

Объем

обучающей выборки из класса і будем обозначать

mi (і = 1, 2,

..., k). Хорошо изученным

является случай,

когда из­

вестны виды плотностей классов / (U | Ѳг),

где Ѳ; — неизвестные пара­

метры, возможно,

векторные. Этот случай обычно называется пара­

метрическим.

 

 

 

В параметрическом случае вид разделяющей поверхности известен (см. § 2, п. 2) с точностью до параметров, зависящих от Ѳг = 1 ,2 ,.., k) и классификация, т. е. разбиение X, состоит в том, чтобы по обуча­ ющей последовательности определить параметры разделяющих функ­ ций, задающих границы исходных областей S,.

Естественно, что в общем случае параметры разделяющих (дискри­ минантных) функций не совпадают с параметрами Ѳг, определяющими распределение внутри каждого класса. Например, § 2, в п. 2 данной

40


главы были приведены линейные разделяющие функции, общий вид которых

Ьи {Ц) = Ь’и + Ь0.

При этом, например, вектор-столбец b зависит от г и у и может быть выражен через параметры Ѳ распределения нормальных классов і и j с разными средними at и а;- одинаковыми ковариационными матри­ цами 2, так

ь = '2г1(а}— аі).

Обычным является следующий подход: по обучающей последова­ тельности определяют оценки параметров Ѳг = 1, 2, ..., k) и, как в предыдущем параграфе, определяют разделяющие поверхности, вер­ нее, оценки этих поверхностей бі;- (U) или функций 6; (U).

Метод получения вида разделяющих поверхностей бі} (U) или функций бі (0) был достаточно подробно описан в предыдущем па­ раграфе и сводился к методу отношения правдоподобия, где констан­ ты Сі были известны, если известны априорные распределения и потери от неправильной классификации, или неизвестны, если не было дан­ ных о потерях и априорных вероятностях. Но и в том и в другом слу­ чае метод отношения правдоподобия был наилучшим. Будем обозначать этот критерий, т. е. систему областей, определенных неравенствами

1±Ш1 с через L (с). fj(U) "

Два метода классификации Lx и L2 называются асимптотически подобными над семейством плотностей F — {/ (U | Ѳ)}, если для любых

е > 0 и / (f/ I Ѳ) £ F

и для достаточно больших mt (і = 1, 2, ..., k),

независимо от того, каким из f (U |

Ѳ) описывается распределение слу­

чайной величины X, вероятность того, что

и L2 дадут один и тот же

результат классификации

больше чем 1—г.

подобны над F, то крите­

Если критерии L и L (с) асимптотически

рий L называют L (с)-состоятельным над F.

 

правил клас­

Приведем общий результат

[11] о

состоятельности

сификации на два класса.

 

 

 

U, за

исключением множества

Т е о р е м а 1. Если для каждого

Vqf (U I Ѳ) — вероятности

нуль,

плотности

[ (U | Ѳ) — непрерывные

функции векторного параметра

Ѳ и Ѳ— состоятельная

оценка пара­

метра Ѳ, то правило

классификации

 

 

 

 

 

f(u\Qi)

 

 

 

 

 

f ( u |ѳ 2) > с *

 

 

L (с) — состоятельно

над

семейством F = {/ (U | Ѳ;), і

= 1, 2}.

Заметим, что часто семейство F состоит из распределений одного вида, например, нормальных, но с неизвестными средними и ковариа­ ционными матрицами.

41


Рассмотрим далее более подробно

некоторые частные

случаи,

а)

Классификация, основанная

на F-распределении.

В работе [2

предлагается следующий способ классификации нормальных наблю­ дений, когда неизвестны средние значения и ковариационные матри­ цы, т. е. f (U I Ѳг) — нормальные плотности, а Ѳ* состоит из вектора

средних а'і = (аі(1>, а\2), ...,а\р)) и элементов матрицы 2 . Таким образом,

неизвестный параметр Ö имеет размерность р + —~ —- =

Предполагается также, что потери от ошибочных классификаций одинаковы.

Пусть Х и , Х 2І, ..., Хті выборка объема- /

из класса і. Тогда,

принимая

ті

 

1

 

«* = —

% х »,

 

ті

і= і

 

пи Ч=і

в качестве оценок at и 2 г классифицируют наблюдение X по максиму­ му величины

(''О — fp. ггц—р(4 (X)),

где fp, m._p — плотность /•'-распределения с р и ті р - степенями

свободы,

а

 

 

 

(ті—р) nij

U - a J ' i T ' U

a t ) .

 

U (Х)

 

Р (т?— 1)

 

При

предположении, что 2 Х= 2 а = ... =

2 ft= 2, классифика­

цию можно уточнить в смысле сближения ошибок неправильной клас­ сификации точного и приближенного (по оценкам 2 и at) методов, если

за оценку матрицы 2

принять матрицу

 

2

 

 

k

т1 + т2 + ... +mk—k

2

 

/=1

а вместо величины tt (X) взять величину

т I

 

2 Mi—k—p + 1

( х - a t ) ’ ІГ* ( X - â t).

П (X) г=

 

.- -k--------- L

р{пц —\) I 2 Ші—kj

Тогда классификация сводится к отысканию максимума величины

ö« (X) — fp, m,+m2+. . .+mk—k—p+ 1(ti (X)),

т. e. X относят к классу і0, если б* ^ бг (X) (і = 1,2, ..., k).

42