Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 79
Скачиваний: 0
Другими словами, основная гипотеза состоит в том, что наблюдение X получено из нового нормального класса, центр которого располо жен на прямой, соединяющей точки ах и а2. Описанная ранее проце дура приводит к линейной разделяющей функции. Поэтому если рас смотреть, например, наблюдение Х г и Х2, то как Х ъ так и Х2 будут отнесены к одному из заданных классов (Хг — к классу 2, а Х2 —
кклассу 1), хотя интуитивно ясно, что Хг может и не принадлежать
кклассу 2, хотя и относится к некоторому новому классу, центр кото
рого лежит на прямой, соединяющей центры заданных двух классов,
*(г)
Рис. 1.5. Классификация наблю дений Х\ и Хі с учетом возмож ности извлечения наблюдения из нового класса
х !’)
а Х 2 по-видимому, получено из класса, центр которого не находится даже на прямой, соединяющей точки ах и а2. Рис. 1.5 отражает эту ситуацию при р = 2.
Известно [8], что при справедливости основной гипотезы статистика
(X—ßi)' 2 -1 (X—сіі) К Х - а г У S - * (X - fli)]» |
(М2) |
(а2— ах)' 2 _1 («2 — Щ) |
|
распределена как %2 с р—1 степенями свободы, где р — размерность наблюдения X.
Это дает возможность не присоединять наблюдение X ни к одному из классов N (ах, 2) и N (а2> 2) и, более того, отвергнуть гипотезу о том, что наблюдение X извлечено из нового класса, центр которого лежит на прямой, соединяющей центры заданных классов. Если ве личина (1.12) статистически значима, т. е. больше, например, 5%-ной точки ^-распределения с (р—1) степенями свободы, то наблюдение X не следует относить ни к одному из классов, несмотря на то, что ис пользование линейной разделяющей поверхности, или линейной дис криминантной функции привело бы к этому.
37
Если же величина (1.12) мала, статистически незначима, то сле дует проводить дальнейший анализ, основанный на статистиках
. _ [(aa-fli)' ^ ( Х - Щ )]2 1 («2—%)' S _1 (“2 —öl)
2 («2—%)' |
öl) |
поскольку в отношении классификации наблюдения остаются еще три возможности: либо X принадлежит к классу 1, либо X принадлежит к классу 2, либо X принадлежит к некоторому новому классу, центр которого лежит на прямой, соединяющей центры заданных двух классов.
Первое решение (X £ Sj) следует принимать в случае ф і< ф 2 и °Дн0' временно > Xo.osÜ)1- Второе решение (X £ S2) принимается в случае ф2 < Фі и одновременно ф2 •< Xo.osU). И наконец, если min (фх, ф2) ^
^Хо,05 (1), то принимается решение о принадлежности наблюдения X
кновому классу с центром, лежащим на прямой, соединяющей цент ры заданных двух классов. Применение описанной процедуры к на блюдениям Х г и Х2, изображенным на рис. 1.5, дало следующие ре
шения: ни Х ъ ни Х2 не принадлежат |
к заданным классам |
и S2; |
|
если центр нового класса, к которому |
принадлежит |
наблюдение Х1( |
|
лежит на прямой, соединяющей центры заданных |
двух классов, то |
||
о наблюдении Х2 нельзя сказать даже этого. |
|
|
4. Решающие правила, допускающие неопределенные решения
Рассмотрим еще один случай классификации наблюдения X, при надлежащего к одному из k классов, но в ситуациях, когда кроме решений dj — отнести наблюдение к классу /, возможно решение d0 — воздержаться от отнесения наблюдения к какому-либо классу. В этом случае необходимо, кроме С (/ | і) знать еще С (0 | і) — потери от приня тия решения d0, когда X принадлежит к классу і.
В этом случае функции, приведенные в п. 1 настоящего парагра фа, будут иметь вид
ЫѴ) = |
- |
2 n i f i (U)C(j\i), |
/ = 0, |
1,2, ... , Ä |
|
|
|
|
і=1 |
|
|
и решение dt (і |
= 0, |
1, |
2, ..., k) будет приниматься в том случае, когда |
||
бі (X) = max |
бj (X). |
Иногда в этой |
работе |
мы будем говорить |
о функциях бj (X) как о решающих функциях. Это не приведет к пу танице, но позволит не вводить новый термин, дискриминантный ин формант, если следовать[8].
1 Здесь и в дальнейшем (т) —Ю0а% -ная точка %2-распределения с т сте пенями свободы.
38
= |
Рассмотрим области принятия решений dj в случае, когда |
С (01/) = |
|||||||||||
/ '( / = 1 , 2 , |
|
k), |
С (i \i) — 0 (i = |
1, |
2, .... |
k), C(j\ i) |
1, |
при |
|
||||
/ |
= 1, 2, |
k , но / Ф i (/ ^ |
0). Легко |
проверить, что при г > |
1— ^ |
||||||||
решение |
d0 приниматься никогда не будет, поэтому будем предполо- |
||||||||||||
гать, что г ф.■ 1 ----k—. |
|
|
|
|
|
|
|
|
|||||
|
В случае k = |
2 области принятия решения d0, db d2 |
|
|
|
||||||||
|
|
|
|
S q -■ U :c2C ln /2 ( U) |
|
|
|
|
|
||||
|
|
|
|
|
|
|
h ( U ) |
|
|
|
|
|
|
|
|
|
|
|
S i — |
|
|
M l ] |
|
|
|
|
|
|
|
|
|
|
|
|
/1 (U) I |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
U : сг^ . ln M |
l ] |
|
|
|
|
||
|
|
|
|
|
|
|
|
/1 ( U ) J ’ |
|
|
|
|
|
где c-, = |
, я1 |
r |
|
, |
я, |
1—г |
|
|
от отношения |
f2 (U) |
, |
||
ln — -j---- , Co=ln —----- зависят только |
|
||||||||||||
|
1 |
я2 |
1— г’ |
2 |
я2 |
г |
|
|
|
|
fi (t/) ’ |
||
которое |
называют обычно |
отношением правдоподобия (см. § |
1 на |
||||||||||
стоящей |
главы). |
|
|
|
|
|
|
|
|
|
|
||
|
Рассмотрим более подробно случай, когда величина X принадле |
||||||||||||
жит к какому-либо из двух |
нормальных |
распределений |
с разными |
средними значениями ait но с одинаковыми ковариационными матри цами 2 . В этих предположениях
1пТ777Т = — |
—Ö2) + 4 '( a2 + ß i)'2 ~ 1(ai —<h) |
h\U ) |
* |
и известно [1], что эта величина распределена по нормальному закону
N ( Р, Р ) при X е N (at, 2),
---- -1 Р, р) |
при X 6 N (а2, У), |
где р — {аг—о2) '2 -1 (ax — й2). |
Легко подсчитать, что вероятности |
Р (j\i) принятия решения dj, когда X принадлежит классу /, выража ются в этом случае следующим образом:
Р(о |о = Ф ^ + |
) - Ф |
j , |
Р (1 I і) =Г 1 —Ф |
|
) - |
Р (2 I /) = 1 - Ф ( C2-t-( |
\ ' |
|
V |
у р |
! |
где Ф (и) — функция распределения стандартного нормального зако на [8].
39
|
Если вероятности |
и я 2 |
неизвестны, но заданы вероятности пра |
||
вильной классификации Р (1 | 1) и Р{2|2), и константы сг и с2 |
можно |
||||
определить из приведенной выше системы уравнений: |
|
||||
|
|
|
|
----« і/р > |
|
|
|
|
сг = |
-----+W 2] /p , |
|
где |
Ы; — решение уравнения |
Р (і \ і) = Ф (и,) (і = 1,2) и q > |
с2 при |
||
Р > |
(«і + |
н2)а- При р = |
(«1 + w2)2 область принятия решения d0 вы |
||
рождается, |
при р < (их + ы2)2 получить вероятности Р (111) и Р (2 12) |
||||
невозможно. |
|
|
|
||
|
Если /г (£/) б W (а, |
2 г), |
то |
|
и ошибки Р (і\і) будут зависеть от распределения квадратичной фор
мы (X —ß )'(2 r1 —^ г 1) (X —а), которая |
распределена как |
величина |
|||
р |
стандартные |
нормальные |
случайные |
||
2 Ьг2/, где Zi — независимые |
|||||
і=1 |
Ъ%= 1— |
и |
— корни уравнения |
||
величины, р—размерность X, |
|||||
І2І21 — |
1- о* |
|
|
Используя это, можно получить ошибки классификации для клас сов с одним средним и разными эллипсоидами рассеивания.
§3. КЛАССИФИКАЦИЯ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК
1. Параметрические методы классификации |
|
|||
Классификация |
многомерных наблюдений размерности |
р, когда |
||
имеются выборки |
из каждого класса, называется обычно классифи |
|||
кацией при наличии обучающих выборок, |
или проще, классификацией |
|||
с учителем. |
Объем |
обучающей выборки из класса і будем обозначать |
||
mi (і = 1, 2, |
..., k). Хорошо изученным |
является случай, |
когда из |
|
вестны виды плотностей классов / (U | Ѳг), |
где Ѳ; — неизвестные пара |
|||
метры, возможно, |
векторные. Этот случай обычно называется пара |
|||
метрическим. |
|
|
|
В параметрическом случае вид разделяющей поверхности известен (см. § 2, п. 2) с точностью до параметров, зависящих от Ѳг (і = 1 ,2 ,.., k) и классификация, т. е. разбиение X, состоит в том, чтобы по обуча ющей последовательности определить параметры разделяющих функ ций, задающих границы исходных областей S,.
Естественно, что в общем случае параметры разделяющих (дискри минантных) функций не совпадают с параметрами Ѳг, определяющими распределение внутри каждого класса. Например, § 2, в п. 2 данной
40
главы были приведены линейные разделяющие функции, общий вид которых
Ьи {Ц) = Ь’и + Ь0.
При этом, например, вектор-столбец b зависит от г и у и может быть выражен через параметры Ѳ распределения нормальных классов і и j с разными средними at и а;- одинаковыми ковариационными матри цами 2, так
ь = '2г1(а}— аі).
Обычным является следующий подход: по обучающей последова тельности определяют оценки параметров Ѳг (і = 1, 2, ..., k) и, как в предыдущем параграфе, определяют разделяющие поверхности, вер нее, оценки этих поверхностей бі;- (U) или функций 6; (U).
Метод получения вида разделяющих поверхностей бі} (U) или функций бі (0) был достаточно подробно описан в предыдущем па раграфе и сводился к методу отношения правдоподобия, где констан ты Сі были известны, если известны априорные распределения и потери от неправильной классификации, или неизвестны, если не было дан ных о потерях и априорных вероятностях. Но и в том и в другом слу чае метод отношения правдоподобия был наилучшим. Будем обозначать этот критерий, т. е. систему областей, определенных неравенствами
1±Ш1 с через L (с). fj(U) "
Два метода классификации Lx и L2 называются асимптотически подобными над семейством плотностей F — {/ (U | Ѳ)}, если для любых
е > 0 и / (f/ I Ѳ) £ F |
и для достаточно больших mt (і = 1, 2, ..., k), |
||||||
независимо от того, каким из f (U | |
Ѳ) описывается распределение слу |
||||||
чайной величины X, вероятность того, что |
и L2 дадут один и тот же |
||||||
результат классификации |
больше чем 1—г. |
подобны над F, то крите |
|||||
Если критерии L и L (с) асимптотически |
|||||||
рий L называют L (с)-состоятельным над F. |
|
правил клас |
|||||
Приведем общий результат |
[11] о |
состоятельности |
|||||
сификации на два класса. |
|
|
|
U, за |
исключением множества |
||
Т е о р е м а 1. Если для каждого |
|||||||
Vqf (U I Ѳ) — вероятности |
нуль, |
плотности |
[ (U | Ѳ) — непрерывные |
||||
функции векторного параметра |
Ѳ и Ѳ— состоятельная |
оценка пара |
|||||
метра Ѳ, то правило |
классификации |
|
|
|
|||
|
|
f(u\Qi) |
|
|
|
||
|
|
f ( u |ѳ 2) > с * |
|
|
|||
L (с) — состоятельно |
над |
семейством F = {/ (U | Ѳ;), і |
= 1, 2}. |
Заметим, что часто семейство F состоит из распределений одного вида, например, нормальных, но с неизвестными средними и ковариа ционными матрицами.
41
Рассмотрим далее более подробно |
некоторые частные |
случаи, |
|
а) |
Классификация, основанная |
на F-распределении. |
В работе [2 |
предлагается следующий способ классификации нормальных наблю дений, когда неизвестны средние значения и ковариационные матри цы, т. е. f (U I Ѳг) — нормальные плотности, а Ѳ* состоит из вектора
средних а'і = (аі(1>, а\2), ...,а\р)) и элементов матрицы 2 . Таким образом,
неизвестный параметр Ö имеет размерность р + —~ —- =
Предполагается также, что потери от ошибочных классификаций одинаковы.
Пусть Х и , Х 2І, ..., Хті выборка объема- / |
из класса і. Тогда, |
|
принимая |
ті |
|
1 |
|
|
«* = — |
% х », |
|
ті |
і= і |
|
пи Ч=і
в качестве оценок at и 2 г классифицируют наблюдение X по максиму му величины
(''О — fp. ггц—р(4 (X)),
где fp, m._p — плотность /•'-распределения с р и ті — р - степенями
свободы, |
а |
|
|
|
(ті—р) nij |
U - a J ' i T ' U |
a t ) . |
|
U (Х) |
||
|
Р (т?— 1) |
|
|
При |
предположении, что 2 Х= 2 а = ... = |
2 ft= 2, классифика |
цию можно уточнить в смысле сближения ошибок неправильной клас сификации точного и приближенного (по оценкам 2 и at) методов, если
за оценку матрицы 2 |
принять матрицу |
|
|
2 |
|
|
k |
т1 + т2 + ... +mk—k |
2 |
||
|
/=1 |
||
а вместо величины tt (X) взять величину |
|||
т I |
|
2 Mi—k—p + 1 |
( х - a t ) ’ ІГ* ( X - â t). |
П (X) г= |
|
.- -k--------- L |
р{пц —\) I 2 Ші—kj
Тогда классификация сводится к отысканию максимума величины
ö« (X) — fp, m,+m2+. . .+mk—k—p+ 1(ti (X)),
т. e. X относят к классу і0, если б* ^ бг (X) (і = 1,2, ..., k).
42