Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 81
Скачиваний: 0
Можно показать, что предполагаемый метод асимптотически подо бен методу максимального правдоподобия. Кроме этого он легко обоб щается на случай, когда потери от ошибок классификации разные.
б) Классификация, основанная на оценке дискриминантной функции
При классификации объектов на два класса можно использовать дру гой способ, а именно строить разделяющую поверхность с помощью отношения правдоподобия.
Пусть Х хі, Х 2І, ..., Х т.і (і = 1, 2) обучающие последовательности
из р-мерных нормальных совокупностей с разными неизвестными сред ними аъ а2 и одинаковыми, но неизвестными ковариационными ма
трицами 2. Используя оценки средних значений аг= — 2 Х ц и оцен-
т /= 1
ку общей ковариационной матрицы
z т-
1
[т1-\-т2— 2 £ = 1 /=1
мы можем подставить их вместо неизвестных значений в отношение правдоподобия. В этом случае получим, как было показано в преды дущем параграфе, линейную разделяющую поверхность (оценку ди скриминантной функции)
б12= К ' % ~ Х(ах — а2) ---- Y {âi — сг2)' |
(аі ~ |
а2) + с, |
где параметр с выбирается в зависимости от вероятностей |
ошибок клас |
сификации. Для равных вероятностей ошибок классификации пара метр с = 0.
Известно [1], что при тх — оо и т2->■ °о предельным распределе
нием для б42 при с = 0 будет |
|
N ( — р, р ], если U — X £ N (аг, 2 ) |
и ЛМ------ р, р ), если U = |
= : х \ м ( а 2, ^ ) , |
2 |
где р — расстояние Махалонобиса между классами, т. е.
р = (Сі—а2у 2 " 1(ах—а2).
Это означает, что при достаточно больших mt (і — 1, 2) вероятность неправильной классификации наблюдения X £ .V (аг,2) будет за даваться приближенным соотношением
X- |
CL \ —f—(X 2 |
2 1 ( а ! — â 2) < 0 I « Ф (у), |
||
|
||||
где |
|
Ѵ р |
|
\_ |
|
У = |
+ о |
||
|
2 |
ГПі |
||
|
|
|
||
Ф (у) — функция |
распределения |
стандартного нормального зако |
||
на [8]. |
|
|
|
|
43
В работе [6] доказано, что разделяющую поверхность можно пере двигать до тех пор, пока ошибки классификации обучающих последо вательностей не сравняются. Правда, это доказательство существен но опирается на предположения о нормальности распределений и о ра венстве ковариационных матриц. Кроме этого предполагается, что объемы обучающих последовательностей одинаковы (mx = т2).
Доказано, что точка z0 — пересечения поверхности 612 с прямой, сое диняющей центры классов а± и а2 при т1 = т2 -э- оо распределена
по нормальному закону со средним значением Mz0 = ai^ fl- и дис-
Персией
а количество ошибочно классифицируемых точек v (z0) при т1 оо нормально со средним
и дисперсией
Можно, по-видимому, показать, что такой метод улучшения поло жения делящей поверхности L (с)-состоятелен над семейством нор мальных распределений с одинаковыми ковариационными матрицами и разными средними.
Аналогичные результаты справедливы для числа классов k >. 2. Привлекательность линейной классификации привела к тому, что в работе [10] линейная классификация применяется и для разделения
нормальных совокупностей с разными ковариационными матрицами. В работе [3] предлагается распространить этот метод для классифика ции совокупностей с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. Известно [3], однако, что методы линейной классификации не являются L (с)-состоятельными уже над семейством нормальных распределений с разными средними и разными ковариационными матрицами.2
2.Непараметрические методы классификации
Внастоящем параграфе рассматриваются методы оценки илотносстей и методы классификации наблюдений, не предполагающие извест ных (с точностью до параметров) плотностей наблюдений, принадлежа щих к разным классам. Однако мы будем предполагать наличие обу чающих выборок из каждого класса. В параметрических задачах клас сификации эти выборки служили для оценки неизвестных параметров
44
плотностей, т. е. для оценок самих этих плотностей. В непараметри ческих задачах они необходимы также для оценки плотностей, только теперь это будут так называемые непараметрические оценки плотно стей, в некотором смысле — многомерный аналог гистограммы.
Методы классификации, опирающиеся на эти оценки, как и в ра боте [7] будем называть локальными, так как отнесение наблюдения Z к тому или иному классу будет зависеть от ближайших к нему точек обучающих последовательно стей. Поэтому требуются дополнительные предположения относительно понятия близо сти наблюдаемых точек.
а) Методы, использующие понятие близости. Понятие близости можно задавать, на пример, следующим образом. Определим в пространстве на
блюдаемых признаков |
X' — |
|||
= (х1-1), х<2>, |
..., |
х<р>) некото |
||
рую |
окрестность |
ѵ0 |
точки |
|
О = |
(0, 0, .., |
0). |
|
|
Задаваясь |
произвольным |
действительным числом г > 0 и сопоставляя каждой точке U из окрестности нуля ѵ0точ ку rlI,— (rud-'>, ги<?\ ..., г«(р>),
мы получим отображение ок рестности ѵ0 в некоторую по добную ей окрестность ѵ0 (г). Меняя г, будем иметь систему подобных окрестностей {п0 (г)} около точки 0. Тогда для
произвольной точки Z при заданном виде окрестности нуля ѵ0 можно рассмотреть соответствующие подобные окрестности (см. рис. 1.6).
vz {r) = {rU+ Z, и е М-
Таким образом, очевидно, что при заданных ѵ 0и Z для любой р-мерной точки факторного пространства X £ X можно определить множество действительных чисел Rx таких, что если только г■£ R x , то X £ vz(r).
Соответственно полагают, что из двух точек X и Y точка X располо жена ближе к точке Z (в смысле окрестности ѵ0), чем точка Y, если min Rx < min R Y-
Обычно понятие близости точек наиболее естественно вводится через расстояние р (X, Z) в пространстве признаков. В этом случае области ѵ2 (г) превращаются в систему «сфер» радиуса г и центром в точке Z.
Приведем вначале несколько способов классификации объекта Z, а затем остановимся более подробно на различных локальных оценках плотностей и отношений правдоподобия в точке Z, на основании ко торых производится классификация.
45
Методы классификации точки Z могут состоять в следующем.
1) В зависимости от объемов обучающих выборок определяется число к:
•— рассматривается к ближайших k Z точек из обучающих выборок;
— точка г относится к тому классу і, из которого в числе к ближай ших точек присутствует больше точек, чем точек из любого другого
класса j |
Ф і (/ = 1, 2, |
k). |
При двух классах и нечетном к этот метод наиболее хорошо изу |
||
чен [12] |
и обязательно относит точку Z к одному из классов. |
2) В зависимости от объемов т* обучающих выборок класса і выби раются числа к ;:
— около точки Z для каждого і строится окрестность vz (р() наи меньшего радиуса р; такая, что она содержит не менее к* точек из обу чающей выборки класса і. Заметим, что определенный таким образом радиус р; является величиной случайной;
— точка Z относится к тому классу і, для которого рг ^ pj (/ =
- 1, 2, ..., k).
3) По непараметрическим оценкам плотностей около точки Z и, сле довательно, по оценке функций бг (Z) (или разделяющих поверхностей), точка Z относится к одному из классов аналогично тому, как это дела лось в § 2 настоящей главы.
Приведем некоторые общие результаты, которые показывают сос тоятельность наиболее изученного метода классификации (метод 1) на два класса при к - ^ - о о и т = т 1 = т 2 ->-оо. Через / (U) обозна чим плотность распределения точек, принадлежащих к одному клас
су, а через ѵг — число точек обучающей последовательности, |
попав |
ших в область vz (г). |
|
Т е о р е м а 2 [11]. Если / (U) — непрерывная функция |
в точке |
Z и т J / (U)dU — оо при к ->- оо, т->- оо, то величина |
|
vz (f) |
|
Ѵг
тj f(U)dU
vz (r)
является состоятельной оценкой плотности / (U) в точке Z.
Для евклидова расстояния и сферы vz (г) аналогичные результаты получены в работе [14].
Если Ш]_ф т2 и точки обучающих |
последовательностей {Х;і} |
и |
||||
{Xj2} упорядочены в порядке возрастания расстояний |
р (Z, Хц), |
£ |
||||
р (Z, Xj2) от точки Z и взята k-я по расстоянию от |
Z точка X |
|||||
6 {Хц} U {Xjz}, |
то через т (т х) будем обозначать число точек из по |
|||||
следовательности |
{Хгі}, с меньшими |
(не большими) чем р (X , Z) рас |
||||
стояниями до Z, |
а через п (т2) — число таких же точек из последова |
|||||
тельности {Xj2}. В этом случае справедлива следующая теорема. |
|
|||||
Т е о р е м а |
3 |
[7]. Если плотности /х (U) и / 2 (П) разных классов |
||||
непрерывны в точке Z и число к = к |
(т1г т2) выбрано так, что к -> оо |
|||||
(к/тх) -> 0, (к /т2) |
0 при т1->- оо, |
т2 |
со (но при этом сг <; — -< |
46
, |
то величина |
т (тЛ |
состоятельной оценкой для отно |
||
< с 2), |
является |
||||
шения |
плотностей |
-гг—-. |
|
||
|
|
|
|
/2(Z) |
|
В случае, когда семейство плотностей {f (U | Ѳ)} параметрическое и |
|||||
fi (U) |
— f {U |
I |
иѲ /2 і(U) = f (U I |
Ѳ2), но используется непарамет |
|
рический критерий для классификации точки Z, известна [11]. |
|||||
Т е о р е м а |
4. |
|
Если для всех |
Ѳ и для почти всех U (по мере |
/ I 0)) оценка f (U) состоятельна для / (U | Ѳ), то правило классифи кации
HU 1Ѳх)
1Ѳа) |
|
|
|
L (с) состоятельно над семейством |
{/ (U | |
0)}. С помощью теоремы 2 |
|
в работе [7] строится состоятельная |
оценка |
для |
(U) (і = 1, 2) (ме |
тод 2) |
|
|
|
кг— 1
U U )
ЩРІ ’
где р — размерность каждого наблюдения, а к* — фиксированное чис ло точек в области vz (р0-
В этом случае f t (U) — асимптотически несмещенная (при т г ->- оо) оценка /у (U) и ее можно использовать для оценки отношения плотностей.
Если области vz (рг) различны для распределений fx (U) и для / 2 (U), а рг такие, что в область vz (рг) попадает равно к х и к 2 точек последо
вательностей {Хп } и {Xj2}, |
объемов тх и т2, то |
h ( Z ) |
(ki— 1Дт8 / p ^ p |
f2 (Z) |
(k2— 1 ) т Д р і 7 |
является состоятельной |
оценкой отношения правдоподобия в точ |
ке Z. |
k2 это правило совпадает с известным [11] при |
При тх = т2 и kj = |
к= 2кі — 1 (метод 1).
Вработе [7] предлагается выбирать величину
4
к; = т 4.+р
1 I
для т1 = т2. Отличаясь от параметрических методов меньшими тре бованиями на плотности, локальный метод имеет ряд существенных не достатков. Отметим лишь некоторые из них:
при оценке отношения правдоподобия fx (U)/f2 (U) используются лишь точки, входящие в уменьшающуюся с ростом min {ть /п2} ок рестность классифицируемой точки Z. Это приводит к тому, что по рядок сближения (при min {т1, т 2} о о ) этого метода с наилучшим (основанном на fx (U)/f2 (U)) хуже, чем для параметрических проце дур, которые используют все данные обучения при классификации точки Z;
локальный метод классификации требует большей вычислительной работы при классификации новых данных, чем при параметрическом
47