Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 81

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Можно показать, что предполагаемый метод асимптотически подо­ бен методу максимального правдоподобия. Кроме этого он легко обоб­ щается на случай, когда потери от ошибок классификации разные.

б) Классификация, основанная на оценке дискриминантной функции

При классификации объектов на два класса можно использовать дру­ гой способ, а именно строить разделяющую поверхность с помощью отношения правдоподобия.

Пусть Х хі, Х 2І, ..., Х т.і (і = 1, 2) обучающие последовательности

из р-мерных нормальных совокупностей с разными неизвестными сред­ ними аъ а2 и одинаковыми, но неизвестными ковариационными ма­

трицами 2. Используя оценки средних значений аг= — 2 Х ц и оцен-

т /= 1

ку общей ковариационной матрицы

z т-

1

[т1-\-т2— 2 £ = 1 /=1

мы можем подставить их вместо неизвестных значений в отношение правдоподобия. В этом случае получим, как было показано в преды­ дущем параграфе, линейную разделяющую поверхность (оценку ди­ скриминантной функции)

б12= К ' % ~ Х(ах — а2) ---- Y {âi сг2)'

(аі ~

а2) + с,

где параметр с выбирается в зависимости от вероятностей

ошибок клас­

сификации. Для равных вероятностей ошибок классификации пара­ метр с = 0.

Известно [1], что при тх — оо и т2->■ °о предельным распределе­

нием для б42 при с = 0 будет

 

N ( — р, р ], если U — X £ N (аг, 2 )

и ЛМ------ р, р ), если U =

= : х \ м ( а 2, ^ ) ,

2

где р — расстояние Махалонобиса между классами, т. е.

р = (Сі—а2у 2 " 1(ах—а2).

Это означает, что при достаточно больших mt (і — 1, 2) вероятность неправильной классификации наблюдения X £ .V (аг,2) будет за­ даваться приближенным соотношением

X-

CL \ —f—(X 2

2 1 ( а ! — â 2) < 0 I « Ф (у),

 

где

 

Ѵ р

 

\_

 

У =

+ о

 

2

ГПі

 

 

 

Ф (у) — функция

распределения

стандартного нормального зако­

на [8].

 

 

 

 

43


В работе [6] доказано, что разделяющую поверхность можно пере­ двигать до тех пор, пока ошибки классификации обучающих последо­ вательностей не сравняются. Правда, это доказательство существен­ но опирается на предположения о нормальности распределений и о ра­ венстве ковариационных матриц. Кроме этого предполагается, что объемы обучающих последовательностей одинаковы (mx = т2).

Доказано, что точка z0 — пересечения поверхности 612 с прямой, сое­ диняющей центры классов а± и а2 при т1 = т2 -э- оо распределена

по нормальному закону со средним значением Mz0 = ai^ fl- и дис-

Персией

а количество ошибочно классифицируемых точек v (z0) при т1 оо нормально со средним

и дисперсией

Можно, по-видимому, показать, что такой метод улучшения поло­ жения делящей поверхности L (с)-состоятелен над семейством нор­ мальных распределений с одинаковыми ковариационными матрицами и разными средними.

Аналогичные результаты справедливы для числа классов k >. 2. Привлекательность линейной классификации привела к тому, что в работе [10] линейная классификация применяется и для разделения

нормальных совокупностей с разными ковариационными матрицами. В работе [3] предлагается распространить этот метод для классифика­ ции совокупностей с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. Известно [3], однако, что методы линейной классификации не являются L (с)-состоятельными уже над семейством нормальных распределений с разными средними и разными ковариационными матрицами.2

2.Непараметрические методы классификации

Внастоящем параграфе рассматриваются методы оценки илотносстей и методы классификации наблюдений, не предполагающие извест­ ных (с точностью до параметров) плотностей наблюдений, принадлежа­ щих к разным классам. Однако мы будем предполагать наличие обу­ чающих выборок из каждого класса. В параметрических задачах клас­ сификации эти выборки служили для оценки неизвестных параметров

44

плотностей, т. е. для оценок самих этих плотностей. В непараметри­ ческих задачах они необходимы также для оценки плотностей, только теперь это будут так называемые непараметрические оценки плотно­ стей, в некотором смысле — многомерный аналог гистограммы.

Методы классификации, опирающиеся на эти оценки, как и в ра­ боте [7] будем называть локальными, так как отнесение наблюдения Z к тому или иному классу будет зависеть от ближайших к нему точек обучающих последовательно­ стей. Поэтому требуются дополнительные предположения относительно понятия близо­ сти наблюдаемых точек.

а) Методы, использующие понятие близости. Понятие близости можно задавать, на­ пример, следующим образом. Определим в пространстве на­

блюдаемых признаков

X' —

= (х1-1), х<2>,

...,

х<р>) некото­

рую

окрестность

ѵ0

точки

О =

(0, 0, ..,

0).

 

 

Задаваясь

произвольным

действительным числом г > 0 и сопоставляя каждой точке U из окрестности нуля ѵ0точ­ ку rlI,— (rud-'>, ги<?\ ..., г«(р>),

мы получим отображение ок­ рестности ѵ0 в некоторую по­ добную ей окрестность ѵ0 (г). Меняя г, будем иметь систему подобных окрестностей {п0 (г)} около точки 0. Тогда для

произвольной точки Z при заданном виде окрестности нуля ѵ0 можно рассмотреть соответствующие подобные окрестности (см. рис. 1.6).

vz {r) = {rU+ Z, и е М-

Таким образом, очевидно, что при заданных ѵ 0и Z для любой р-мерной точки факторного пространства X £ X можно определить множество действительных чисел Rx таких, что если только г■£ R x , то X £ vz(r).

Соответственно полагают, что из двух точек X и Y точка X располо­ жена ближе к точке Z (в смысле окрестности ѵ0), чем точка Y, если min Rx < min R Y-

Обычно понятие близости точек наиболее естественно вводится через расстояние р (X, Z) в пространстве признаков. В этом случае области ѵ2 (г) превращаются в систему «сфер» радиуса г и центром в точке Z.

Приведем вначале несколько способов классификации объекта Z, а затем остановимся более подробно на различных локальных оценках плотностей и отношений правдоподобия в точке Z, на основании ко­ торых производится классификация.

45


Методы классификации точки Z могут состоять в следующем.

1) В зависимости от объемов обучающих выборок определяется число к:

•— рассматривается к ближайших k Z точек из обучающих выборок;

— точка г относится к тому классу і, из которого в числе к ближай­ ших точек присутствует больше точек, чем точек из любого другого

класса j

Ф і (/ = 1, 2,

k).

При двух классах и нечетном к этот метод наиболее хорошо изу­

чен [12]

и обязательно относит точку Z к одному из классов.

2) В зависимости от объемов т* обучающих выборок класса і выби­ раются числа к ;:

— около точки Z для каждого і строится окрестность vz (р() наи­ меньшего радиуса р; такая, что она содержит не менее к* точек из обу­ чающей выборки класса і. Заметим, что определенный таким образом радиус р; является величиной случайной;

— точка Z относится к тому классу і, для которого рг ^ pj (/ =

- 1, 2, ..., k).

3) По непараметрическим оценкам плотностей около точки Z и, сле­ довательно, по оценке функций бг (Z) (или разделяющих поверхностей), точка Z относится к одному из классов аналогично тому, как это дела­ лось в § 2 настоящей главы.

Приведем некоторые общие результаты, которые показывают сос­ тоятельность наиболее изученного метода классификации (метод 1) на два класса при к - ^ - о о и т = т 1 = т 2 ->-оо. Через / (U) обозна­ чим плотность распределения точек, принадлежащих к одному клас­

су, а через ѵг — число точек обучающей последовательности,

попав­

ших в область vz (г).

 

Т е о р е м а 2 [11]. Если / (U) — непрерывная функция

в точке

Z и т J / (U)dU оо при к ->- оо, т->- оо, то величина

 

vz (f)

 

Ѵг

тj f(U)dU

vz (r)

является состоятельной оценкой плотности / (U) в точке Z.

Для евклидова расстояния и сферы vz (г) аналогичные результаты получены в работе [14].

Если Ш]_ф т2 и точки обучающих

последовательностей {Х;і}

и

{Xj2} упорядочены в порядке возрастания расстояний

р (Z, Хц),

£

р (Z, Xj2) от точки Z и взята k-я по расстоянию от

Z точка X

6 {Хц} U {Xjz},

то через т (т х) будем обозначать число точек из по­

следовательности

{Хгі}, с меньшими

(не большими) чем р (X , Z) рас­

стояниями до Z,

а через п (т2) — число таких же точек из последова­

тельности {Xj2}. В этом случае справедлива следующая теорема.

 

Т е о р е м а

3

[7]. Если плотности /х (U) и / 2 (П) разных классов

непрерывны в точке Z и число к = к

(т1г т2) выбрано так, что к -> оо

(к/тх) -> 0, (к /т2)

0 при т1->- оо,

т2

со (но при этом сг <; — -<

46


,

то величина

т (тЛ

состоятельной оценкой для отно­

< с 2),

является

шения

плотностей

-гг—-.

 

 

 

 

 

/2(Z)

 

В случае, когда семейство плотностей {f (U | Ѳ)} параметрическое и

fi (U)

— f {U

I

иѲ /2 і(U) = f (U I

Ѳ2), но используется непарамет­

рический критерий для классификации точки Z, известна [11].

Т е о р е м а

4.

 

Если для всех

Ѳ и для почти всех U (по мере

/ I 0)) оценка f (U) состоятельна для / (U | Ѳ), то правило классифи­ кации

HU 1Ѳх)

1Ѳа)

 

 

 

L (с) состоятельно над семейством

{/ (U |

0)}. С помощью теоремы 2

в работе [7] строится состоятельная

оценка

для

(U) (і = 1, 2) (ме­

тод 2)

 

 

 

кг— 1

U U )

ЩРІ

где р — размерность каждого наблюдения, а к* — фиксированное чис­ ло точек в области vz (р0-

В этом случае f t (U) — асимптотически несмещенная (при т г ->- оо) оценка /у (U) и ее можно использовать для оценки отношения плотностей.

Если области vz (рг) различны для распределений fx (U) и для / 2 (U), а рг такие, что в область vz (рг) попадает равно к х и к 2 точек последо­

вательностей {Хп } и {Xj2},

объемов тх и т2, то

h ( Z )

(ki— 1Дт8 / p ^ p

f2 (Z)

(k2— 1 ) т Д р і 7

является состоятельной

оценкой отношения правдоподобия в точ­

ке Z.

k2 это правило совпадает с известным [11] при

При тх = т2 и kj =

к= 2кі — 1 (метод 1).

Вработе [7] предлагается выбирать величину

4

к; = т 4.+р

1 I

для т1 = т2. Отличаясь от параметрических методов меньшими тре­ бованиями на плотности, локальный метод имеет ряд существенных не­ достатков. Отметим лишь некоторые из них:

при оценке отношения правдоподобия fx (U)/f2 (U) используются лишь точки, входящие в уменьшающуюся с ростом min {ть /п2} ок­ рестность классифицируемой точки Z. Это приводит к тому, что по­ рядок сближения (при min {т1, т 2} о о ) этого метода с наилучшим (основанном на fx (U)/f2 (U)) хуже, чем для параметрических проце­ дур, которые используют все данные обучения при классификации точки Z;

локальный метод классификации требует большей вычислительной работы при классификации новых данных, чем при параметрическом

47