Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 78

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

k

1 для любого і. Поэтому часто

Мы воспользовались тем, что 2 Р Q/i) =

/=і

неправильной классификации

говорят не о потерях, а о вероятности

или об ошибках классификации. Меняя правила разбиения области X на подобласти S lt S 2, S 3, мы можем изменять относительные потери, добиваясь их минимума, или уменьшать ошибки неправильной класси­ фикации.

Таким образом, в нашем примере каждый класс і был связан с на­ бором измеряемых признаков известной функцией /у (U). Предпола­ галась известной также вероятность встретить объект г-го класса при случайном извлечении изделия из всей совокупности, кроме этого, счи­ талось возможным численное определение потерь С Q/i), возникающих при отнесении изделия к /-му классу, в то время как оно в действитель­ ности принадлежит к классу і.

1.Постановка задачи

втерминах статистических решающих правил

Говоря о полностью описанных классах, мы будем предполагать что известны:

1) fi (U) — плотности распределения вероятностей исследуемого признака в предположении, что соответствующие наблюдения произ­ водятся в пределах і-го класса = 1, 2, ..., k)\

2)

n t — априорные вероятности классов | Е яі = і |;

3)

С Q/i) — потери, которые происходят при отнесении наблюдения

из класса і к классу j (і, j = 1, 2, ..., k).

Таким образом, произвольное наблюдение X; может быть интерпре­ тировано как наблюдение из генеральной совокупности, описываемой смесью k классов с плотностью вероятностей

h ( U ) = I i ni f l (U),

і= 1

где

U принадлежит некоторой

области X р-мерного пространства,

а именно X = {U : h (U) Ф 0}.

 

 

 

Пусть ф (U) однозначные функции на X, принимающие только k

значений. Обозначим их dlt

d2,

...,

dh. В этом случае знщ^нию dt =

=

ф (Х г) мы приписываем

смысл

решения: отнести наблюдение X;

к классу і. Такие функции обычно называются решающими. Очевидно, каждая такая решающая функция ф (U) определяет раз-

биение множества X на k подмножеств Slt S 2, ■■■, S k и S t = {U : ф (U) = = dt}. Вместо множества решающих функций ф (U) можно рассматри­

вать множество всевозможных разбиений S =

{S1( S 2,

..., S h} области

X на подмножества1 Sx, ..., S h такие, что S t

П Sj = 0

и X =

k

U S t.

—--------------

использована общепринятая теоретико-множественная

 

i=i

1 Здесь

символика:

под А П В,

наряду с AB, понимается пересечение областей А и В,

под

k

|J Sj ==

= S1U,S2U>

 

 

 

 

І—1

U Sft — объединение, теоретико-множественная сумма областей

Sj, S2, ..., S/г, а под 0 — так называемое пустое множество.

 

 

 

2 Зак. 358

33


Так как каждому разбиению 5 можно поставить в соотвётствие решаю­ щую функцию cp (U), а каждой функции ф (U) можно поставить в соот­ ветствие разбиение S, то эти задачи являются эквивалентными.

Зафиксируем некоторую функцию ф (U) и рассмотрим средние потери.

Очевидно, для наблюдений, принадлежащих к і-му классу, матема­ тическое ожидание потерь для заданного решающего правила ф (U) будет равно

 

 

С

}* = 2{

ф $

c a \ i ) f i ( U ) d u .

 

 

 

/=і U:v(U)=d.}

 

 

Соответственно средние потери будут равны

 

k

 

 

k

 

 

С{ф}

=2

Сі {ф} Я; - -

V

 

2 щ с ц \ і ) и а и ) dU,

 

 

 

/=1 U:ф (U)=d.

t = i

 

і= 1

 

 

так как наугад выбранное наблюдение

принадлежит классу і с ве­

роятностью я ;.

 

 

 

 

 

Если мы хотим так классифицировать наблюдения {XJ, чтобы сред­ ние потери были минимальными, то нам следует так решать задачу вы­

бора функции ф (U) (разбиения S =

{Sb ..., S k} множества X), чтобы

свести к минимуму величину С {ф}.

 

Если нам удалось найти такую функцию ф* (U) (такое разбиение

S* = {Sf, SI, ..., S|}), что С* {ф} = min С (ф), то говорят, что найде-

ф

но байесово решение задачи классификации, или байесово решающее правило.

Принципиальное решение задачи построения байесовских решаю­ щих правил известно [1], [8].

Оказывается,

области

классификации S*, Sf, ..., S |(S ! П S* = 0

при і Ф / и S*

U 51 U

••• U St = X), при которых математическое

ожидание потерь минимально, определяются следующим образом: область Sm состоит из тех точек U, для которых

 

2 nt f t ( U ) C ( m \ i ) < 2

пі fi (U) С (j 1i)

i=l

 

 

/=1

 

i

 

 

i фi

 

 

 

j = 1, 2, ... ,k\

j Ф m.

 

Другой,

эквивалентный

в смысле

потерь

способ состоит в том,

что для наблюдения Хі (/ =

1, ...,

п)

вычисляется величина

 

 

k

щ fi (X,) с а I і) (/

 

 

бЛХ) =

2

, k)

и Хі относится к классу і0, если бг

(Xi) =m ax б7- (Хг). Выбор того или

иного способа построения областей

S t зависит от конкретных усло­

вий задачи.

 

 

 

 

 

 

34


Особенно простой вид решение задачи приобретает, когда потери от

неправильной классификации одинаковы, т. е.,

скажем, С (/ | і) = 1

при і Ф j и С (/ ]

і) = 0 при і /.

В этом случае решение отнести Х г

к классу і0 будет сделано тогда, когда

 

 

 

 

n i0f i 0(x i)=-

max n j f j i X ) ,

 

 

 

 

 

 

К /

 

 

т. е. я, f, (

X

A ^ z

i

i или

иначе

^ А :;д

! о' го'

и

1 4 х

 

 

 

fj(Xi)

Яіо

ИЛИ

 

 

 

ТСj

 

 

 

 

 

Piо № )

^

 

 

 

 

 

ln — для всех / == 1.......k.

 

 

Pj (X/)

 

ъ*о

 

 

 

2. Решающие правила в случае нормальных классов

Предположим, что плотности / г (£/) нормальны с разными средними п, но с одинаковыми ковариационными матрицами 2, т. е. / г (//) 6 6 А (йг, 2). В случае, когда потери от неправильной классификации равны между собой, области S* определяются из условия

S? = { U : \n h ^ l - - =

U-

•(aj + üi) 2 -1 [aj — ai\ >

]

U (U)

 

 

 

 

 

ТС'

для

і = 1 ,...,k, Іф}

\

.

 

> 1 п —

 

П)

Это означает, что границы областей, задаваемые так называемыми дискриминантными функциями, имеют вид гиперплоскостей в исследуе­ мом р-мерном факторном пространстве, а соответственно сами дискри­ минантные функции линейны.

Аналогично поступают и в случае, когда априорные вероятности я г- неизвестны. В этом случае рассматриваются дискриминантные функ­ ции (и соответствующие им плоскости) вида

Ы Ѵ ) "

и -

(aj + at)

 

at)— Cj + ct = 0 .

При этом область Sj (/ =

1,2, ...,

k) формируется из тех точек U, для

которых 8л (U) ^

0 при всех і =

1, 2,

..., k\ і Ф j, т. е.

5 / = { г /:б Уі(£ /)^ 0 , / =

1, 2,..., А; £=И=/}.

Постоянные ct и с;-, входящие в уравнение дискриминантной функ­ ции, определяются так, чтобы средние потери (Сг и Су), возникающие при классификации объектов соответственно і-го и /-го классов, были

бы

равны между собой. Напомним, что средние потери С{=

k

С (v)/)P (ѵ I /). Учитывая постулированное ранее взаимное равенст-

= 2

Ѵ=1

во потерь С (ѵ I /), легко понять, что это требование равносильно такому

определению констант с* и с;-, при котором оказываются равными меж­ ду собой вероятности P (j\j) правильной классификации объектов /-го класса.

2*

35


Для реализации этого подхода используют тот факт, что (k— ^-мер­ ные случайные векторы-столбцы 8j-(X), компонентами которых явля­ ются (k — 1) случайные величины б7-г (X ) + Cjct= 1,2, ..., k), но

ф /), имеют нормальную плотность распределения /у (иР\ ..., и**-1')

скомпонентами вектора средних значений вида

=-^-{аі — аі) ' ^ г 1{а}~ а і) -- 1, 2 ,..., /г; но іф})

иэлементами ковариационной матрицы вида

й і У ^ і а } — üi) (г, I --1,2, ... , k; но іф-j и l=f=j).

Поэтому константы сг и Cj, в конечном счете, определяются из ус­ ловия взаимного равенства величин

оо оо со оо

P( j \ i ) =

 

S

 

.

7. ( . 1)z > ( z

( V $

.

С .Г.

с .С . .

С .С . 1 ,

с .— г ,

 

 

j

1

j .»-I

; J+ 1

з

А

 

 

X d z il)

При разных ковариационных матрицах классов и разных векторах средних значений используется аналогичный подход, который приво­ дит, правда к нелинейным (квадратичным) дискриминантным функциям и соответствующим наилучшим граничным поверхностям. В частности, решение вопроса об отнесении точки U к /-му классу (области Sj) про­ изводится с помощью функций

б, (U) =

ln I 2,-1-

\ { U - a }y 2 “1 (U - aj) +

ln я7,

если лу известны, и с помощью

функций öj (U) = — j (U

(U

üj) + Cj, если априорные вероятности лу неизвестны. Это показы­ вает, что границы наилучших областей состоят из кусков поверхно­ стей второго порядка. Константы можно определить из тех же со­ ображений, что и выше, только более громоздким образом.

3. Метод классификации наблюдения, не принадлежащего к одному из известных классов

На практике следует учитывать ситуации, в которых наблюдение X может не принадлежать ни к одному из известных классов. Однако об­ щей теории, которая бы включала эту возможность, до сих пор нет. Более того, иногда нет возможности приписать априорную вероят­ ность новому классу и оценить потерю от пропуска нового класса, т. е. потери от отнесения наблюдения из нового, неизвестного класса к ка­ кому-либо ранее известному классу. Но все-таки некоторые частные случаи этой общей ситуации можно исследовать.

Пусть число классов k

= 2 и они нормальны со средними аг и а2,

и ковариационными матрицами

= 2 2 =

2 . Тогда имеется возмож-

-ность проверить гипотезу о том, что

 

X £ N

аг-f-

а2, 2)>

~Ь ^2 ~ 1 •

36