Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 99

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

понимается обобщенная средняя мера рассеяния, характеризующая класс Si. Числовой параметр г здесь, как и прежде, выбирается по ус­ мотрению исследователя.

Полагая

 

 

 

1

 

 

2

 

 

QrK) (X)

 

V

 

Г

 

 

 

 

Pr(X, X,)

 

 

 

.v ffl xyes (X)

 

 

 

где, как

и прежде, S(X) — кластер, в который

входит наблюдение X,

а V (X) —число элементов в кластере S, (X),

формулу (3.19) можно

переписать в виде

 

 

 

 

 

 

 

/ y ” (S) = M M K>(x,).......Qj'1'

 

 

 

-п 2і= 1

 

 

2

?r(Xi,

x t)

(3.20)

 

 

 

Xj 6s ^Xj)

 

 

 

При конструировании и сравнении различных кластер-процедур

полезно

иметь в виду, что

объединение двух кластеров

S t и S m

в один дает прирост величины п [/*к) (S)]r, непосредственно характе­ ризующей среднюю меру внутриклассового рассеяния, равный

А [п (/<*>)'] =

 

{2 [p<K)(S„

5 J ] 2-

 

 

 

Пі+пт

 

 

 

- [ Q ^

(50]r-[Q < K)(Sm)]rj.

 

Очевидно, если ориентироваться на сокращение числа кластеров

при наименьших

потерях

в

отношении внутриклассового

рассеи­

вания, не обращая внимания

на меру концентрации, то естественно

объединять два

кластера,

для которых

минимальна

величина

А (п [/^ К ). Если же одновременно ориентироваться и на рост взвешен­ ной концентрации Z^S), то объединение кластеров естественно под­ чинить требованию минимизации величины

а\п(ПК)у]

АZ i(S )

 

\2 [p<X )(St, S m ) ] ' -

( fr ) ]'- [(? < * > (fr»)]r }r

 

 

n i + n m

 

в)

Формулировка экстремальных задач разбиения

исходного мно

жества на классы.

 

 

В а р и а н т 1: комбинирование

функционалов качества. Требу­

ется найти такое разбиение S*, для

которого некоторая

алгебраиче­

ская комбинация функционала, характеризующего среднее внутри­ классовое рассеяние (3.20), и функционала, характеризующего меру концентрации полученной структуры (3.18), достигала бы своего экстремума. В качестве примеров можно привести комбинации Q (S)

92



и Q' (S), задаваемые формулами (3.16) и (3.17), а также более общие выражения вида

a -/i(S ) + ß/a(S) и

[MS)]«. [MS)]»,

(3.21);

где / і (S) •= IrK) (S),

/ 2( S ) - - ^ - ,

 

 

а а и ß — некоторые положительные константы, например, а =

ß = 1.

В а р и а н т 2:

двойственная

формулировка. Требуется

найти

разбиение S*, которое, обладая концентрацией ZT (S*), не меньшей

заданного порогового значения Z0, давало бы наименьшее внутриклас­

совое рассеяние l)K) (S*) или в двойственной подстановке: при задан­ ном пороговом значении / 0 найти разбиение S* с внутриклассовым

рассеянием l (rK) (S'*) =£7 /0 и наибольшей концентрацией ZT(5*).

г) Функционалы качества и необходимые условия оптимальност разбиения. Естественно попытаться проследить, в какой мере выбор того или иного вида функционала качества определяет класс раз­ биений, в котором следует искать оптимальное. Приведем здесь неко­

торые результаты, устанавливающие такого рода соответствие.

Будем

У т в е р ж д е н и е

1: для функционалов типа Qx

(3.11).

предполагать используемую метрику евклидовой.

Обозначим

через

Е = (Еи ..., Ek) группу

из

k р-мерных векторов Е} (/ =

1,

.... k),

а через S (Е) = (5Х(Е),

...,

S k (Е)) — так называемое

минимальное-

дистанционное разбиение, порождаемое точками

Е =

(Е1г ..., Eh).

А именно,

 

 

 

 

 

 

S 1(E)=--{X:p(X,E1) ^ p ( X , E j), j = 2,

..., k),

 

 

S2 (E) = S, (E) П {X : p (X, E2) < p (X, £,).

j Ф 2},

 

 

•5ft (E) = 5 X(E) f| ... n V

i ( E ) n { ^ P ( ^ g < f №

£ i ) ,

ІФ Щ К

Таким образом, класс Sj (E) состоит из тех точек пространства X,. которые ближе к Ej, чем ко всем остальным Et (і Ф j). Если для не­ которых точек из X самыми близкими являются сразу несколько век­ торов Ej (/ = 1, ...,&), то мы относим эти точки к классу с минималь­ ным индексом.

Разбиение S = (Sx, ..., Sk) называется несмещенным разбиением, если это разбиение с точностью до множеств меры нуль совпадает с минимальным дистанционным разбиением, порождаемым векторами

средних

Х г =

j* ХР (dX), где Р( = J Р (dX).

В работе

 

1 h

sj

[33] показано, что минимальное значение функционала:

Qi (5) =

k

Л

р2 (X,

--

^

\

Х[) Р (dX) достигается только на несмещенных

/= і

1Здесь и в дальнейшем S, означает дополнение множества S, до всего про­ странства X, т. е. совокупность всех наблюдений (элементов пространства X), не входящих в состав Sj.

93.


разбиениях. Это означает, что оптимальное разбиение обязательно должно быть несмещенным.

У т в е р ж д е н и е 2: для функционалов от разбиений на два класса. Следующее утверждение относится к довольно широкому классу функционалов качества разбиения совокупности на два класса. Разбиение на два класса может быть задано с помощью так называе­ мой разделяющей функции. А именно, точки пространства X, на кото­ рых разделяющая функция принимает неотрицательное значение, относятся к одному классу, а остальные — к другому. Поэтому поиск класса оптимальных разбиений в этом случае эквивалентен поиску класса оптимальных разделяющих функций.

Для иллюстрации дальнейшего изложения будем рассматривать вероятностную модификацию функционала Q' (3.14).

Пусть расстояние р (X, Y) задается с помощью соотношения (3.3) потенциальной функцией вида

К(Х, ¥)=-- I! Я?Фі(Х)Фі(У),

і= 1

где фі (X) (г = 1, ..., N) — некоторая система функции на X. Функционал Qj через потенциальную функцию К (X, Y) выража­

ется следующим образом:

Q’a(S) = 2 [ K ( X , X ) P ( d X ) - 2 ± SS K ( X . Y ) P ( d X ) P ( d Y ) -

X И 1 s,s,

- 2 - J - S ü K(X,Y)P(dX)P(dY).

Fi s2s„

Поскольку в правой части этого равенства первый интеграл не зави­ сит от разбиения, то минимум функционала Q' (5) достигается на тех разбиениях, на которых функционал

Q2(S )= -J -$ S K(X,Y)P(dX)P(dY) +

F i

s,s,

+ - S

S K(X,Y)P(dX)P(dY)

s2

 

достигает максимума.

Введем в рассмотрение спрямляющее пространство Z, коор­

динаты

векторов

Z £ Z

которого

определяются соотношениями

 

 

zU) - ^

Фг (X)

(і =

1, ..., N).

 

 

В спрямляющем

пространстве Z

вероятностной

мерой Р,

заданной

в исходном пространстве X, индуцируется своя вероятностная мера

Д(2). Однако в

целях

упрощения обозначений

мы будем

опускать

.94


верхний индекс Z

у этой новой меры. Что касается функционала-

Q2 (S), то в спрямляющем пространстве он примет вид

QAS)

\ ZP (dZ)

J -K z P (d Z )

Пусть

р[

Ls2

 

 

 

 

M<v>=

5 Z*P(dZ) (v =0,

1,

r; t = 1, 2).

 

s;

 

 

Здесь Z2i — \{Z, Z)]i— числа, Z2i+ l r=[(Z, Z)]i Z —векторы.

В работе [7] формулируется утверждение,

устанавливающее класс

функций в спрямляющем пространстве Z, среди которых следует ис­ кать разделяющую функцию, доставляющую экстремум функционалу качества разбиения. А именно, показано, что если функционал ка­

чества Ф является дифференцируемой функцией от М(г-Ѵ) (ѵ =1, ..., г),. а вероятностное распределение Д 2* сосредоточено на ограниченном множестве Z и обладает непрерывной плотностью, то если экстремум функционала Ф достигается на некоторой разделяющей функции,, то этот же экстремум достигается на разделяющей функции, являю­ щейся полиномом г-й степени вида:

f(Z)= І (сѵ, г*),

ѵ = і

где

дФ _ дФ дш[ѵ) ам^ѵ) ’

а (сѵ, Zv), означает при четном ѵ произведение чисел сѵ и Zv, а при не­ четном V — скалярное произведение векторов сѵ и Zv.

Для функционала Q' сформулированное означает, что класс раз­ деляющих функций, среди которых надо искать наилучшее в спрям­ ляющем пространстве разбиение, имеет вид

f(Z) = (c,

Z)

а,

 

 

 

_ ÖQI

dQl

t= 2 1Ml

- M2

(3.22);

дМі

ÖM2

 

 

 

P2

 

dQi

ÖQ2 _

f MlV

(

■M2

 

df\

ÖP2

U i )

I

Рг

 

Мі = МІ1) (і =

1,2).

 

 

 

Класс разделяющих функций в спрямляющем пространстве очевидным: образом определяет класс разделяющих функций в исходном простран­ стве X.

Если К (X , Y) = (X, Y) является скалярным произведением век­ торов X и Y, то спрямляющее постранство Z совпадает с исходным

95.