Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 98

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором опера­ ция суммирования Wl по классам заменена операцией умножения

QAS)= П (det W $ l . i=1

Как видно из формул (3.12 и 3.13), функционал Q3 (5) является средней арифметической (по всем классам) характеристикой обобщен­ ной внутриклассовой дисперсии, в то время как функционал Qi (S) пропорционален средней геометрической характеристике тех же ве­ личин.

Заметим, что использование функционалов Q3 (S) и Q4(S) является особенно уместным в ситуациях, при которых исследователь, в первую очередь, задается вопросом: не сосредоточены ли наблюдения, разби­ тые на классы S4, S 2, ..., S h, в пространстве размерности меньшей, чем р?

З а м е ч а н и е . При вероятностной модификации схем кластеранализа соответственно видоизменится запись приведенных выше функционалов. Так, например,

Q I ( S ) = 2 } p*(X,X(i))P(dX),

!= 1S(

где

 

 

X (/) = —

\

XP(dX)

 

 

 

 

К

Р (S,) ;)

'

 

или

 

 

 

 

 

 

 

 

Qa(S)= І

-

1-

И

Р*(X,Y)P(dX)P(dY).

(3.14)

 

1=

1 F

\bl ) s l S l

 

 

 

а)

Общий вид функционала качества разбиения, как функции ряда

параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом: нельзя ли выделить такой достаточно полный набор величин «i(S), u2(S),..., характеризую­ щих как межклассовую, так и внутриклассовую структуру наблюде­ ний при каждом фиксированном разбиении на классы S, чтобы су­ ществовала некоторая функция Q (щ, и2, ...) от этих величин, которую мы могли бы считать в каком-то смысле универсальной характеристи­

кой

качества разбиения.

В частности, в качестве таких величин

щ =

щ (S), и2 = и2 (S), ...

можно рассмотреть, например, некоторые

числовые характеристики: степени близости элементов внутри клас­ сов (ы4); степени удаленности классов друг от друга (и2); степени «оди­ наковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифи­ цируемых наблюдений п по классам (м4).

Что касается установления общего вида функции Q (щ, и2, и3, м4), то без введения дополнительной априорной информации о наблю­ дениях Х і (характере и общем виде их закона распределения внутри

87


классов и т. п.) единственным возможным подходом в решении этой задачи, как нам представляется, является экспертно-эксперименталь­ ное исследование. Именно с этих позиций в [12] сделана попытка опре­ деления общего вида функции Q. Чтобы определить рассмотренные в этой работе величины иъ и2, и3 и «4, введем понятие кратчайшего не­ замкнутого пути (КИП), соединяющего все п точек исходной сово­ купности в связный неориентированный графе минимальной суммарной длиной ребер1. Под длиной ребра понимается расстояние между соот­ ветствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с пары наиболее близких точек. Если таких пар несколько, то выбирается любая из этих пар. Пусть это будут наблюдения с номерами і0 и /0. Затем с помощью срав­

нения расстояний p(X;o, Xj)(j=-- 1,2,..., гг, /

 

/0, /Ѵ=/0) и p (X io, X q),

где

 

<7= 1,2,..., я;

д¥=і0 и

<7Ф /0

определяются

точки

Х т{іа)

и

^ т ( и )— наименее

удаленные

соответственно

от

точек

Х іо

и

Xjo и

выбирается

ближайшая

из них Х т , т.е.

Х то — Х ^ ^ ,

если

р (Х,^,

Хт

 

<С р (Х;д,

Х т и0))

и

Хтд X m{jo),

если

р(Х,-, Хт ( /о)Х р (Х г о, Хт ( го))2. Затем

точка

Х Шд „пристраивается“

к той из'точек X/

и Х/о, к

которой она

ближе. Далее сравнива­

ются

расстояния

 

 

 

 

 

 

 

 

 

 

 

Р {Хіо, Х }), р (Х/о, Х д) и р (Х,ѵ

Хѵ)(/, q, ѵ ф t0; j, q , v ^

j0 и j, q , v ^

mQ)

и T. Д. Очевидно, «разрубая»

s ребер такого графа,

мы будем делить

совокупность

на

s-j-1 классов.

графа,

отнесенной к /-му

классу.

 

Пусть

р;

(/) — і-е ребро части

Всего таких ребер, как легко видеть, будет пг — 1. И пусть pm]n (р) — минимальное из ребер, непосредственно примыкающих к ребру f> и относящихся к /-му классу, если таковое имеется. Занумеруем в оп­ ределенном порядке граничные, разрубленные ребра Я,1( таким образом, чтобы имелось взаимно-однозначное соответствие

между номерами граничных ребер и номерами примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. На рис. 3.2 представлено изображение кратчайшего незамкнутого пути. Выбрасывая ребра I, II, III, полу­ чаем четыре связных графа, что соответствует разбиению совокупности на четыре группы. Обозначим с помощью \ одно из таких ребер /-го класса.

1 Использование КНП в задачах классификации имеет длинную историю. Методы классификации, основанные на КНП, использовались для решения за­ дач в области антропологии, биологии, сельского хозяйства, лингвистики (см.,

например,

G z e k a n o w s k i

J. Zur DiHerentialdiagnose der Neandertalgruppe,

Kor-blatt

Dtsch.

Ges. Antrop.

1909, XL, s. 44—47; F 1 о r e k

K-, L u k a s -

z e w i c z J . ,

P e r k a l

H., S t e i n h a u s

H., Z u b z y c k i S .

Sur

la liaison

et la

division

des

points

d’un

ensemble fini.

Coli. Math., 1951,

2,

p. 282—285).

2

Если

p (X,o> Xm (i'0)) = p

(XjQ, Xm (/„))>

то в качестве X m

можно

выбрать

любую из точек Хт (ід) и Хт (/ ).

88


Теперь, следуя [12], мы опреде­

лим величины щ следующим обра­ зом:

k гг,

p W,

ш

 

где р (/)= ((4 V= 1

Рг(/)/

Кщ - 1 ] -

 

средняя длина ребер /-го класса;

 

 

*-1

 

k ~ 1 / = 1

Рис. 3.2. Графическое изображение кратчайшего незамкнутого пути

Эмпирический перебор различных вариантов общего вида функции Q в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [12] к следующей формуле:

(3.15)

где а, Ь, с и d — некоторые неотрицательные параметры, оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [12] отмечали хорошее согласие своих экспериментов с экспертными оценками при a = ö = c = d = 1.

Из смысла величины ut (і = 1,

2, 3, 4) следует, что лучшим раз­

биениям соответствуют большие

численные значения функционала

Q, так что в данном случае требуется найти такое разбиение S*, при ко-

тором Q (S*) = max Q (S ). s

Конечно, данный выбор количественного и качественного состава величин Ui и, в еще большей степени, их точное определение являются чисто эвристическими и подчас просто спорными. Это относится, в первую очередь, к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному ис­ пользованию функционалов, типа (3.15) в задачах кластер-анализа, но лишь как описание конкретного примера одного из возможных подходов при выборе функционалов качества разбиения.

б) Функционалы качества разбиения при неизвестном числе классов.

В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Хи Х ъ ..., Хп, функционалы качества разбиения Q (S ) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов Ix (S) и / 2 (S), один

89


из которых Іх является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй / 2 является возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала / 2 может быть различной. Под / 2 понимается иногда и некоторая мера взаимной удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассмат­ риваемого массива исходных наблюдений, и величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [41], например, предлагается брать

Л ( 5 ) = ѵ 2 Р(Х„ Х(/))

I = i x i esl

и

h (5) = ck (S),

где k (S) — число классов, получающихся при разбиении S, а с — некоторая положительная постоянная, характеризующая потери ис­ следователя при увеличении числа классов на единицу.

Другой вариант функционалов качества такого типа можно найти, например, в [10], где полагают

 

/і'(5) = — V

 

 

4

 

 

 

 

U

 

2

2

K( Xi >Xj ) >

 

 

 

k

i ( n j - l )f t Ji

 

 

 

 

К (S) =

 

І

У

r(st,s}).

 

 

 

 

k ( k - \ ) £

lf > i

 

 

Здесь

К (X ,

Y) — упомянутая

выше

потенциальная функция,

а г (Si,

Sj) — мера близости г-го и /-го классов, основанная на потен­

циальной функции (3.6).

 

мы будем искать разбиение S*,

мини­

Очевидно,

в первом случае

мизирующее значение функционала

 

 

 

 

 

 

Q (S)

= Д (S) +

/ 2 (S),

 

(3.16)

в то время как ео втором случае требуется найти разбиение S 0,

кото­

рое максимизировало бы значение функционала

 

 

 

Q'(S)

= /[(S ) +

/ ‘ (S).

 

(3.17)

Весьма гибкой и достаточно общей схемой, реализующей идею одновременного учета двух функционалов, нам представляется схема, предложенная А. Н. Колмогоровым (см. сноску к стр. 83). Эта схема опирается на понятия меры концентрации Zr(S) точек, соответствую­

щей разбиению S, и средней меры внутриклассового рассеяния l[K) (S), характеризующей то же разбиение S.

90


Под мерой концентрации Zr (S) предлагается понимать величину

Zr (S) = Мт(

ѵ(Хг)

ѵ (Xn)-

_L у

( v№) у

(3.18)

П !~

 

І= 1

 

 

где V ( X i ) — число элементов в кластере, содержащем точку X t , а выбор числового параметра г находится в распоряжении исследователя и за­ висит от конкретных целей разбиения. При выборе г полезно иметь в виду следующие частные случаи Zr (S):

 

 

 

 

Z-!(S)=

 

k

 

где

k —число различных кластеров в

разбиении S;

 

 

k

 

 

 

 

 

 

 

logZ0(S) =

'V] — log — — естественная

информационная мера кон-

 

 

/=1 п

 

п

 

 

 

 

 

 

 

центрации;

 

 

 

 

 

 

 

ZO0(S)=

шах

( —

 

 

 

 

 

 

 

 

1< i < k \ч n

I

 

 

 

 

 

Z—oo (5) min

(

)

 

 

 

 

 

 

 

l < г < k Vn

 

k

 

 

 

 

Z i ( S ) уh-

 

\ -

 

 

 

 

 

 

1

^ „2

 

 

 

 

 

~

„2

^

1

П ‘

 

 

 

 

 

 

"

i =

 

 

Заметим, что при любом г предложенная мера концентрации имеет

минимальное значение, равное , при разбиении исследуемого множе­

ства на п одноточечных кластеров и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер.

При конструировании и сравнении различных кластер-процедур полезно иметь в виду, что объединение двух кластеров 5 г и S m в один дает прирост меры концентрации Zx (S), равный

= - L [(Пі + nmf - « ? - ,& ] = ^

.

п 1

пг

Определение средней меры внутриклассового рассеяния l[K) (S) также опирается на понятие степенного среднего. В частности, пола­ гают

 

2

k

 

 

 

I (rK) (S) =

V

пі [ ^ К) (SJY

(3.19)

 

п i= l

 

где под

 

 

 

 

 

Q ^ (S ,) =

 

у

V

Pr { X } , X j )

 

 

 

 

 

2-e Si

xlGst

 

 

91