Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 98
Скачиваний: 0
Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором опера ция суммирования Wl по классам заменена операцией умножения
QAS)= П (det W $ l . i=1
Как видно из формул (3.12 и 3.13), функционал Q3 (5) является средней арифметической (по всем классам) характеристикой обобщен ной внутриклассовой дисперсии, в то время как функционал Qi (S) пропорционален средней геометрической характеристике тех же ве личин.
Заметим, что использование функционалов Q3 (S) и Q4(S) является особенно уместным в ситуациях, при которых исследователь, в первую очередь, задается вопросом: не сосредоточены ли наблюдения, разби тые на классы S4, S 2, ..., S h, в пространстве размерности меньшей, чем р?
З а м е ч а н и е . При вероятностной модификации схем кластеранализа соответственно видоизменится запись приведенных выше функционалов. Так, например,
Q I ( S ) = 2 } p*(X,X(i))P(dX),
!= 1S(
где
|
|
X (/) = — |
\ |
XP(dX) |
|
||
|
|
|
К |
Р (S,) ;) |
' |
|
|
или |
|
|
|
|
|
|
|
|
Qa(S)= І |
- |
1- |
И |
Р*(X,Y)P(dX)P(dY). |
(3.14) |
|
|
1= |
1 F |
\bl ) s l S l |
|
|
|
|
а) |
Общий вид функционала качества разбиения, как функции ряда |
параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом: нельзя ли выделить такой достаточно полный набор величин «i(S), u2(S),..., характеризую щих как межклассовую, так и внутриклассовую структуру наблюде ний при каждом фиксированном разбиении на классы S, чтобы су ществовала некоторая функция Q (щ, и2, ...) от этих величин, которую мы могли бы считать в каком-то смысле универсальной характеристи
кой |
качества разбиения. |
В частности, в качестве таких величин |
щ = |
щ (S), и2 = и2 (S), ... |
можно рассмотреть, например, некоторые |
числовые характеристики: степени близости элементов внутри клас сов (ы4); степени удаленности классов друг от друга (и2); степени «оди наковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифи цируемых наблюдений п по классам (м4).
Что касается установления общего вида функции Q (щ, и2, и3, м4), то без введения дополнительной априорной информации о наблю дениях Х і (характере и общем виде их закона распределения внутри
87
классов и т. п.) единственным возможным подходом в решении этой задачи, как нам представляется, является экспертно-эксперименталь ное исследование. Именно с этих позиций в [12] сделана попытка опре деления общего вида функции Q. Чтобы определить рассмотренные в этой работе величины иъ и2, и3 и «4, введем понятие кратчайшего не замкнутого пути (КИП), соединяющего все п точек исходной сово купности в связный неориентированный графе минимальной суммарной длиной ребер1. Под длиной ребра понимается расстояние между соот ветствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с пары наиболее близких точек. Если таких пар несколько, то выбирается любая из этих пар. Пусть это будут наблюдения с номерами і0 и /0. Затем с помощью срав
нения расстояний p(X;o, Xj)(j=-- 1,2,..., гг, / |
|
/0, /Ѵ=/0) и p (X io, X q), |
||||||||||||||
где |
|
<7= 1,2,..., я; |
д¥=і0 и |
<7Ф /0 |
определяются |
точки |
Х т{іа) |
|||||||||
и |
^ т ( и )— наименее |
удаленные |
соответственно |
от |
точек |
Х іо |
||||||||||
и |
Xjo и |
выбирается |
ближайшая |
из них Х т , т.е. |
Х то — Х ^ ^ , |
|||||||||||
если |
р (Х,^, |
Хт |
|
<С р (Х;д, |
Х т и0)) |
и |
Хтд —X m{jo), |
если |
||||||||
р(Х,-, Хт ( /о)Х р (Х г о, Хт ( го))2. Затем |
точка |
Х Шд „пристраивается“ |
||||||||||||||
к той из'точек X/ |
и Х/о, к |
которой она |
ближе. Далее сравнива |
|||||||||||||
ются |
расстояния |
|
|
|
|
|
|
|
|
|
|
|
||||
Р {Хіо, Х }), р (Х/о, Х д) и р (Х,ѵ |
Хѵ)(/, q, ѵ ф t0; j, q , v ^ |
j0 и j, q , v ^ |
mQ) |
|||||||||||||
и T. Д. Очевидно, «разрубая» |
s ребер такого графа, |
мы будем делить |
||||||||||||||
совокупность |
на |
s-j-1 классов. |
графа, |
отнесенной к /-му |
классу. |
|||||||||||
|
Пусть |
р; |
(/) — і-е ребро части |
Всего таких ребер, как легко видеть, будет пг — 1. И пусть pm]n (р) — минимальное из ребер, непосредственно примыкающих к ребру f> и относящихся к /-му классу, если таковое имеется. Занумеруем в оп ределенном порядке граничные, разрубленные ребра Я,1( таким образом, чтобы имелось взаимно-однозначное соответствие
между номерами граничных ребер и номерами примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. На рис. 3.2 представлено изображение кратчайшего незамкнутого пути. Выбрасывая ребра I, II, III, полу чаем четыре связных графа, что соответствует разбиению совокупности на четыре группы. Обозначим с помощью \ одно из таких ребер /-го класса.
1 Использование КНП в задачах классификации имеет длинную историю. Методы классификации, основанные на КНП, использовались для решения за дач в области антропологии, биологии, сельского хозяйства, лингвистики (см.,
например, |
G z e k a n o w s k i |
J. Zur DiHerentialdiagnose der Neandertalgruppe, |
||||||||
Kor-blatt |
Dtsch. |
Ges. Antrop. |
1909, XL, s. 44—47; F 1 о r e k |
K-, L u k a s - |
||||||
z e w i c z J . , |
P e r k a l |
H., S t e i n h a u s |
H., Z u b z y c k i S . |
Sur |
la liaison |
|||||
et la |
division |
des |
points |
d’un |
ensemble fini. |
Coli. Math., 1951, |
2, |
p. 282—285). |
||
2 |
Если |
p (X,o> Xm (i'0)) = p |
(XjQ, Xm (/„))> |
то в качестве X m |
можно |
выбрать |
любую из точек Хт (ід) и Хт (/ ).
88
Теперь, следуя [12], мы опреде
лим величины щ следующим обра зом:
k гг, |
p W, |
ш |
|
|
|||
где р (/)= ((4 V= 1 |
Рг(/)/ |
Кщ - 1 ] - |
|
средняя длина ребер /-го класса; |
|
||
|
*-1 |
|
k ~ 1 / = 1
Рис. 3.2. Графическое изображение кратчайшего незамкнутого пути
Эмпирический перебор различных вариантов общего вида функции Q в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [12] к следующей формуле:
(3.15)
где а, Ь, с и d — некоторые неотрицательные параметры, оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [12] отмечали хорошее согласие своих экспериментов с экспертными оценками при a = ö = c = d = 1.
Из смысла величины ut (і = 1, |
2, 3, 4) следует, что лучшим раз |
биениям соответствуют большие |
численные значения функционала |
Q, так что в данном случае требуется найти такое разбиение S*, при ко- |
тором Q (S*) = max Q (S ). s
Конечно, данный выбор количественного и качественного состава величин Ui и, в еще большей степени, их точное определение являются чисто эвристическими и подчас просто спорными. Это относится, в первую очередь, к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному ис пользованию функционалов, типа (3.15) в задачах кластер-анализа, но лишь как описание конкретного примера одного из возможных подходов при выборе функционалов качества разбиения.
б) Функционалы качества разбиения при неизвестном числе классов.
В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Хи Х ъ ..., Хп, функционалы качества разбиения Q (S ) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов Ix (S) и / 2 (S), один
89
из которых Іх является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй / 2 является возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала / 2 может быть различной. Под / 2 понимается иногда и некоторая мера взаимной удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассмат риваемого массива исходных наблюдений, и величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [41], например, предлагается брать
Л ( 5 ) = ѵ 2 Р(Х„ Х(/))
I = i x i esl
и
h (5) = ck (S),
где k (S) — число классов, получающихся при разбиении S, а с — некоторая положительная постоянная, характеризующая потери ис следователя при увеличении числа классов на единицу.
Другой вариант функционалов качества такого типа можно найти, например, в [10], где полагают
|
/і'(5) = — V |
|
|
4 |
|
|
|
|
|
U |
|
2 |
2 |
K( Xi >Xj ) > |
|
||
|
|
k |
i ( n j - l )f t Ji |
|
|
|||
|
|
К (S) = |
|
І |
У |
r(st,s}). |
|
|
|
|
|
k ( k - \ ) £ |
lf > i |
|
|
||
Здесь |
К (X , |
Y) — упомянутая |
выше |
потенциальная функция, |
||||
а г (Si, |
Sj) — мера близости г-го и /-го классов, основанная на потен |
|||||||
циальной функции (3.6). |
|
мы будем искать разбиение S*, |
мини |
|||||
Очевидно, |
в первом случае |
|||||||
мизирующее значение функционала |
|
|
|
|
||||
|
|
Q (S) |
= Д (S) + |
/ 2 (S), |
|
(3.16) |
||
в то время как ео втором случае требуется найти разбиение S 0, |
кото |
|||||||
рое максимизировало бы значение функционала |
|
|||||||
|
|
Q'(S) |
= /[(S ) + |
/ ‘ (S). |
|
(3.17) |
Весьма гибкой и достаточно общей схемой, реализующей идею одновременного учета двух функционалов, нам представляется схема, предложенная А. Н. Колмогоровым (см. сноску к стр. 83). Эта схема опирается на понятия меры концентрации Zr(S) точек, соответствую
щей разбиению S, и средней меры внутриклассового рассеяния l[K) (S), характеризующей то же разбиение S.
90
Под мерой концентрации Zr (S) предлагается понимать величину
Zr (S) = Мт( |
ѵ(Хг) |
ѵ (Xn)- |
_L у |
( v№) у |
(3.18) |
П !~ |
|
|
І= 1 |
|
|
где V ( X i ) — число элементов в кластере, содержащем точку X t , а выбор числового параметра г находится в распоряжении исследователя и за висит от конкретных целей разбиения. При выборе г полезно иметь в виду следующие частные случаи Zr (S):
|
|
|
|
Z-!(S)= |
|
k |
|
||
где |
k —число различных кластеров в |
разбиении S; |
|||||||
|
|
k |
|
|
|
|
|
|
|
logZ0(S) = |
'V] — log — — естественная |
информационная мера кон- |
|||||||
|
|
/=1 п |
|
п |
|
|
|
|
|
|
|
центрации; |
|
|
|
|
|
|
|
|
ZO0(S)= |
шах |
( — |
|
|
|
|
|
|
|
|
1< i < k \ч n |
I |
|
|
|
|
|
|
Z—oo (5) — min |
( |
) |
|
|
|
|
|
||
|
|
l < г < k Vn |
|
k |
|
|
|
||
|
Z i ( S ) уh- |
|
\ - |
|
|
|
|
||
|
|
1 |
^ „2 |
|
|||||
|
|
|
|
~ |
„2 |
^ |
1 |
П ‘ |
|
|
|
|
|
|
" |
i = |
|
|
Заметим, что при любом г предложенная мера концентрации имеет
минимальное значение, равное , при разбиении исследуемого множе
ства на п одноточечных кластеров и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер.
При конструировании и сравнении различных кластер-процедур полезно иметь в виду, что объединение двух кластеров 5 г и S m в один дает прирост меры концентрации Zx (S), равный
= - L [(Пі + nmf - « ? - ,& ] = ^ |
. |
п 1 |
пг |
Определение средней меры внутриклассового рассеяния l[K) (S) также опирается на понятие степенного среднего. В частности, пола гают
|
2 |
k |
|
|
|
|
I (rK) (S) = |
V |
пі [ ^ К) (SJY |
(3.19) |
|||
|
||||||
п i= l |
|
|||||
где под |
|
|
|
|
|
|
Q ^ (S ,) = |
|
у |
V |
Pr { X } , X j ) |
|
|
|
— |
|
||||
|
|
2-e Si |
xlGst |
|
|
91