Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 97
Скачиваний: 0
можных попарных расстояний между представителями рассматривае мых групп, т. е.
Pep (ßl> Sm) піпт^ xi1esl |
2 Р № Д ;). |
(3.7) |
|
Xj ^ Sm |
|
Естественно задать вопрос: а нельзя ли получить достаточно об щую формулу, определяющую расстояние между классами по задан ному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмот ренные выше виды расстояний?
Изящное обобщение такого рода, основанное на понятии так на зываемого «обобщенного среднего», а точнее —■степенного среднего, было предложено А. Н. Колмогоровым1.
■^ Обобщенное (по Колмогорову) расстояние между классами или
обобщенное К-расстояние вычисляется по формуле |
1 |
|
|||||||||
P '?4S„SJ |
- Г - |
2 |
|
|
2 |
|
р |
(3.8) |
|||
|
|
|
Г |
||||||||
|
п1Пт X. б Sj |
|
|
|
|
||||||
|
|
|
|
|
Xj £ Sm |
|
|
|
|
||
В частности, при г->оо |
и при г -*— |
оо имеем: |
|
|
|||||||
Р(ІР №і, Sm) = pmax (S[, Sm), |
|
|
|||||||||
P — lo |
( ^ l ’ ^ m ) = Pmin ( S h |
S |
m ) . |
|
|
||||||
1 Под обобщенным средним величин сх, с2, .... cN понимается выражение вида |
|||||||||||
MF (clt с2, ..., cN) = F- |
ЛГ |
F (et) j , |
в котором F (и) — некоторая функция |
||||||||
|
|||||||||||
и соответственно F_1—преобразование, обратное |
к F. Частным случаем |
обоб |
|||||||||
щенного среднего является степенное среднее," определяемое как |
|
||||||||||
Mr (clt с2, . . . , |
|
|
|
|
N |
^ |
|
|
|||
cw)= |
^ — |
2 |
|
|
|||||||
Нетрудно показать, что (при с; |
> 0, і = 1, 2 , ..., іѴ) |
|
|
|
|||||||
М _ 00(Сі, с2,. |
• • . cn ) ~ |
J |
min |
(сі)> |
|
|
|||||
М+оа (сі, |
с2,. •' ’ Cn ) = і |
max |
|
(Ci), |
|
|
|||||
|
|
/ N |
|
|
|
|
< i < N |
|
|
||
M0 (c i,c 2......сд,)= I |
\ J. |
|
|
|
|
|
|
|
|||
П сі Щ |
|
—геометрическое среднее, |
|
||||||||
Mi (Cj, с2, • • |
|
1 |
£ |
|
—арифметическое среднее. |
|
|||||
|
|
сі |
|
|
Все излагающиеся ниже определения и результаты, опирающиеся на понятие
степенного среднего |
(обобщенное |
.^-расстояние между классами |
(S;, Sm), |
мера концентрации |
Zr (S), соответствующая разбиению 5, мера |
внутриклас |
|
сового рассеяния |
(Si) и т. п.) |
заимствованы из доклада А. Н. |
Колмогорова, |
прочитанного им на семинаре по математической статистике межфакультетской лаборатории статистических методов МГУ, 27 апреля 1972 г.
83
'Очевидно, также
P(1° (Sh s m) =----Pep (Si, Sm).
Из (3.8) следует, что если S (т, q) = 5 m(jS; группа элементов, полученная путем объединения кластеров S m и S , то обобщенное /(-расстояние между кластерами S, и 5 (т, q) определяется фор мулой:
пт [р(*> (Sh Sm))r +n q [pW (Sf, Sg)]r 1r
pW (S „ S ( m , q))
ПтT Я-g
Отметим, что понятие расстояния между группами элементов осо бенно важно в так называемых агломеративных иерархических кластер-
процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания рас стояния между классами оказывается достаточным определить порядок
пересчета расстояния между классом 5 г и |
классом S (т, <?) = |
S m(jSg, |
|
являющимся |
объединением двух других классов Sm и S q, по расстоя |
||
ниям р1т= |
р (5„ S J , Рг9 = р (S[, Sq) |
и pm, = р (Sm,Sq) |
между |
этими классами. В [55] предлагается следующая общая формула для
вычисления |
расстояния между некоторым классом S, и классом |
S (т, q): |
~ |
Р/ (т, q) = Р (Sx, s (m,q)) = ap,m + ßpz, + ypmg + 6 j pim —p„ |, (3.9)
где а, ß, у и б — числовые коэффициенты, значения которых и опре деляют специфику процедуры, ее нацеленность на решение той или
иной экстремальной задачи. Так, например, полагая а = ß = —б = ~
и у — 0, мы, как легко видеть, приходим к расстоянию, измеряемому
по принципу ближайшего соседа. Если же положить а = ß = б = у
и 7 = 0, то расстояние между двумя классами определится как рас стояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И наконец, выбор коэффициентов
•соотношения (3.9) по формулам
а |
Пт |
ß = — |
, у = 6 = 0 |
|
пт + п а |
||||
|
rtm+ Пд |
|
приводит нас к расстоянию рср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого.
То, |
что формула для рг (m, q) и, в частности, выбор коэффициен |
тов а, |
ß, у и б в этой формуле, зачастую определяют нацеленность |
соответствующей агломеративной иерархической процедуры на реше ние той или иной экстремальной задачи, т. е. в каком-то смысле опре-
84
деляет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления р/ (т, 9> воспользоваться следующей модификацией формулы (3.9):
I ( m ,q ) . |
Пі + Пт |
РIm' |
ni + nq |
ni |
iTiq 1 |
(3.10) |
Р |
ni + nm+nq |
n l ~ h n m + n q P'lq |
n i +n m + n: |
' P |
|
то соответствующий агломеративный иерархический алгоритм обла дает тем свойством, что на каждом шаге объединение двух классов при водит к минимальному увеличению общей суммы квадратов расстоя ний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще го воря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов.
3. Порог
Под порогом подразумевается обычно то число, с которым сравни вается расстояние между объектами (классами) или мера близости объектов для того, чтобы определить, можно ли отнести рассматривае мые два объекта (либо объект и класс, либо два класса) к одному об щему классу.
При конструировании классификационной процедуры порог может задаваться и как величина постоянная, не изменяющаяся в течение всей процедуры, и как величина переменная, меняющаяся по опреде ленным правилам при переходе от одного этапа процедуры к другому (см. § 3 настоящей главы).
4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров
Естественно попытаться определить сравнительное качество различ ных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть одно разбиение другому. С этой целью в поста новку задачи кластер-анализа часто вводится понятие так называе мого функционала качества разбиения Q (S), определенного на мно жестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение S задается, вообще говоря, набором дискриминантных функций бх (X), б2 (X), .... Тогда под наилучшим разбиением S* понимается то разбиение, на котором достигается экстремум выбранного функционала качества. Надо сказать, что выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессио нально-интуитивные соображения, чем на какую-либо строгую фор мализованную систему.'
85
Мы приведем здесь примеры наиболее распространенных функ ционалов качества разбиения и попытаемся обосновать выбор некото рых из них в рамках одной из моделей статистического оценивания параметров.
Пусть исследователем уже выбрана метрика р в пространстве X и пусть S = (5!, S 2, ..., S h) некоторое фиксированное разбиение наб людений Х г, ■■■, Хп на заданное число k классов S1; S2, S h.
За функционалы качества часто берутся следующие характери стики:
— сумма («взвешенная») внутриклассовых дисперсий
Q1( S ) = 2 2 Ра( * г .З Д |
(3.11) |
i = i x i esl |
|
весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [125], [11], [105], [107], [75], [76] и др.;
— сумма попарных внутриклассовых расстояний между элементами
Q2( S ) = i |
2 |
р2(Xi,Xj),\ |
I =і |
xt, x . e s l |
|
либо |
|
|
Q:2 (S) --= V |
-i- V |
р2(Мг,М,) |
I =i |
ni xv X. e st |
в большинстве ситуаций приводит к тем же наилучшим разбиениям, что и Qx (S), и тоже используется для сравнения кластер-процедур
[70], [45], [7];
— обобщенная внутриклассовая дисперсия Q3 (S) является, как известно [4, с. 2311, одной из характеристик степени рассеивания многомерных наблюдений одного класса (генеральной совокупности) около своего «центра тяжести». Следуя обычным правилам вычисле
ния выборочной |
ковариационной |
матрицы, — отдельно |
по |
наблюде |
||
ниям, попавшим в какой-то один |
класс S, |
|
|
|
||
|
|
Q3(S) = d e t ^ ^ n l Wi'J, |
|
|
(3.12) |
|
где под det А |
понимается «определитель матрицы А», |
а |
элементы |
|||
wqm (/) выборочной ковариационной матрицы |
Wt класса S, подсчи |
|||||
тываются по формуле |
|
|
|
|
||
“Ѵ(*) = — |
2 |
(х{Ѵ ~ х к ) т ^ Т - х іт)(1)) |
q,m=l,2,...,p,(3A3) |
|||
Пі |
xi ^ si |
|
|
|
|
где x(jV)—ѵ-я компонента многомерного наблюдения X t, ал4ѵ>(/)—сред нее значение ѵ-й компоненты, подсчитанное по наблюдениям I-го класса.
86