Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 99
Скачиваний: 0
понимается обобщенная средняя мера рассеяния, характеризующая класс Si. Числовой параметр г здесь, как и прежде, выбирается по ус мотрению исследователя.
Полагая
|
|
|
1 |
|
|
2 |
|
|
QrK) (X) |
|
V |
|
Г |
|
|
|
|
|
Pr(X, X,) |
|
|||
|
|
.v ffl xyes (X) |
|
|
|
||
где, как |
и прежде, S(X) — кластер, в который |
входит наблюдение X, |
|||||
а V (X) —число элементов в кластере S, (X), |
формулу (3.19) можно |
||||||
переписать в виде |
|
|
|
|
|
|
|
|
/ y ” (S) = M M K>(x,).......Qj'1' |
|
|
||||
|
-п 2і= 1 |
|
|
2 |
?r(Xi, |
x t) |
(3.20) |
|
|
|
Xj 6s ^Xj) |
|
|
|
|
При конструировании и сравнении различных кластер-процедур |
|||||||
полезно |
иметь в виду, что |
объединение двух кластеров |
S t и S m |
в один дает прирост величины п [/*к) (S)]r, непосредственно характе ризующей среднюю меру внутриклассового рассеяния, равный
А [п (/<*>)'] = |
|
{2 [p<K)(S„ |
5 J ] 2- |
|
|
|
|
Пі+пт |
|
|
|
|
- [ Q ^ |
(50]r-[Q < K)(Sm)]rj. |
|
||
Очевидно, если ориентироваться на сокращение числа кластеров |
|||||
при наименьших |
потерях |
в |
отношении внутриклассового |
рассеи |
|
вания, не обращая внимания |
на меру концентрации, то естественно |
||||
объединять два |
кластера, |
для которых |
минимальна |
величина |
А (п [/^ К ). Если же одновременно ориентироваться и на рост взвешен ной концентрации Z^S), то объединение кластеров естественно под чинить требованию минимизации величины
а\п(ПК)у]
АZ i(S )
|
\2 [p<X )(St, S m ) ] ' - |
( fr ) ]'- [(? < * > (fr»)]r }r |
|
|
n i + n m |
|
|
в) |
Формулировка экстремальных задач разбиения |
исходного мно |
|
жества на классы. |
|
|
|
В а р и а н т 1: комбинирование |
функционалов качества. Требу |
||
ется найти такое разбиение S*, для |
которого некоторая |
алгебраиче |
ская комбинация функционала, характеризующего среднее внутри классовое рассеяние (3.20), и функционала, характеризующего меру концентрации полученной структуры (3.18), достигала бы своего экстремума. В качестве примеров можно привести комбинации Q (S)
92
и Q' (S), задаваемые формулами (3.16) и (3.17), а также более общие выражения вида
a -/i(S ) + ß/a(S) и |
[MS)]«. [MS)]», |
(3.21); |
|
где / і (S) •= IrK) (S), |
/ 2( S ) - - ^ - , |
|
|
а а и ß — некоторые положительные константы, например, а = |
ß = 1. |
||
В а р и а н т 2: |
двойственная |
формулировка. Требуется |
найти |
разбиение S*, которое, обладая концентрацией ZT (S*), не меньшей |
|||
заданного порогового значения Z0, давало бы наименьшее внутриклас |
совое рассеяние l)K) (S*) или в двойственной подстановке: при задан ном пороговом значении / 0 найти разбиение S* с внутриклассовым
рассеянием l (rK) (S'*) =£7 /0 и наибольшей концентрацией ZT(5*).
г) Функционалы качества и необходимые условия оптимальност разбиения. Естественно попытаться проследить, в какой мере выбор того или иного вида функционала качества определяет класс раз биений, в котором следует искать оптимальное. Приведем здесь неко
торые результаты, устанавливающие такого рода соответствие. |
Будем |
|||||
У т в е р ж д е н и е |
1: для функционалов типа Qx |
(3.11). |
||||
предполагать используемую метрику евклидовой. |
Обозначим |
через |
||||
Е = (Еи ..., Ek) группу |
из |
k р-мерных векторов Е} (/ = |
1, |
.... k), |
||
а через S (Е) = (5Х(Е), |
..., |
S k (Е)) — так называемое |
минимальное- |
|||
дистанционное разбиение, порождаемое точками |
Е = |
(Е1г ..., Eh). |
||||
А именно, |
|
|
|
|
|
|
S 1(E)=--{X:p(X,E1) ^ p ( X , E j), j = 2, |
..., k), |
|
|
|||
S2 (E) = S, (E) П {X : p (X, E2) < p (X, £,). |
j Ф 2}, |
|
|
|||
•5ft (E) = 5 X(E) f| ... n V |
i ( E ) n { ^ P ( ^ g < f № |
£ i ) , |
ІФ Щ К |
Таким образом, класс Sj (E) состоит из тех точек пространства X,. которые ближе к Ej, чем ко всем остальным Et (і Ф j). Если для не которых точек из X самыми близкими являются сразу несколько век торов Ej (/ = 1, ...,&), то мы относим эти точки к классу с минималь ным индексом.
Разбиение S = (Sx, ..., Sk) называется несмещенным разбиением, если это разбиение с точностью до множеств меры нуль совпадает с минимальным дистанционным разбиением, порождаемым векторами
средних |
Х г = |
j* ХР (dX), где Р( = J Р (dX). |
||
В работе |
|
1 h |
sj |
|
[33] показано, что минимальное значение функционала: |
||||
Qi (5) = |
k |
Л |
р2 (X, |
-- |
^ |
\ |
Х[) Р (dX) достигается только на несмещенных |
/= і
1Здесь и в дальнейшем S, означает дополнение множества S, до всего про странства X, т. е. совокупность всех наблюдений (элементов пространства X), не входящих в состав Sj.
93.
разбиениях. Это означает, что оптимальное разбиение обязательно должно быть несмещенным.
У т в е р ж д е н и е 2: для функционалов от разбиений на два класса. Следующее утверждение относится к довольно широкому классу функционалов качества разбиения совокупности на два класса. Разбиение на два класса может быть задано с помощью так называе мой разделяющей функции. А именно, точки пространства X, на кото рых разделяющая функция принимает неотрицательное значение, относятся к одному классу, а остальные — к другому. Поэтому поиск класса оптимальных разбиений в этом случае эквивалентен поиску класса оптимальных разделяющих функций.
Для иллюстрации дальнейшего изложения будем рассматривать вероятностную модификацию функционала Q' (3.14).
Пусть расстояние р (X, Y) задается с помощью соотношения (3.3) потенциальной функцией вида
К(Х, ¥)=-- I! Я?Фі(Х)Фі(У),
і= 1
где фі (X) (г = 1, ..., N) — некоторая система функции на X. Функционал Qj через потенциальную функцию К (X, Y) выража
ется следующим образом:
Q’a(S) = 2 [ K ( X , X ) P ( d X ) - 2 ± SS K ( X . Y ) P ( d X ) P ( d Y ) -
X И 1 s,s,
- 2 - J - S ü K(X,Y)P(dX)P(dY).
Fi s2s„
Поскольку в правой части этого равенства первый интеграл не зави сит от разбиения, то минимум функционала Q' (5) достигается на тех разбиениях, на которых функционал
Q2(S )= -J -$ S K(X,Y)P(dX)P(dY) + |
|
F i |
s,s, |
+ - S |
S K(X,Y)P(dX)P(dY) |
s2 |
|
достигает максимума.
Введем в рассмотрение спрямляющее пространство Z, коор
динаты |
векторов |
Z £ Z |
которого |
определяются соотношениями |
||||
|
|
zU) - ^ |
Фг (X) |
(і = |
1, ..., N). |
|
|
|
В спрямляющем |
пространстве Z |
вероятностной |
мерой Р, |
заданной |
||||
в исходном пространстве X, индуцируется своя вероятностная мера |
||||||||
Д(2). Однако в |
целях |
упрощения обозначений |
мы будем |
опускать |
.94
верхний индекс Z |
у этой новой меры. Что касается функционала- |
||
Q2 (S), то в спрямляющем пространстве он примет вид |
|||
QAS) |
\ ZP (dZ) |
J -K z P (d Z ) |
|
Пусть |
р[ |
Ls2 |
|
|
|
|
|
M<v>= |
5 Z*P(dZ) (v =0, |
1, |
r; t = 1, 2). |
|
s; |
|
|
Здесь Z2i — \{Z, Z)]i— числа, Z2i+ l r=[(Z, Z)]i Z —векторы. |
|||
В работе [7] формулируется утверждение, |
устанавливающее класс |
функций в спрямляющем пространстве Z, среди которых следует ис кать разделяющую функцию, доставляющую экстремум функционалу качества разбиения. А именно, показано, что если функционал ка
чества Ф является дифференцируемой функцией от М(г-Ѵ) (ѵ =1, ..., г),. а вероятностное распределение Д 2* сосредоточено на ограниченном множестве Z и обладает непрерывной плотностью, то если экстремум функционала Ф достигается на некоторой разделяющей функции,, то этот же экстремум достигается на разделяющей функции, являю щейся полиномом г-й степени вида:
f(Z)= І (сѵ, г*),
ѵ = і
где
дФ _ дФ дш[ѵ) ам^ѵ) ’
а (сѵ, Zv), означает при четном ѵ произведение чисел сѵ и Zv, а при не четном V — скалярное произведение векторов сѵ и Zv.
Для функционала Q' сформулированное означает, что класс раз деляющих функций, среди которых надо искать наилучшее в спрям ляющем пространстве разбиение, имеет вид
f(Z) = (c, |
Z) |
а, |
|
|
|
|
_ ÖQI |
dQl |
t= 2 1Ml |
- M2 |
(3.22); |
||
дМі |
ÖM2 |
|
|
|
P2 |
|
dQi |
ÖQ2 _ |
f MlV |
( |
■M2 |
|
|
df\ |
ÖP2 |
U i ) |
I |
Рг |
|
|
Мі = МІ1) (і = |
1,2). |
|
|
|
Класс разделяющих функций в спрямляющем пространстве очевидным: образом определяет класс разделяющих функций в исходном простран стве X.
Если К (X , Y) = (X, Y) является скалярным произведением век торов X и Y, то спрямляющее постранство Z совпадает с исходным
95.