Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 106

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

R описывается гиперсфера Сх. Находится центр тяжести Х 2 точек совокупности, попавших j b Сх. И з Х 2 радиусом R описывается гипер­ сфера С2 и определяется Х 3 центр тяжести точек исследуемой совокуп­ ности, попавших в С2. Процедура построения гиперсфер и точек X hпов­

торяется до тех пор, пока точки Х к не перестанут меняться. Точки совокупностщ попавшие в «остановившуюся» гиперсферу, принимаются за первый класс Sx. Для всех оставшихся точек, т. е. не попавших

в класс Sb

вновь применяется описанная выше процедура,

выделяю­

щая еще один класс S 2 и т. д. до тех пор,

пока все точки совокупности

не будут распределены по классам.

 

 

Применение описанного алгоритма для ряда последовательных

значений

/?<*> = R0 — ѵА, (д = *£ v =

1,2, ..., N — l)

позволяет

ориентировочно оценить наиболее предпочтительное число классов для данной совокупности объектов. При этом основанием для выбора числа классов может служить многократное повторение одного и того же чис­

ла классов для нескольких последовательных значений RM и его рез­ кое возрастание на следующем шаге.

Если ставится задача разбить совокупность на заданное число клас­ сов, то одна из модификаций алгоритма «Форель-1» — «Форель-2» методом последовательных приближений позволяет находить минималь­ ный радиус R min, дающий разбиение на заданное число классов.

В общем случае с помощью алгоритмов типа «Форель» можно разби­ вать исследуемую совокупность на классы, имеющие более сложную форму, чем гиперсферы. А именно, такие классы аппроксимируются несколькими гиперсферами. Пусть нужно разбить совокупность на k классов. Процедура аппроксимации, состоит в следующем. Находим такое R, при котором совокупность разбивается на ш > 4 классов сцентрами (выборочными арифметическими средними каждого класса)

х і> ..., Х т. Затем строится КНП (см.

стр. 88) для точек Х ъ ..., Х т.

Пусть длины отрезков —

...,

между двумя последователь­

ными центрами в этом кратчайшем пути, занумерованы в порядке убы­ вания их величин. «Разрубив» ребро Ях, получим два подграфа КНП. Тогда все точки, принадлежащие классам с центрами, входящими в со­ став первого подграфа КНП, объединяются в один класс, остальные — в другой. Затем разрубается ребро Я,2)... и так до тех пор, пока мы не получим нужное число классов.

Покажем теперь, как процедура выделения одного класса точек из совокупности, являющаяся основой алгоритмов типа «Форель», может быть изложена в рамках описанной выше общей схемы «эталонных алго­ ритмов». Выделение класса точек из совокупности эквивалентно разде­ лению совокупности на два класса. В качестве набора эталонных мно­

жеств Е =

(Ej, Е2) будем брать две точки

L =

(еъ е2). Функцию

Ф (А, et)

определим следующим

образом:

<p (X,

ех) ^ р2£ (X, ех);

Ф (Ах, е2) = R. Функция ф (X, Si,

Е) может быть определена многими

способами, например так:

Ф (A, S lt Е) = 2 pi(A , X t). xi esl

ПО


3. Исследование иерархических и параллельных процедур «на допустимость»

По аналогии с понятием допустимого решающего правила из тео­ рии решающих функций хотелось бы ввести понятие допустимой клас­ тер-процедуры, которое позволило бы нам ограничить поиски опти­ мального в некотором смысле алгоритма классификации лишь относи­ тельно узким классом допустимых процедур. К тому же понятие допу­ стимости дает в руки исследователя инструмент для первого (качест­ венного) сравнения различных типов кластер-процедур аналогично тому, как при использовании различных статистических оценок мы, должны убедиться в принадлежности рассматриваемой оценки (и соот­ ветствующей процедуры оценивания) к классу состоятельных.

В литературе известно несколько различных определений допусти­ мости [42], [64], [67]. Выбор того или иного из них зависит от содержа­ ния и природы исходных данных в каждой конкретной задаче. Ниже приводится достаточно широкий набор вариантов понятия «допусти­ мость», позволяющий исследователю подобрать наиболее подходящий для себя вариант, исходя из конкретной специфики своей задачи:

допустимость в классе образов. Пусть 5 = {Si, S 2, ..., Sfe} не­ которое разбиение исходной совокупности элементов Xlt Х2, ..., Хп, занумерованных для удобства таким образом, что

•••, X j } , S 2 = - { X l l + 1 , . . . , X i 2 } , . . . , 5ft = {X;ji_i+ i, . . . , X J .

И пусть Yu ..., Yn — некоторое произвольное переупорядочивание элементов исследуемой совокупности. Тогда разбиение S' = (SI, ...,

Sk), где

5; = {Yt.......Yit),

s; = ІУ.іі+ Ь

Y,.},

Sk = {Yjh+1+ b

Yn}

называется образом

разбиения S.

 

 

 

Разбиение S называется допустимым в классе образов, если не суще­

ствует образа S', равномерно лучшего, чем S,

в том смысле, что

р(Хи Xj)^p{Yi, Yj), если пары (Хг, X,) и (Yt, Yj)

(3.28)

лежат в одном классе разбиения 5

и S' соответственно;

 

р(Хг, Х ,)> р (У „ Yj), если пары (Хг Х$ и (Гг, Y})

(3.29)

лежат в разных классах разбиения S и S' соответственно.

Причем по крайней мере одно из неравенств (3.28), (3.29)

выпол­

няется строго. Это

означает, что разбиение

является допустимым

в классе образов, если его нельзя улучшить переупорядочиванием объ­ ектов. Соответственно алгоритм называется допустимым в классе об­ разов, если он приводит к допустимому в классе образов разбиению;

допустимость выпуклая. Разбиение S = (5Ь ..., S k) (и соответ­ ствующий алгоритм) называется выпукло допустимым, если выпуклые оболочки групп S1( ..., S k не пересекаются;

допустимость связная. Во многих практических задачах от ал­ горитма не целесообразно требовать выпуклой допустимости. Напри­ мер, если из априорных соображений следует, что при разбиении могут

П1


оказаться естественными (с точки зрения их содержательной интерпре­ тации) классы, подобные тем, которые изображены на рис. 3.4.

Свойство связной допустимости является ослаблением свойства вы­ пуклой допустимости для случая, когда число измеряемых признаков р = 2. Для формулировки этого свойства для любого множества А объектов совокупности построим сеть L a - Сетью L a точек множества А называется кратчайший незамкнутый путь точек А. Разбиение 5 = = (Sj, ..., Sh) называется связно допустимым, если L sv ..., Lsk по­

парно не пересекаются. Соответственно алгоритм называется связно

допустимым, если он

приводит к связно

допустимому разбиению;

допустимость

по отношению

к хорошей структуре данных.

Пусть

исследуемая совокупность имеет ярко выраженные отдельные

 

 

 

классы объектов или метрика р, задан­

 

 

 

ная на совокупности, однозначно опреде­

 

 

 

ляет иерархическое дерево [48], [51]. Тог­

 

 

 

да естественно требовать от алгоритма,

 

 

 

чтобы даваемое им разбиение совпадало

 

 

 

с априори известным решением.

 

 

 

Будем

говорить,

что

совокупность

 

 

 

Х и ...,

Х п имеет хорошую структуру,

 

 

 

если выполнено одно из трех условий:

 

 

 

а)

существует

разбиение S, для ко­

 

 

 

торого значение меры близости (рассто­

 

 

 

яния р) для элементов одного класса од­

 

 

 

но и то же и равно /у (соответственно p j.

Рис. 3.4. Пример связно допус­

Одной и той же является и мера близости

тимого, но не выпукло допусти­

(расстояние) для элементов разных клас­

мого

разбиения совокупности

сов. Пусть

она равна г2 (соответственно

 

на группы

 

б)

существует разбиение

р2). Тогда г2 <

гх (или р2 >

ра);

S с заданным

априори числом классов,

равным k такое, что все внутриклассовые расстояния меньше, чем все межклассовые расстояния;

в) существует иерархическое дерево, по которому с помощью того или иного правила можно восстановить заданную меру близости (рас­ стояние). В таких случаях говорят [48], [51], что мера близости (рас­ стояние) имеет полную структуру дерева1.

1 Эта фраза может пониматься, например, в следующем смысле. Пусть речь идет об алгомеративных иерархических деревьях. Рассмотрим иерархическое

дерево т—сокращенное обозначение вместо употреблявшегося ранее{(ѵ1, S ^ ),...,

(vt, S ^)}. Введем ряд обозначений. Будем через А обозначать множество вершин дерева т. Под вершинами на каждом уровне ѵгмы понимает классы раз­

биения

=

1, ..., f).

Классифицируемые элементы

Х х, ..., Х п очевидно,

входят в А.

Для

а, b £ А

будем говорить, что а < Ь,

если «поднимаясь вверх»

по иерархическому дереву из вершины а, мы обязательно проходим через Ь. Де­ ревом подобия (т, о) называется дерево т и функция о на множестве вершин А, удовлетворяющая условиям: а (а) < о (b), если b < а. Пусть supt (а, b) — вер­

шина дереват, в которой впервые объединяются вершины а, Ъ.

Мера близости г имеет точную структуру дерева, если для некоторого дере­ ва подобия (т, о) г (Xi, Xj) = о (sup.,. (Xi, Xj)).

1 1 2



Алгоритм называется допустимым по отношению к хорошей струк­ туре исследуемой совокупности, если при хорошей структуре совокуп­ ности он приводит к естественному в смысле этой структуры раз­ биению.

Остановимся теперь на более специфичных условиях, важных в не­ которых приложениях;

допустимость относительно дублирования. Алгоритм называет­ ся допустимым относительно дублирования, если после многократного дублирования произвольного числа раз одной или нескольких точек совокупности Х г, ..., Хп и повторения алгоритма, границы классов

вразбиениях не меняются;

допустимость относительно дублирования классов. Алгоритм,

дающий разбиение S, называется допустимым относительно дублиро­ вания по классам, если после дублирования любого класса разбиения произвольное число раз (все точки данного класса дублируются одно и то же число раз) и после повторения алгоритма получаемое разбиение совпадает с S;

допустимость относительно выбрасывания классов. Пусть в ре­

зультате действия

алгоритма получено разбиение совокупности на

k классов 5 = (Slt

..., S h) и пусть элементы некоторого класса, скажем

Sj, выбрасываются из совокупности.

Алгоритм называется допустимым по отношению к выбрасыванию классов, если после применения алгоритма к оставшимся элементам совокупности после выбрасывания, скажем, элементов класса Sj мы получаем разбиение 5 ' на k—1 групп S (, ..., S*_i, причем, разбиение 5 ' с точностью до упорядочения классов совпадает с разбиением (Sb ...,

. . . , S j-1 , Sj+1, . . . , 5ft).

допустимость монотонная. Алгоритм называется монотонно допустимым, если монотонное преобразование, примененное к мере близости (расстоянию) не влияет на результат разбиения.

Типы алгорит­ мов

щ

П2

П3

П4

П6

 

 

 

 

 

 

Т а б л и ц а

3.1

 

і

Варианты понятия «допустимость»

 

 

 

 

относительно

 

 

 

 

 

 

 

 

относительно

 

 

 

 

хорошей струк­

 

 

 

 

связная р—2

туры

 

 

 

 

монотонная

в классе образов

выпуклая

в смысле (а)

в смысле (б)

дублиро­ вания

дублиро­ вания классов

выбрасы­ вания классов

+

_

+

+

+

+

+

+

 

 

+

+

+

+

+

+

+

+

+

+

+

+

+

X

' +

+

+

• —

X

X

Примечание. Символы означают: (-f-) — удовлетворение процедуры свойству допустимости; ( — )— отсутствие этого свойства; (X) — неприменимость понятия допустимости для алгорит­ мов данного типа.

113