Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 106
Скачиваний: 0
R описывается гиперсфера Сх. Находится центр тяжести Х 2 точек совокупности, попавших j b Сх. И з Х 2 радиусом R описывается гипер сфера С2 и определяется Х 3 центр тяжести точек исследуемой совокуп ности, попавших в С2. Процедура построения гиперсфер и точек X hпов
торяется до тех пор, пока точки Х к не перестанут меняться. Точки совокупностщ попавшие в «остановившуюся» гиперсферу, принимаются за первый класс Sx. Для всех оставшихся точек, т. е. не попавших
в класс Sb |
вновь применяется описанная выше процедура, |
выделяю |
|
щая еще один класс S 2 и т. д. до тех пор, |
пока все точки совокупности |
||
не будут распределены по классам. |
|
|
|
Применение описанного алгоритма для ряда последовательных |
|||
значений |
/?<*> = R0 — ѵА, (д = *£ v = |
1,2, ..., N — l) |
позволяет |
ориентировочно оценить наиболее предпочтительное число классов для данной совокупности объектов. При этом основанием для выбора числа классов может служить многократное повторение одного и того же чис
ла классов для нескольких последовательных значений RM и его рез кое возрастание на следующем шаге.
Если ставится задача разбить совокупность на заданное число клас сов, то одна из модификаций алгоритма «Форель-1» — «Форель-2» методом последовательных приближений позволяет находить минималь ный радиус R min, дающий разбиение на заданное число классов.
В общем случае с помощью алгоритмов типа «Форель» можно разби вать исследуемую совокупность на классы, имеющие более сложную форму, чем гиперсферы. А именно, такие классы аппроксимируются несколькими гиперсферами. Пусть нужно разбить совокупность на k классов. Процедура аппроксимации, состоит в следующем. Находим такое R, при котором совокупность разбивается на ш > 4 классов сцентрами (выборочными арифметическими средними каждого класса)
х і> ..., Х т. Затем строится КНП (см. |
стр. 88) для точек Х ъ ..., Х т. |
|
Пусть длины отрезков — |
..., |
между двумя последователь |
ными центрами в этом кратчайшем пути, занумерованы в порядке убы вания их величин. «Разрубив» ребро Ях, получим два подграфа КНП. Тогда все точки, принадлежащие классам с центрами, входящими в со став первого подграфа КНП, объединяются в один класс, остальные — в другой. Затем разрубается ребро Я,2)... и так до тех пор, пока мы не получим нужное число классов.
Покажем теперь, как процедура выделения одного класса точек из совокупности, являющаяся основой алгоритмов типа «Форель», может быть изложена в рамках описанной выше общей схемы «эталонных алго ритмов». Выделение класса точек из совокупности эквивалентно разде лению совокупности на два класса. В качестве набора эталонных мно
жеств Е = |
(Ej, Е2) будем брать две точки |
L = |
(еъ е2). Функцию |
|
Ф (А, et) |
определим следующим |
образом: |
<p (X, |
ех) ^ р2£ (X, ех); |
Ф (Ах, е2) = R. Функция ф (X, Si, |
Е) может быть определена многими |
способами, например так:
Ф (A, S lt Е) = 2 pi(A , X t). xi esl
ПО
3. Исследование иерархических и параллельных процедур «на допустимость»
По аналогии с понятием допустимого решающего правила из тео рии решающих функций хотелось бы ввести понятие допустимой клас тер-процедуры, которое позволило бы нам ограничить поиски опти мального в некотором смысле алгоритма классификации лишь относи тельно узким классом допустимых процедур. К тому же понятие допу стимости дает в руки исследователя инструмент для первого (качест венного) сравнения различных типов кластер-процедур аналогично тому, как при использовании различных статистических оценок мы, должны убедиться в принадлежности рассматриваемой оценки (и соот ветствующей процедуры оценивания) к классу состоятельных.
В литературе известно несколько различных определений допусти мости [42], [64], [67]. Выбор того или иного из них зависит от содержа ния и природы исходных данных в каждой конкретной задаче. Ниже приводится достаточно широкий набор вариантов понятия «допусти мость», позволяющий исследователю подобрать наиболее подходящий для себя вариант, исходя из конкретной специфики своей задачи:
— допустимость в классе образов. Пусть 5 = {Si, S 2, ..., Sfe} не которое разбиение исходной совокупности элементов Xlt Х2, ..., Хп, занумерованных для удобства таким образом, что
•••, X j } , S 2 = - { X l l + 1 , . . . , X i 2 } , . . . , 5ft = {X;ji_i+ i, . . . , X J .
И пусть Yu ..., Yn — некоторое произвольное переупорядочивание элементов исследуемой совокупности. Тогда разбиение S' = (SI, ...,
Sk), где
5; = {Yt.......Yit), |
s; = ІУ.іі+ Ь |
Y,.}, |
Sk = {Yjh+1+ b |
Yn} |
называется образом |
разбиения S. |
|
|
|
Разбиение S называется допустимым в классе образов, если не суще |
||||
ствует образа S', равномерно лучшего, чем S, |
в том смысле, что |
|||
р(Хи Xj)^p{Yi, Yj), если пары (Хг, X,) и (Yt, Yj) |
(3.28) |
|||
лежат в одном классе разбиения 5 |
и S' соответственно; |
|
||
р(Хг, Х ,)> р (У „ Yj), если пары (Хг Х$ и (Гг, Y}) |
(3.29) |
|||
лежат в разных классах разбиения S и S' соответственно. |
||||
Причем по крайней мере одно из неравенств (3.28), (3.29) |
выпол |
|||
няется строго. Это |
означает, что разбиение |
является допустимым |
в классе образов, если его нельзя улучшить переупорядочиванием объ ектов. Соответственно алгоритм называется допустимым в классе об разов, если он приводит к допустимому в классе образов разбиению;
— допустимость выпуклая. Разбиение S = (5Ь ..., S k) (и соответ ствующий алгоритм) называется выпукло допустимым, если выпуклые оболочки групп S1( ..., S k не пересекаются;
— допустимость связная. Во многих практических задачах от ал горитма не целесообразно требовать выпуклой допустимости. Напри мер, если из априорных соображений следует, что при разбиении могут
П1
оказаться естественными (с точки зрения их содержательной интерпре тации) классы, подобные тем, которые изображены на рис. 3.4.
Свойство связной допустимости является ослаблением свойства вы пуклой допустимости для случая, когда число измеряемых признаков р = 2. Для формулировки этого свойства для любого множества А объектов совокупности построим сеть L a - Сетью L a точек множества А называется кратчайший незамкнутый путь точек А. Разбиение 5 = = (Sj, ..., Sh) называется связно допустимым, если L sv ..., Lsk по
парно не пересекаются. Соответственно алгоритм называется связно
допустимым, если он |
приводит к связно |
допустимому разбиению; |
||||||
— допустимость |
по отношению |
к хорошей структуре данных. |
||||||
Пусть |
исследуемая совокупность имеет ярко выраженные отдельные |
|||||||
|
|
|
классы объектов или метрика р, задан |
|||||
|
|
|
ная на совокупности, однозначно опреде |
|||||
|
|
|
ляет иерархическое дерево [48], [51]. Тог |
|||||
|
|
|
да естественно требовать от алгоритма, |
|||||
|
|
|
чтобы даваемое им разбиение совпадало |
|||||
|
|
|
с априори известным решением. |
|||||
|
|
|
Будем |
говорить, |
что |
совокупность |
||
|
|
|
Х и ..., |
Х п имеет хорошую структуру, |
||||
|
|
|
если выполнено одно из трех условий: |
|||||
|
|
|
а) |
существует |
разбиение S, для ко |
|||
|
|
|
торого значение меры близости (рассто |
|||||
|
|
|
яния р) для элементов одного класса од |
|||||
|
|
|
но и то же и равно /у (соответственно p j. |
|||||
Рис. 3.4. Пример связно допус |
Одной и той же является и мера близости |
|||||||
тимого, но не выпукло допусти |
(расстояние) для элементов разных клас |
|||||||
мого |
разбиения совокупности |
сов. Пусть |
она равна г2 (соответственно |
|||||
|
на группы |
|
||||||
б) |
существует разбиение |
р2). Тогда г2 < |
гх (или р2 > |
ра); |
||||
S с заданным |
априори числом классов, |
равным k такое, что все внутриклассовые расстояния меньше, чем все межклассовые расстояния;
в) существует иерархическое дерево, по которому с помощью того или иного правила можно восстановить заданную меру близости (рас стояние). В таких случаях говорят [48], [51], что мера близости (рас стояние) имеет полную структуру дерева1.
1 Эта фраза может пониматься, например, в следующем смысле. Пусть речь идет об алгомеративных иерархических деревьях. Рассмотрим иерархическое
дерево т—сокращенное обозначение вместо употреблявшегося ранее{(ѵ1, S ^ ),...,
(vt, S ^)}. Введем ряд обозначений. Будем через А обозначать множество вершин дерева т. Под вершинами на каждом уровне ѵгмы понимает классы раз
биения |
(і = |
1, ..., f). |
Классифицируемые элементы |
Х х, ..., Х п очевидно, |
входят в А. |
Для |
а, b £ А |
будем говорить, что а < Ь, |
если «поднимаясь вверх» |
по иерархическому дереву из вершины а, мы обязательно проходим через Ь. Де ревом подобия (т, о) называется дерево т и функция о на множестве вершин А, удовлетворяющая условиям: а (а) < о (b), если b < а. Пусть supt (а, b) — вер
шина дереват, в которой впервые объединяются вершины а, Ъ.
Мера близости г имеет точную структуру дерева, если для некоторого дере ва подобия (т, о) г (Xi, Xj) = о (sup.,. (Xi, Xj)).
1 1 2
Алгоритм называется допустимым по отношению к хорошей струк туре исследуемой совокупности, если при хорошей структуре совокуп ности он приводит к естественному в смысле этой структуры раз биению.
Остановимся теперь на более специфичных условиях, важных в не которых приложениях;
— допустимость относительно дублирования. Алгоритм называет ся допустимым относительно дублирования, если после многократного дублирования произвольного числа раз одной или нескольких точек совокупности Х г, ..., Хп и повторения алгоритма, границы классов
вразбиениях не меняются;
—допустимость относительно дублирования классов. Алгоритм,
дающий разбиение S, называется допустимым относительно дублиро вания по классам, если после дублирования любого класса разбиения произвольное число раз (все точки данного класса дублируются одно и то же число раз) и после повторения алгоритма получаемое разбиение совпадает с S;
—допустимость относительно выбрасывания классов. Пусть в ре
зультате действия |
алгоритма получено разбиение совокупности на |
k классов 5 = (Slt |
..., S h) и пусть элементы некоторого класса, скажем |
Sj, выбрасываются из совокупности.
Алгоритм называется допустимым по отношению к выбрасыванию классов, если после применения алгоритма к оставшимся элементам совокупности после выбрасывания, скажем, элементов класса Sj мы получаем разбиение 5 ' на k—1 групп S (, ..., S*_i, причем, разбиение 5 ' с точностью до упорядочения классов совпадает с разбиением (Sb ...,
. . . , S j-1 , Sj+1, . . . , 5ft).
— допустимость монотонная. Алгоритм называется монотонно допустимым, если монотонное преобразование, примененное к мере близости (расстоянию) не влияет на результат разбиения.
Типы алгорит мов
щ
П2
П3
П4
П6
|
|
|
|
|
|
Т а б л и ц а |
3.1 |
|
|
і |
Варианты понятия «допустимость» |
|
|
||||
|
|
относительно |
|
|
|
|
||
|
|
|
|
относительно |
|
|||
|
|
|
хорошей струк |
|
|
|||
|
|
связная р—2 |
туры |
|
|
|
|
монотонная |
в классе образов |
выпуклая |
в смысле (а) |
в смысле (б) |
дублиро вания |
дублиро вания классов |
выбрасы вания классов |
||
+ |
_ |
+ |
+ |
+ |
+ |
+ |
+ |
|
|
+ |
|||||||
+ |
— |
— |
+ |
+ |
+ |
+ |
+ |
|
— |
— |
— |
+ |
— |
— |
+ |
+ |
— |
+ |
+ |
+ |
— |
X |
— |
— |
' + |
— |
— |
+ |
+ |
• — |
X |
— |
— |
X |
— |
Примечание. Символы означают: (-f-) — удовлетворение процедуры свойству допустимости; ( — )— отсутствие этого свойства; (X) — неприменимость понятия допустимости для алгорит мов данного типа.
113