Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 102
Скачиваний: 0
постранством X, а метрика, задаваемая |
потенциальной |
функцией |
|
К (X, Y), |
совпадает с обычной евклидовой метрикой. Функционалы |
||
Q2 и Q', |
рассматриваемые относительно |
этой метрики, |
совпадают |
сточностью до константы.
Вэтом случае, как нетрудно видеть, разбиение, задаваемое разде ляющей функцией / (Z), является несмещенным разбиением.
д) Функционалы качества разбиения как результат применени метода максимального правдоподобия к задаче статистического оцени вания неизвестных параметров. Приведем здесь пример, иллюстри
рующий возможность обоснования выбора общего вида функционала качества разбиения на классы в ситуациях, в которых исследователю удается «втиснуть» свою задачу в рамки одной из классических моде лей.
Пусть априорные сведения позволяют определить і-й однород ный класс (кластер) как нормальную генеральную совокупность на блюдений с вектором средних аг и ковариационной матрицей 2*. При этом at и 2 Ь вообще говоря, неизвестны. Нам известно лишь, что каждое из наблюдений Хх, Х 2, ..., Хп извлекается из одной из k нор мальных генеральных совокупностей Х (а;, 2 г), і = 1, 2, ..., k. Задача исследователя — определить, какие пх из п исходных наблюдений из
влечены из класса |
N (аг, 2 Х), какие п2наблюдений извлечены из клас |
|||||||||
са |
N (а2, 2 3) |
и |
т. |
д. Очевидно, числа пъ п2, ..., |
nh, вообще |
говоря, |
||||
также неизвестны. |
|
|
|
|
|
|||||
|
Если ввести в рассмотрение вспомогательный векторный параметр |
|||||||||
Т= (Ті. ?2. |
Уп), в котором компонента уг определяет номер класса, |
|||||||||
к которому относится наблюдение Хг, т. е. уг = /, |
если Хг £ N (аи 2,), |
|||||||||
і = |
1, 2, |
..., |
л, |
то задачу разбиения на классы |
можно формулиро |
|||||
вать |
как |
задачу |
оценивания неизвестных параметров уь |
у2, |
..., |
уп |
||||
при |
«мешающих» |
неизвестных параметрах а ; и |
2 г, і = |
1, |
2, |
..., |
||||
k. |
Обозначив весь набор неизвестных параметров с помощью Ѳ, т. |
е. |
||||||||
Ö |
= |
(у, а±, ..., ak, |
2 Х, ..., 2 ft) и, пользуясь известной [4] |
техникой, |
получаем логарифмическую функцию правдоподобия для наших наблюдений Xlt Х2, ..., Хп.
/ (Ѳ) —- |
1 |
V [ 2: |
(Xf — а,)' 2 г 1 (АГ* — аг) - «г log I |
(3.23) |
||
|
2 |
~ 1 xi*si |
|
|
|
|
Как известно, |
оценка |
Ѳ параметра |
Ѳ по |
методу максимального |
||
правдоподобия находится |
из условия |
/ (Ѳ) = |
max I (Ѳ). |
|
||
Поэтому |
естественно было бы попытаться |
ѳ |
|
|||
найти такое разбиение |
у на классы Sx, S2, •••, Sk, а также такие вектора средних at и кова
риационные матрицы 2 и при которых величина —21 (Ѳ) достигала бы своего абсолютного минимума1.
1 Оговоримся сразу, что даже факт состоятельности полученных при этом
оценок Ѳостается под сомнением, поскольку размерность неизвестного векторно го параметра Ѳ превосходит в данном случае общее число наблюдений, которыми мы располагаем.
■96
При известном разбиении у оценками максимального правдо подобия для at будут «центры тяжести» классов
Х Ы { 1 ) = ± 2 X t, 1=1,2, .... k. ni xi£Sl
Подставляя их в (3.23) вместо аг и воспользовавшись очевидными тождественными преобразованиями, приходим к эквивалентности задачи поиска минимума функции —21 (Ѳ), определенной соотноше нием (3.23), и задачи поиска минимума выражения
2 [ 2 |
( 0 ) ' - * < * > ( / ) ) + /г, log 1 I ] |
(3.24) |
/=і хее5г |
|
|
или, что то же, выражения |
|
|
k |
[ tr tiiW ^ r 1+ т log і 2 г I ]. |
|
2 |
(3.25) |
В последнем выражении Wt выборочная ковариационная матрица, вычисленная по наблюдениям, входящим в состав 1-го класса (3.13).
Анализ выражений (3.24) и (3.25) в некоторых частных случаях немедленно приводит к следующим интересным выводам:
— если ковариационные матрицы исследуемых генеральных сово купностей равны между собой и известны, то задача оценивания не известного параметра Ѳ по методу максимального правдоподобия равносильна задаче разбиения наблюдений Хг на классы, подчинен ной функционалу качества разбиения вида (S), в котором под рас стоянием р подразумевается расстояние Махаланобиса;
— если ковариационные матрицы исследуемых генеральных сово купностей равны между собой, но не известны, то, подставляя в (3.25) вместо = 2 ее оценку максимального правдоподобия
2= -
п1=1
убеждаемся |
в |
эквивалентности задачи оценивания (по методу мак |
|||
симального правдоподобия) |
параметра Ѳ и |
задачи поиска разбиения |
|||
наблюдений X, |
на классы, |
наилучшего в |
смысле функционала |
ка |
|
чества Q3 (S); |
|
матрицы исследуемых генеральных |
со |
||
— если |
ковариационные |
||||
вокупностей не |
равны между собой и не известны, то, подставляя |
||||
в (3.25) вместо |
их оценки максимального правдоподобия |
Wи |
убеждаемся в эквивалентности задачи оценивания по методу макси мального правдоподобия параметра Ѳ и задачи поиска разбиения наблюдений X* на классы, наилучшего в смысле функционала ка чества Q4 (S).
В [68] авторы пытаются конструировать алгоритмы, реализующие идею получения оценок максимального правдоподобия для параметра Ѳ. Однако нам представляется главная ценность подобного подхода
4 Зак. 358 |
97 |
лишь в его методологической, качественной стороне, в том, что он по зволяет строго осмыслить и формализовать некоторые функционалы качества разбиения, введенные ранее чисто эвристически. Конструк тивная же сторона подобного подхода упирается в трудно преодолимые препятствия вычислительного плана, связанные с колоссальным ко личеством переборов вариантов уже при сравнительно небольших размерностях р и объемах выборки.
5. Эталонные точки
Под эталонными точками группы обычно понимают точки в иссле дуемом р-мерном факторном пространстве, которые по какому-либо правилу могут быть выбраны в качестве представителей этой группы. На «старте» алгоритма классификации в качестве эталонных точек выбираются, как правило, наблюдения из обучающих или квази обучающих выборок (если таковые имеются). В дальнейшем, т. е. в ходе итерационного процесса комплектования классов, в качестве эталонных точек берут, например, «центры тяжести» соответствующих групп, полученных к данному промежуточному этапу алгоритма клас сификации.
§2. ОСНОВНЫЕ ТИПЫ ЗАДАЧ КЛАСТЕР-АНАЛИЗА
ИОСНОВНЫЕ ТИПЫ КЛАСТЕР-ПРОЦЕДУР
т-первых, целесообразно подразделение всех задач кластеранализа на два основных типа Бх и Б 2 в зависимости от объема п сово
купности классифицируемых наблюдений Х ъ Х 2, ..., Хп. |
|
|
К типу Бх отнесем задачи классификации сравнительно небольших |
||
по объему совокупностей |
наблюдений, состоящих, как |
правило, |
не более чем из нескольких |
десятков наблюдений. Сюда, |
по-видимо- |
му, могут быть отнесены задачи классификации некоторых макро объектов, таких, как страны, города, фирмы, предприятия, типы тех нологических процессов и т. п.
К типу Б2 будем относить задачи классификации достаточно боль ших массивов многомерных наблюдений (п — порядка нескольких сотен и тысяч; классификация индивидуумов, семей, изделий, неко торых промышленных и технических микрообъектов). Подобное разделение задач классификации на два типа хотя и условно, но весь ма необходимо, и в первую очередь с точки зрения принципиально го различия идей и методов, на основании которых конструируются кластер-процедуры в том и в другом случае. Например, для задач типа Б 2 целесообразно построение процедур последовательного типа, обладающих достаточно хорошими, хотя бы асимптотическими по п свойствами.
С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на три ос новных типа:
а) число классов априори задано;
98
б) |
число классов неизвестно и подлежит определению (оценке); |
1 в) |
число классов неизвестно, но его определение и не входит в ус |
ловие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, состоящей из п объектов (многомер ных наблюдений).
Под иерархическим деревом понимается последовательность пар
{(ѵь S t1)), |
(v2, S t2)), |
..., (V(, SW )}, где ѵг — строго возрастающая или |
|
строго убывающая |
последовательность, St*> — разбиение объектов |
||
на классы, |
соответствующие уровню ѵг (і = 1, |
t). |
Рис. 3.3. Иерархическое дерево как геометрическое представление резуль тата действия иерархической процедуры разбиения наблюдений на классы:
а) агломеративное дерево; б) дивизимное дерево
Иерархическое дерево может быть двух типов. Если St1) — разбие ние, состоящее из п одноэлементных классов, а каждый класс разбие
ния |
StH-n является |
объединением одного или более классов разбие |
||
ния |
StP и разбиение |
S to содержит один |
класс, то иерархическое де |
|
рево |
{(vlf St1)), ..., |
(vj, S (P)} называется |
агломеративным. Если же |
|
St1) — разбиение, |
состоящее из одного класса, совпадающего с мно |
|||
жеством всех исходных наблюдений, а каждый класс разбиения StP |
||||
является объединением одного или более |
классов разбиения SP'+P, |
|||
то {(vx, St1)), ..., (v*, |
StP)} — дивизимное иерархическое дерево. |
На рис. 3.3 схематически изображены два типа иерархических деревьев. Каждая вершина дерева изображает класс объектов.
В |
соответствии с подразделением задач кластер-анализа на типы |
можно |
выделить следующие три основных типа обслуживающих |
их кластер-процедур; |
— процедуры иерархические (агломеративные и дивизимные). Предназначены в основном для решения задач типа (в). Что касается объема классифицируемой совокупности, то формально иерархические процедуры применимы и для задач Бь и для задач Б 2. Однако посколь
4 * |
99 |
ку эти процедуры основаны на переборе элементов матрицы расстоя ний р ( X h X j ) (или матрицы соответствующих мер близости), то конст руктивно реализуемыми их можно признать лишь в пределах задач типа Б].. Следует отметить, что иерархические процедуры применяются иногда и для решения задач типов Б1а и Б1б (см. ниже);
—процедуры параллельные. Предназначены для решения задач типов Б1а и Б1б. Они реализуются с помощью итерационных алгорит мов, на каждом шаге которых одновременно (параллельно) исполь зуются все имеющиеся у нас наблюдения;
—процедуры последовательные. Предназначены в основном для решения задач типов Б 2а и Б 2б. Они реализуются с помощью итера ционных алгоритмов, на каждом шаге которых используется лишь небольшая часть, например одно из исходных наблюдений, а также результат разбиения на предыдущем шаге.
§3. ОПИСАНИЕ КЛАСТЕР-ПРОЦЕДУР
ИИХ ОСНОВНЫХ СВОЙСТВ
1.Иерархические процедуры
Как отмечалось выше, принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объеди нении (разделении) групп элементов сначала самых близких (дале ких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно
собъединения отдельных элементов, а дивизимные — с разъединения всей исходной совокупности наблюдений.
Снекоторой точки зрения иерархические процедуры, по сравнению
сдругими кластер-процедурами, дают более полный и тонкий анализ структуры исследуемого множества наблюдений. Привлекательной стороной подобных алгоритмов является и возможность наглядной интерпретации проведенного анализа. Легко себе представить также использование иерархических процедур и для решения задач кластеранализа типов (а) и (б), т. е. для разбиения наблюдений на какое-то объективно обусловленное число классов, заданное или известное. При решении задач типа(а) для этого, очевидно, следует продолжать реали зацию иерархического алгоритма до тех пор, пока число различных классов не станет равным априори заданному числу k. При решении задач типа (б) естественно было бы подчинить правило остановки иерар
хической процедуры одному из критериев качества разбиения [10]. К недостаткам иерархических процедур следует отнести громозд кость их вычислительной реализации. Соответствующие алгоритмы на каждом шаге требуют вычисления всей матрицы расстояния, а сле довательно, емкой машинной памяти и большого времени. Поэтому реализация таких алгоритмов при числе наблюдений, большем нес кольких сотен, оказывается либо невозможной, либо нецелесообраз
ной.
Кроме того, имеется широкий класс достаточно естественных примеров, в которых иерархические процедуры, даже подчиненные
100