Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 94

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Следующие три вида расстояний хотя и являются частными слу­ чаями метрики ро, все же заслуживают специального описания;

обычное евклидово расстояние

Pß (*,. Х;) = У{> .(1) ДО)2+ 0 ( 2 )

)2+ ...+ (. Ар) Ар )\

К ситуациям, в которых использование этого расстояния можно приз­ нать оправданным, прежде всего относят следующие:

наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида а2-/, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию;

компоненты х<х>, х<2>, ..., вектора наблюдений X однородны по своему физическому смыслу, причем установлено, например, с по­ мощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу;

факторное пространство совпадает с геометрическим простран­ ством нашего бытия, что может быть лишь в случаях р — 1, 2, 3, и по­ нятие близости объектов соответственно совпадает с понятием геомет­ рической близости в этом пространстве, например классификация попаданий при стрельбе по цели;

V — «взвешенное» евклидово расстояние

р.е № , х , ) = Г ШіМ ,,- 4 , ’)г+ » аЫ !’- х Г ) 2+ . . . + » Р(х1'”- * Г > 2.

Обычно применяется в ситуациях, в которых нам так или иначе удается приписать каждой из компонент х<*) вектора наблюдений X некото­ рый неотрицательный «вес» coft, пропорциональный степени его важ­ ности с точки зрения решения вопроса об отнесении заданного объекта

к тому или иному классу. Удобно полагать при

этом 0 ^ cofe ^ 1,

* = 1 , 2 , ..., р.

весов сой связано, как

правило,

с дополнительным

Определение

исследованием,

например получением и

использованием обучающих

выборок, организацией опроса экспертов и обработкой их мнений, ис­ пользованием моделей факторного анализа. Попытки определения ве­ сов cöfe только по информации, содержащейся в исходных данных [15], [75], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить нас от истинного решения. Достаточно заметить, что в зави­

симости от весьма тонких и незначительных

вариаций физической

и статистической природы исходных данных,

можно привести одина­

ково убедительные доводы в пользу двух диаметрально противополож­ ных решений этого вопроса: выбирать a>k пропорционально величине среднеквадратической ошибки признака x(Ä> [26], либо — пропорцио­ нально обратной ]!] величине среднеквадратической ошибки этого же признака [77], [15], [75]^

Хеммингово расстояние. Используется как мера различия объек­ тов, задаваемых дихотомическими признаками. Оно задается с по-

78


мощью формулы

p„(*i. *>) = І I4 s)- * n

s — 1

и, следовательно, равно числу ѵи несовпадений значений соответст­ вующих признаков в рассматриваемых і-м и у'-м объектах;

— другие меры близости для дихотомических признаков-.

Меры близости объектов, описываемых набором дихотомических

признаков, обычно основаны на характеристиках

ѵ[;;) и ѵ^ = ѵ!“>+

+ ѵ\}\ где V-/’ (ѵ'Д) — число нулевых (единичных) компонент,

совпав­

ших в объектах X, и Xj. Так, например, если из каких-либо

профес­

сиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей тот же, что и от сов­

падения или несовпадения

единиц, то в качестве меры близости объек­

тов Х і и Xj используют

величину

 

r(XitX j ) = ^ .

 

D

Весьма полный обзор различных мер близости объектов, описывае­ мых дихотомическими признаками, читатель найдет в [6], [14], [71];

— меры близости и расстояния, задаваемые с помощью потенциаль­ ной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и, как выяснилось, теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроен­ ные функции К (X, Y) от двух векторных переменных X и Y, а чаще всего просто от расстояния р (X, Y) между этими переменными, которые мы, следуя [3], будем называть потенциальными1.*

Так, например, если пространство X всех мыслимых значений иссле­ дуемого вектора X разбито на полную систему непересекающихся од­ носвязных компактных множеств или однородных классов Sx, ..., Sh,

и потенциальная функция К (X, F)

определена для

X £ X и Y £ X

следующим образом

 

 

 

 

X (X

Y) =

I

если X 6 Sj,

Y £ Sj, / = 1,2,

..., k

1

'

\0,

в противном

случае,

 

то с помощью этой функции удобно строить обычные эмпирические

гистограммы (оценки плотности распределения fn (U)) по имеющимся наблюдениям Ux, U2, ..., Un. Действительно, легко видеть, что

1

*,)

V(б/)

(3.1)

fn(U) =

nV (Si (U))

w (S H U ) ) ' n

г-

 

1 В некоторых работах можно встретить по существу те же функции, но под другим названием, например, window —■«окно» [64], [58]. Определение «потен­ циальные функции» 13] обосновывается тем, что примером подобных зависимостей в физике является потенциал, определенный для любой точки пространства, но зависящий от того, где расположен источник потенциала. Строгого математичес­ кого описания класса потенциальных функций в литературе нет, а поскольку оно нам не понадобится, мы этим также не будем заниматься.

79


где V (U) — число наблюдений, попавших в класс Sj (U), содержащий

точку V,

а

WSnu) —объем области S l{u) (геометрическую интерпре­

тацию для

одномерного случая см. на рис. 3.1).

Если

в

исследуемом факторном пространстве X задана метрика

р (U, Е),

то можно не связывать себя заранее зафиксированным раз-

Рис. 3.1. График гистограммы fn (U), построенный с помощью разбиения на группы выборочной совокупности Хи ■■■, Хп. Размерность совокупности

Р= 1

биением X на классы, а задавать К (U, Е) как монотонно убывающую

функцию расстояния р (U, Е). Например,

 

K(U, V) = е - “Р2(Ц. Г); а > 0 )

 

K(U, Е) == [1 + ap2(U, Ѵ)Г\ а > 0.

(3.2)

Другие способы выбора потенциальной функции

по расстоянию

р можно найти в [3]. Приведем здесь еще лишь одну достаточно общую форму связи между р (U, Е) и К (U, Е), в которой расстояние р высту­

пает как функция некоторых

значений

потенциальной

функции К

Р (U,

V) r = Y K ( U ,

U) + K ( Е,

Е) —2K( U, V).

(3.3)

В частности,

выбрав в качестве К (U,

V) скалярное произведение

векторов U и Е, т. е. положив

 

K(U,V) = (U,Y)=

О,

 

і —1

мы получим по формуле (3.3) обычное евклидово расстояние ря.

80


Легко понять, что и в случае задания потенциальной функции в виде соотношений (3.2), формулы (3.1) позволяют нам строить ста­ тистические оценки плотности распределения (3.1), хотя график

функции }п (U) будет уже не ступенчатым, а сглаженным.

Легко также понять, что при отсутствии метрики в пространстве X и при ее наличии функции К (U, V) естественно могут быть исполь­ зованы в качестве меры близости объектов U и V, а также объектов и целых классов и классов между собой. В первом случае эта мера позволяла получить, правда, лишь качественный ответ: объекты близ­ ки, если U и V принадлежат одному классу, и объекты далеки — в противном случае; во втором случае мера близости является коли­ чественной характеристикой. Позже мы еще вернемся к потенциаль­ ным функциям и к их использованию в задачах классификации.

а) О физически содержательных мерах близости объектов. В неко­ торых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содер­ жательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить зада­ ча классификации с целью агрегирования отраслей народного хозяй­ ства, решаемая на основе матрицы межотраслевого баланса [18]. Таким образом, классифицируемым объектом в данном примере явля­ ется отрасль народного хозяйства, а матрица межотраслевого балан­ са представлена элементами s,;-, где под stj подразумевается сумма годовых поставок в денежном выражении і отрасли в /-ю. В качест­ ве матрицы близости {г^} в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из г-й отрасли в /-ю заменялось долей этих поставок по отношению ко всем поставкам і-й области. Симметри­ зацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [18] близость между і-й и /-й отраслями выражалась либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок.

б) О мерах близости числовых признаков (отдельных факторов).

Как упоминалось, решение задач классификации многомерных дан­ ных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент хW, ..., х<р) наблюдаемых векторов X сравнительно не­ большое число наиболее существенных, наиболее информативных.

* Для этих целей бывает полезно

рассмотреть

каждую из компонент

Д1), ..., Д°) в качестве объекта,

подлежащего

классификации. Дело

в том, что разбиение признаков х ^ \ ..., Д р) на небольшое число одно­ родных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смыс­ ле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта. Следовательно, можно надеяться,

81


что мы не понесем большого ущерба в информации, если для дальней­ шего исследования оставим лишь по одному представителю от каждой такой группы.

Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками и хб), так же как и между наборами таких признаков, используются различные характеристики степени их кор­ релированное™, и в первую очередь коэффициенты корреляции. Подробнее об этом см. главу IV настоящей работы.

Завершая изложение, посвященное введению понятий расстояний и мер близости, характеризующих отдельные объекты, и их краткому обзору, сошлемся на работы [71], [63], [67], [14], [6], в которых эти вопросы рассмотрены весьма подробно.

2. Расстояние между классами и мера близости классов

При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть Si і-я группа (класс, кластер) объектов, nt — число объек­

тов, образующих группу S t, вектор Х(і)-— арифметическое среднее

векторных наблюдений, входящих в S t, другими словами, X (і) — «центр тяжести» і-й группы, а р (Slt S m) — расстояние между группа­ ми S, и S m.

Ниже приводятся примеры наиболее употребительных и наиболее

общих расстояний и мер близости между классами объектов:

 

■— расстояние,

измеряемое

по принципу «ближайшего соседа»

«.nearest neighbour» [28], [55], [41], [71]

 

 

 

Рты (s i>Sm) =

 

min

p (*!*,);

(3.4)

 

 

 

x i esltxJesm

 

— расстояние,

измеряемое

по

принципу «дальнего соседа»

«furt­

hest neighbour» [55], [42]

 

 

 

 

Ртах

sm)=

 

max

р(ХігХ,)\

(3.5)

 

 

Xi * Sl Xj ^ Sm

 

— расстояние, измеряемое по «центрам тяжести» групп [55], [42]

 

 

.p(S1,S n) - p ( X ( /) ,X H ;

(3.6)

— мера близости

групп, основанная

на потенциальной функции

[ 10]

 

 

 

 

 

 

r(S „S m) = - 4 -

2

2

K(Xi, Xjy,

 

 

 

ni nmXiest Xj csm

 

— расстояние, измеряемое по принципу «средней связи». Это рас­ стояние определяется [55], [42] как арифметическое среднее всевоз-

82