Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 94
Скачиваний: 0
Следующие три вида расстояний хотя и являются частными слу чаями метрики ро, все же заслуживают специального описания;
— обычное евклидово расстояние
Pß (*,. Х;) = У{> .(1) ДО)2+ 0 ( 2 ) |
)2+ ...+ (. Ар) Ар )\ |
К ситуациям, в которых использование этого расстояния можно приз нать оправданным, прежде всего относят следующие:
—наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида а2-/, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию;
—компоненты х<х>, х<2>, ..., вектора наблюдений X однородны по своему физическому смыслу, причем установлено, например, с по мощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу;
—факторное пространство совпадает с геометрическим простран ством нашего бытия, что может быть лишь в случаях р — 1, 2, 3, и по нятие близости объектов соответственно совпадает с понятием геомет рической близости в этом пространстве, например классификация попаданий при стрельбе по цели;
V — «взвешенное» евклидово расстояние
р.е № , х , ) = Г ШіМ ,,- 4 , ’)г+ » аЫ !’- х Г ) 2+ . . . + » Р(х1'”- * Г > 2.
Обычно применяется в ситуациях, в которых нам так или иначе удается приписать каждой из компонент х<*) вектора наблюдений X некото рый неотрицательный «вес» coft, пропорциональный степени его важ ности с точки зрения решения вопроса об отнесении заданного объекта
к тому или иному классу. Удобно полагать при |
этом 0 ^ cofe ^ 1, |
||
* = 1 , 2 , ..., р. |
весов сой связано, как |
правило, |
с дополнительным |
Определение |
|||
исследованием, |
например получением и |
использованием обучающих |
выборок, организацией опроса экспертов и обработкой их мнений, ис пользованием моделей факторного анализа. Попытки определения ве сов cöfe только по информации, содержащейся в исходных данных [15], [75], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить нас от истинного решения. Достаточно заметить, что в зави
симости от весьма тонких и незначительных |
вариаций физической |
и статистической природы исходных данных, |
можно привести одина |
ково убедительные доводы в пользу двух диаметрально противополож ных решений этого вопроса: выбирать a>k пропорционально величине среднеквадратической ошибки признака x(Ä> [26], либо — пропорцио нально обратной ]!] величине среднеквадратической ошибки этого же признака [77], [15], [75]^
— Хеммингово расстояние. Используется как мера различия объек тов, задаваемых дихотомическими признаками. Оно задается с по-
78
мощью формулы
p„(*i. *>) = І I4 s)- * n
s — 1
и, следовательно, равно числу ѵи несовпадений значений соответст вующих признаков в рассматриваемых і-м и у'-м объектах;
— другие меры близости для дихотомических признаков-.
Меры близости объектов, описываемых набором дихотомических
признаков, обычно основаны на характеристиках |
ѵ[;;) и ѵ^ = ѵ!“>+ |
|
+ ѵ\}\ где V-/’ (ѵ'Д) — число нулевых (единичных) компонент, |
совпав |
|
ших в объектах X, и Xj. Так, например, если из каких-либо |
профес |
сиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей тот же, что и от сов
падения или несовпадения |
единиц, то в качестве меры близости объек |
тов Х і и Xj используют |
величину |
|
r(XitX j ) = ^ . |
|
D |
Весьма полный обзор различных мер близости объектов, описывае мых дихотомическими признаками, читатель найдет в [6], [14], [71];
— меры близости и расстояния, задаваемые с помощью потенциаль ной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и, как выяснилось, теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроен ные функции К (X, Y) от двух векторных переменных X и Y, а чаще всего просто от расстояния р (X, Y) между этими переменными, которые мы, следуя [3], будем называть потенциальными1.*
Так, например, если пространство X всех мыслимых значений иссле дуемого вектора X разбито на полную систему непересекающихся од носвязных компактных множеств или однородных классов Sx, ..., Sh,
и потенциальная функция К (X, F) |
определена для |
X £ X и Y £ X |
|||
следующим образом |
|
|
|
|
|
X (X |
Y) = |
I |
если X 6 Sj, |
Y £ Sj, / = 1,2, |
..., k |
1 |
' |
\0, |
в противном |
случае, |
|
то с помощью этой функции удобно строить обычные эмпирические
гистограммы (оценки плотности распределения fn (U)) по имеющимся наблюдениям Ux, U2, ..., Un. Действительно, легко видеть, что
1 |
*,) |
V(б/) |
(3.1) |
fn(U) = |
nV (Si (U)) |
||
w (S H U ) ) ' n |
г- |
|
1 В некоторых работах можно встретить по существу те же функции, но под другим названием, например, window —■«окно» [64], [58]. Определение «потен циальные функции» 13] обосновывается тем, что примером подобных зависимостей в физике является потенциал, определенный для любой точки пространства, но зависящий от того, где расположен источник потенциала. Строгого математичес кого описания класса потенциальных функций в литературе нет, а поскольку оно нам не понадобится, мы этим также не будем заниматься.
79
где V (U) — число наблюдений, попавших в класс Sj (U), содержащий
точку V, |
а |
WSnu) —объем области S l{u) (геометрическую интерпре |
тацию для |
одномерного случая см. на рис. 3.1). |
|
Если |
в |
исследуемом факторном пространстве X задана метрика |
р (U, Е), |
то можно не связывать себя заранее зафиксированным раз- |
Рис. 3.1. График гистограммы fn (U), построенный с помощью разбиения на группы выборочной совокупности Хи ■■■, Хп. Размерность совокупности
Р= 1
биением X на классы, а задавать К (U, Е) как монотонно убывающую
функцию расстояния р (U, Е). Например, |
|
K(U, V) = е - “Р2(Ц. Г); а > 0 ) |
|
K(U, Е) == [1 + ap2(U, Ѵ)Г\ а > 0. |
(3.2) |
Другие способы выбора потенциальной функции |
по расстоянию |
р можно найти в [3]. Приведем здесь еще лишь одну достаточно общую форму связи между р (U, Е) и К (U, Е), в которой расстояние р высту
пает как функция некоторых |
значений |
потенциальной |
функции К |
|
Р (U, |
V) r = Y K ( U , |
U) + K ( Е, |
Е) —2K( U, V). |
(3.3) |
В частности, |
выбрав в качестве К (U, |
V) скалярное произведение |
векторов U и Е, т. е. положив |
|
K(U,V) = (U,Y)= |
О, |
|
і —1 |
мы получим по формуле (3.3) обычное евклидово расстояние ря.
80
Легко понять, что и в случае задания потенциальной функции в виде соотношений (3.2), формулы (3.1) позволяют нам строить ста тистические оценки плотности распределения (3.1), хотя график
функции }п (U) будет уже не ступенчатым, а сглаженным.
Легко также понять, что при отсутствии метрики в пространстве X и при ее наличии функции К (U, V) естественно могут быть исполь зованы в качестве меры близости объектов U и V, а также объектов и целых классов и классов между собой. В первом случае эта мера позволяла получить, правда, лишь качественный ответ: объекты близ ки, если U и V принадлежат одному классу, и объекты далеки — в противном случае; во втором случае мера близости является коли чественной характеристикой. Позже мы еще вернемся к потенциаль ным функциям и к их использованию в задачах классификации.
а) О физически содержательных мерах близости объектов. В неко торых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содер жательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить зада ча классификации с целью агрегирования отраслей народного хозяй ства, решаемая на основе матрицы межотраслевого баланса [18]. Таким образом, классифицируемым объектом в данном примере явля ется отрасль народного хозяйства, а матрица межотраслевого балан са представлена элементами s,;-, где под stj подразумевается сумма годовых поставок в денежном выражении і-й отрасли в /-ю. В качест ве матрицы близости {г^} в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из г-й отрасли в /-ю заменялось долей этих поставок по отношению ко всем поставкам і-й области. Симметри зацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [18] близость между і-й и /-й отраслями выражалась либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок.
б) О мерах близости числовых признаков (отдельных факторов).
Как упоминалось, решение задач классификации многомерных дан ных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент хW, ..., х<р) наблюдаемых векторов X сравнительно не большое число наиболее существенных, наиболее информативных.
* Для этих целей бывает полезно |
рассмотреть |
каждую из компонент |
Д1), ..., Д°) в качестве объекта, |
подлежащего |
классификации. Дело |
в том, что разбиение признаков х ^ \ ..., Д р) на небольшое число одно родных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смыс ле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта. Следовательно, можно надеяться,
81
что мы не понесем большого ущерба в информации, если для дальней шего исследования оставим лишь по одному представителю от каждой такой группы.
Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками и хб), так же как и между наборами таких признаков, используются различные характеристики степени их кор релированное™, и в первую очередь коэффициенты корреляции. Подробнее об этом см. главу IV настоящей работы.
Завершая изложение, посвященное введению понятий расстояний и мер близости, характеризующих отдельные объекты, и их краткому обзору, сошлемся на работы [71], [63], [67], [14], [6], в которых эти вопросы рассмотрены весьма подробно.
2. Расстояние между классами и мера близости классов
При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть Si — і-я группа (класс, кластер) объектов, nt — число объек
тов, образующих группу S t, вектор Х(і)-— арифметическое среднее
векторных наблюдений, входящих в S t, другими словами, X (і) — «центр тяжести» і-й группы, а р (Slt S m) — расстояние между группа ми S, и S m.
Ниже приводятся примеры наиболее употребительных и наиболее
общих расстояний и мер близости между классами объектов: |
|
|||||
■— расстояние, |
измеряемое |
по принципу «ближайшего соседа» |
||||
«.nearest neighbour» [28], [55], [41], [71] |
|
|
||||
|
Рты (s i>Sm) = |
|
min |
p (*!*,); |
(3.4) |
|
|
|
|
x i esltxJesm |
|
||
— расстояние, |
измеряемое |
по |
принципу «дальнего соседа» |
«furt |
||
hest neighbour» [55], [42] |
|
|
|
|
||
Ртах |
sm)= |
|
max |
р(ХігХ,)\ |
(3.5) |
|
|
|
Xi * Sl Xj ^ Sm |
|
|||
— расстояние, измеряемое по «центрам тяжести» групп [55], [42] |
||||||
|
|
.p(S1,S n) - p ( X ( /) ,X H ; |
(3.6) |
|||
— мера близости |
групп, основанная |
на потенциальной функции |
||||
[ 10] |
|
|
|
|
|
|
r(S „S m) = - 4 - |
2 |
2 |
K(Xi, Xjy, |
|
||
|
|
ni nmXiest Xj csm |
|
— расстояние, измеряемое по принципу «средней связи». Это рас стояние определяется [55], [42] как арифметическое среднее всевоз-
82