Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 117

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

нетрудно выразить исходные переменные л:<1>, х& \ ..., х<р>через глав­ ные компоненты

 

 

( 2)

,(Р)

(4.9)

hi У(1) + hi УК1>+

+ ІріУ

(в матричной записи X =

L'Y),

а также показать [2, с. 376], что обоб­

щенная дисперсия ) 2 У|

и сумма дисперсий (DyO) + Dy<2>+

... +

+ Dг/(р>) главных компонент

равны

обобщенной дисперсии

12 | и

сумме дисперсий (DxO) + Dx(2>+ ... + Dx<p>) исходных признаков. Это дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым

размерность исследуемого пространства.

Действительно, анализируя изменение относительной доли дис­ персии

q (p') — р У0) + °У{2) + • ■• + Р У{р,) _

h + K +

••• + Ѵ

Da:*1' +Da:*2' + . . .

^1+ ^2+

• • • +^р

(1 ^ p ' ^ р ) , вносимой пер­ выми р ' главными компонен­ тами, в зависимости от числа этих компонент, можно разум­ но определить число компо­ нент, которое целесообразно оставить в рассмотрении. Так: при изменении q ( p ') , изобра­ женном на рис. 4.2, очевидно целесообразно было бы сокра­ тить размерность пространст­ ва с р = 10 до р ' = 3, так как добавление всех осталь­ ных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10%.

З а м е ч а н и е 1. В ре­ альных задачах точное зна­ ние ковариационной матрицы 2 является скорее исключе­ нием, чем правилом. Поэтому в тех случаях, когда 2 неиз­ вестна, данное выше опреде­ ление следует использовать применительно к выбороч­ ной ковариационной матрице

Ф')

Ю

у..--''-- Л

—^

0,9

 

 

0,8

0,1

0,5

J__I I__ L

J ___ L

Ю

3 4

6 7 8

Рис. 4.2. Изменение относительной доли сум­ марной дисперсии исследуемых признаков, обусловленной первыми p' главными ком­ понентами, в зависимости от р' (случай

Р-Ю)

2 , элементы которой

подсчитываются на основании имеющихся у нас

наблюдений Х ъ Х 2, ..., Хп по формуле

 

 

а и L 2

1 "

Лі) „(/)

(4.11)

т2.

Л у ) Л у у

 

ѵ= 1

 

 

139


в которой — значение q-я компоненты исследуемого вектора X, за­ меренное на ѵ-м объекте, Xyq) — соответствующее центрированное на­ блюдение, а X<?> — среднее значение q-я компоненты по всем обследо­ ванным объектам, т. е. x^) = [x[q) + x ^ + ... + x ql)/n.

Главные компоненты, вычисленные на основании элементов а ^ вы­

борочной матрицы 2, называют обычно выборочными главными компо­ нентами, или главными компонентами выборки, в отличие от главных компонент генеральной совокупности. В тех случаях, когда нам важно будет отличать главные компоненты выборки от главных ком­ понент генеральной совокупности, мы будем снабжать первые (и все

их характеристики)

«крышками» сверху, например,

%іг /г и т. д.

З а м е ч а н и е

2. Использование главных компонент оказывается

наиболее естественным и плодотворным в ситуациях, в которых все компоненты х*1', х<2)....... х<г> исследуемого вектора X имеют общую физическую природу и соответственно измерены в одних и тех же еди­ ницах. К таким примерам можно отнести исследование структуры бюд­ жета времени индивидуумов (все хО') измеряются в единицах време­ ни), исследование структуры потребления семей (все xO') измеряются в денежных единицах), исследование общего развития и умственных способностей индивидуумов с помощью специальных тестов (все х<‘> измеряются в баллах), разного рода антропологические исследования индивидуумов (все х(г) измеряются в единицах меры длины) и т. д. Если же различные признаки х([>, х<2>, ..., х<р) измеряются в раз­ личных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь пред­ варительно переходит к вспомогательным безразмерным признакам X*«'), например, с помощью нормирующего преобразования

4

і=- 1,

2,

...,

р

(4.12)

°

V Оц

V — 1,

2,

...,

п

 

где оц соответствует обозначениям формул (4.1) и (4.11), а затем строит главные компоненты относительно этих вспомогательных признаков

X* и их ковариационной матрицы 2х»,

которая,

как легко видеть,

является одновременно выборочной корреляционной матрицей R ис­

ходных наблюдений X t.

 

 

 

З а м е ч а н и е 3.

В некоторых задачах оказывается полезным по­

нятие так называемых

обобщенных главных компонент, при определе-

 

 

р

=

1) ограничения на

нии которых оговаривают более общие (чем 2

коэффициенты ltj, т. е. требуют, чтобы

/=і

 

 

 

 

 

 

2 2 ^ ® Л

= 1,

 

 

 

*= 1Л= 1

 

 

 

140


где a>kj — некоторые дополнительно введенные веса. Очевидно, при (ohj = 1 при k = j и ü)hj — 0 при k Ф / мы имеем обычное условие нор­ мировки коэффициентов l(j и обычные главные компоненты. Можно показать [29], что при такой модификации условий нормировки коэф­

фициенты іі

= (1ц,

/j2, ..., hp)', с помощью которых обобщенные глав­

ные

компоненты у

выражаются через

исходные признаки

х Р \

х(2),

....

(4.1 и 4.2), определяются как решения уравнений

 

 

 

 

( 2 - А г й )/, =

0,

(4.5')

 

— і-й по величине корень уравнения

 

 

 

 

(2 _ & 2 ) = 0,

 

(4.6')

а матрица Q = (ыц), і, / = 1,2, ..., р, — некоторая положительно оп­ ределенная матрица весов. При этом, как и прежде, дисперсия обоб­

щенной главной компоненты уМ равна А,іу а г/<‘> и г/(/> при і ф } взаимно некоррелированы.

Заметим, кстати, что если в качестве матрицы весов выбрать матрицу

 

H

l

0

. . .

0

Й =

 

 

 

0

 

СТ2 2

■■ .

0

 

0

 

0

 

а

то, как легко показать, обобщенные компоненты (в метрике П), по­ строенные по исходным признакам хР>, ..., совпадут с обычны­ ми компонентами, построенными по вспомогательным безразмерным (нормированным) признакам х**1*, ..., х*(р) (4.12).

Проиллюстрируем определение главных компонент на численном примере, заимствованном из [26].

П р и м е р 1. По данным измерений (в мм) длины (х<Р), ширины

(х<2>) и высоты (х<3>) панциря 24 особей (п = 24) одного из видов черепах по формуле (4.11) определена выборочная ковариационная матрица

/451,39

271,17

168,70 \

£ =.(271,17

171,73

103,29 •

\ 168,70

103,29

66,65 )

Решая, в соответствии с (4.6), кубичное уравнение (относительно А) вида

451,39 —А

271,17

168,70

= 0,

271,17

171,73 —А

103,29

168,70

103,29

66,65

—А

находим

А, = 680, 40, А2 = 6,50, А3 = 2,86.

141


Подставляя последовательно численные значения

и

в си-

стему (4.5) и решая эти системы относительно неизвестных

/г = (/гі,

/г2>hzY (i = 1, 2, 3), получаем

 

 

В качестве главных компонент получаем

г/<» = 0,81x(D + 0,50*<2>+ 0,31И3>, г/(2) = —О.ббл:«1) + 0,83x<2>+ 0,10х<3>,

г/<3>= — 0,2\x<l) — 0,2bxW + 0,95х<3>.

Здесь

под X

х<2> и

х<3> подразумеваются

в соответствии с (4.1

отклонения размеров длины (х (1)), ширины (х<2>)

и высоты (x<3>) пан­

циря

от своих средних

значений.

 

Вычисление относительной доли суммарной дисперсии, обусловлен­

ной одной,

двумя и тремя главными компонентами, в соответствии

с формулой

(4.10) дает

Отсюда можно сделать вывод, что почти вся информация о специфи­ ке размеров панциря данного вида черепах содержится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классификации исследуемых особей.

2. Экстремальные свойства главных компонент. Их интерпретация)а

а) Свойство наименьшей ошибки «автопрогнозау> или наилучшей самовоспроизводимости. Можно показать [27], [29], [28], что с помощью первых р' главных компонент у&\ у<-2\ ..., у (р,) (р' <. р) исходных признаков х*1), х<2>, ..., х^~> достигается наилучший прогноз этих признаков среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набора из р произвольных признаков.

Поясним и уточним сказанное. Пусть мы хотим заменить исходный исследуемый р-мерный вектор наблюдений X на вектор У = (р(1), г/(2>, ..., г/(р,)) меньшей размерности р' , в котором каждая из компо­ нент являлась бы линейной комбинацией р исходных (или какихлибо других, вспомогательных) признаков, теряя при этом не слишком много информации. Информативность нового вектора У зависит от того, в какой степени р' введенных линейных комбинаций дают возмож­ ность «реконструировать» р исходных (измеряемых на объектах) при-

142