Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 116

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

знаков. Естественно полагать, что ошибка прогноза X по У (обозна­ чим ее 6) будет определяться так называемой остаточной дисперсион­ ной матрицей вектора X при вычитании из него наилучшего прогноза по Y, т. е. матрицей А = (Ді;-), где

AW= M

Д

ъа у

(х</>_ Д

.

 

Р'

 

в смысле метода наименьших

квадра-

Здесь ^ Ьп у(1)—наилучший,

/= 1

 

 

г/<’>, у<2>,...,

т. е.

б = /(Д),

тов, прогноз х<;) по компонентам

где f (А) — некоторая функция (качества предсказания) от элементов остаточной дисперсионной матрицы А.

Рао [29] решал задачу наилучшего прогноза X только в классе р'

линейных комбинаций от исходных

признаков хW, ...,

х <р> и рас­

смотрел естественные меры ошибки прогноза, такие, как

 

f (А) = fr (А) = Ац +

А22 + ••• + Арр

(4-13)

и

 

 

/ (А) = II А fl = л / ~

І І А I,

(4.14)

*і= і / = і

tr (А) и II А И называются соответственно следом и евклидовой нормой матрицы А. Он показал, что функции (4.13) и (4.14) одновременно достигают минимума тогда и только тогда, когда в качестве г/W, г/(2)......

,...,г/(р,) выбраны первые р' главных компонент вектора X, причем величина ошибки прогноза б явным образом выражается через последние р р' собственных чисел А,р+ъ ..., Ар исходной ковариа­ ционной матрицы 2 или через последние р р' собственных чисел

АР' +1...... Ар выборочной ковариационной матрицы 2, построенной по

наблюдениям Х ъ Х2,

..., Хп. В частности,

при / (А) = tr (А):

б = Ар' + і + Ар» + 2 + ••• + Ар;

при / (А) = IIА||:

ö =

|/"Ap'-f. 1+ Ар'-|_2 + ••• ~ЬА]}.

В работах [27] — [28]

эта схема обобщена на случай произвольных

предсказывающих признаков zW, z<2>, ..., z<p>и более широкого клас­ са функций f (А) и показано, что шіп / (А) достигается тогда и только

тогда,

когда

в

качестве

исходных предсказывающих

признаков

zW.......z<^> берутся

сами исследуемые (измеряемые)

признаки

х ^ \

х<2\

...,

х(р\

а в качестве

р'

линейных комбинаций (предикторов)

г/(1),

у (2), ..., у(р')

от них выбраны первые р' главных компонент век­

тора X. При этом величина ошибки прогноза б, как и прежде, опреде­

ляется

лишь

р р' последними

собственными значениями

АР'+1,

Ар'+2, ..., Ар

исходной ковариационной матрицы 2.

(А) =

| А |,

в ко­

В^эту схему укладывается, в частности, случай /

тором, кстати, б =

Ар+1 -Ар»+а- ...

• Ар.

признаков

xW,

Поясним

идею

описания

(прогноза) исходных

х<2>, ..., х<рі

с помощью меньшего чем р числа их линейных комбина­

ций на примере

1.

 

 

 

 

 

 

 

143


Вэтом примере, как мы видели, р — 3. Зададимся целью снизить размерность исходного факторного пространства до единицы (р' = 1), т. е. описать все три признака с помощью одной линейной комбинации от них.

Всоответствии с описанным выше экстремальным свойством «авто­

прогноза» главных компонент возьмем в качестве этой единственной линейной комбинации первую главную компоненту, т. е. переменную

г/(>) =0,81x(1>+ 0,50;с(2) -j-0,31x(3).

Метод наименьших квадратов приводит к следующему правилу вы­ числения неизвестных коэффициентов bix [1, с. 125].

,__ соѵ(*(г), у(1))

0,81 соѵ (лМ', х ^ ) + 0,50соѵ (х^К

0,31 соѵ (х^3\ + ))

=

"

Подставляя в эту формулу значения соѵ (х<‘\ лМ>), взятые из ковариационной матрицы 2 (см. стр. 141), получаем

л:(І) = би г/(1) + е(1) - 0,805г/<'> + е<»,

Х(Ѵ = &21г/2)+ е (2> ^ОДЭЗг/Оі + еі2),

х<3>= Ь31у(3) + 8(3) = 0,310«/<») + 8<з),

где е<‘) — случайные (остаточные)

ошибки

прогноза

исходных ком­

понент

— х(г') по первой главной компоненте yW.

Если в качестве относительной ошибки

прогноза

исходного при­

знака л+> по первой главной компоненте

рассмотреть величину

бі = (De(‘>/D+‘>).100%,

то несложные подсчеты дают

 

 

бх =

1%, б2 =

2% и б3 = 4%.

 

Суммарная характеристика относительной ошибки прогноза при­ знаков + 1), x<3> и по г/t1) (в соответствии с вышеописанным) может быть подсчитана по формуле

бсум.оТн=Ю 0% .

tr (Л)

100% -

Ä*2‘ Яз

-0,42% .

D ( + 1 > + *(2>+ x<3))

A-l+ A/г +

 

 

 

 

б)

Свойства наименьшего искажения геометрической структуры

исходных точек (наблюдений) при их проектировании в пространство меньшей размерности р', «натянутое» на р' первых главных компонент.

Всякий переход к меньшему числу (р') новых переменных у (*), ...,

..., г/(р,), осуществляемый с помощью линейного преобразования (мат­

рицы) С = (си), і =

1, 2, ..., p', j =

1, 2, ..., р, т. е.

У(і) ~

cu xW '(t' =

1, 2 ,..., p'),

 

/= 1

 

или в матричной записи

 

 

Y — СХ

(4.15)


нам удобнее будет рассматривать теперь как проекцию исследуемых

наблюдений

Х ъ Х2, .... Х п из исходного факторного пространства X

в некоторое

подпространство меньшей размерности Yp>.

Геометрическая интерпретация сформулированных выше экстре­ мальных свойств «автопрогноза» (самовоспроизводимости) главных ком­ понент позволяет получить следующие интересные факты.

С в о й с т в о 1. Сумма квадратов расстояний от исходных точекнаблюдений X lt Х2, ...,Хп до пространства, натянутого на первые р главных компонент, наименьшая относительно всех других подпрост­ ранств размерности р', полученных с помощью произвольного линей­ ного преобразования исходных координат.

Это свойство станет понятным (в свете вышеописанного экстремаль­ ного свойства «автопрогноза»), если напомнить, что сумма квадратов расстояний от исходных точек до подпространства, натянутого на р ’ первых главных компонент, есть не что иное, как умноженная на я (об­ щее число наблюдений) суммарная дисперсия остаточных компонент

(ошибок прогноза) е<1>,

е<2>,

...,

е<р>,

следовательно, эта сумма квадра­

тов равна я (Ä-p'+ i +

Â-p'+ 2

+

••• +

^p)- Наглядным пояснением это­

го свойства может служить рис. 4.1а,

на котором ось z/Г) соответствует

подпространству, натянутому на первую главную компоненту (т. е. р = 2 и р' = 1), а сумма квадратов расстояний до этого подпространст­ ва есть сумма перпендикуляров, опущенных из точек, изображающих

наблюдениях; = (х-1*, Х;2)), на эту ось (сама ось может быть ин­ терпретирована в данном случае как линия ортогональной регрессии х<2> пох<[>), см. [1, с. 127].

С в о й с т в о 2. Среди всех подпространств заданной размерности

р' (р' <

р), полученных из

исследуемого факторного пространства

X с помощью произвольного линейного преобразования исходных ко­

ординат

х^>, х<2>, ...,х<р>, в

подпространстве, натянутом на первые

р' главных компонент, наименее искажается сумма квадратов расстоя­ ний между всевозможными парами рассматриваемых точек-наблюдений.

Поясним это свойство. Пусть Yp' (С) ■— подпространство размер­ ности р', натянутое на координаты у<1), #(2), ..., у {р'\ получаемые из

исходных координатх<!>, х<2>,

..., х<р> с помощью произвольного ли­

нейного преобразования (4.15), а Уъ ...,

Yn — проекции исходных

наблюдений Хх, ..., Хп в подпространство

Yp- (С), т. е. запись исход­

ных наблюдений в координатах подпространства Yp>(С).

Введем в рассмотрение величины

 

і= 1/= 1

 

 

МР'(С)= і

і ] ( Y i - Y ^ Y i - Y j Y ,

!= 1/=1

выражающие суммы квадратов расстояний между всевозможными па­ рами имеющихся у нас наблюдений соответственно в исходном про­ странстве X и в подпространстве Yp>(С).

145


Из простых геометрических соображений очевидно, что всегда

Мр' (С) < Мр при р' < р.

Рассматривая в качестве меры искажения суммы квадратов попар­ ных взаимных расстояний между точками-наблюдениями величину

МР- М Р-(С),

можно показать (см. [29]), что

 

 

Mp- М »

min {Мр- - М р . (С)) =

Ѵ ( Ѵ )

с

 

 

 

— Я2 (Хр' )_1-f-

+ 2 + • •• + ^р)>

где Lp' — матрица размера p'

X р,

строками которой являются пер­

вые р' собственных векторов /[, Ѵ2,

..., Ір> исходной ковариационной

матрицы 2 (т. е. подпространство YP' (Lp-) является подпространст­ вом, натянутым на первые р' главных компонент вектора наблюде­

ний X).

 

3. Среди всех подпространств заданной размерности

С в о й с т в о

р ' (p' <

р), полученных из исследуемого факторного пространства

X с помощью произвольного линейного преобразования исходных ко­

ординат

х<1>, ...,

х(р), в пространстве, натянутом на первые р' глав­

ных компонент, наименее искажаются расстояния от рассматриваемых точек-наблюдений до их общего «центра тяжести», а также углы между прямыми, соединяющими всевозможные пары точек-наблюдений с их

общим «центром тяжести».

G размера X п)

Поясним это свойство. Рассмотрим матрицу

«центрированных» наблюдений х)г) = х)і)

Здесь, как и прежде,

( 1)

X j ' y —исходные наблюдения, а х<г'>= (лфг>+ х (2г'>+ ... +

 

~\-х(п)!п—среднее арифметическое по всем наблюдениям і-то признака,

т. е. yU) x(l)

■xi0 x2 ■

G

 

J 2)

xi2)

*i2) x2

 

x\p)

y(P)

..

r(p)

 

 

Ля

Введем в рассмотрение матрицу размера (п X п)

Н =G'G = (hjq), и <7=1, 2.......

п.

Нетрудно установить геометрический смысл элементов этой ма­ трицы:

рр

2

( x f f = 2 (Zj‘> - F > )2-

і= 1

і= 1

это квадрат расстояния от точки-наблюдения Ху до общего «центра

тяжести» X, а

h] q = І

2 ( я } « - * « » ) ( £ “ > _ * < / > ) -

і= 1

і= 1

146


величина, пропорциональная косинусу угла между прямыми, соединя­

ющими точки X q и Xj с центром тяжести X.

Ylt

 

Если рассмотреть, кроме того, матрицу G (С) наблюдений

...,Yn, являющихся проекциями исходных (центрированных)

наблю­

дений Х и ..., Х п в подпространство Y р-

(С) и соответствующую ей

матрицу

Я (С) = G' (C)-G (С), то оказывается, что

 

 

 

IIЯ—Я (Lp.) (I = min (I Я -

Я (С) И=■

 

 

 

с

 

 

 

 

= п2 (Lp'_|_ 1-f Яр' + 2 +

■•• + ^р)>

 

где

под

IIЛ К понимается, как обычно,

евклидова норма матрицы

А,

а Lp-

соответствует ранее введенным обозначениям.

 

Кстати, из описанного выше следует, что естественной мерой отно­ сительного искажения геометрической структуры исходной совокуп­ ности наблюдений при их проектировании в пространство меньшей раз­ мерности, натянутое на первые р' главных компонент, является ве­

личина

 

и (P') = 1 — Q(P')

^р'+ 1+ • +Lp

Li + L2 + • • ■+ Lp

либо величина

 

Lpt-f 1-f-... 4-Lp

7 (P')

k\+kl + ...+k2P

При неизвестной истинной ковариационной матрице 2 ее собственные значения L1; ..., кр следует заменить собственными значениями L1(

..., кр выборочной ковариационной матрицы 2 и соответственно снаб­ дить «крышками» сверху характеристики к и у степени искажения гео­ метрической структуры исследуемой совокупности наблюдений.

3. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез

Смысл математико-статистических методов, как известно, состоит в том, чтобы по некоторой части исследуемой генеральной совокупности (т. е. по выборке, или, что то же, — по ограниченному ряду наблюде­ ний Х ъ Х 2, ..., Хп) выносить обоснованные суждения о ее свойствах в целом.

Применительно к нашей задаче нас, в первую очередь, будет инте­ ресовать, как сильно свойства и характеристики выборочных главных компонент могут отличаться от соответствующих свойств и характери­ стик главных компонент всей генеральной совокупности, и, в частности,, как эта мера отличия зависит от объема выборочной совокупности (п),. по которой эти выборочные главные компоненты были построены. Так,, например, для изучения природы внутренних связей между характе­ ристиками различных статей семейного бюджета потребления и для

147