Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 113
Скачиваний: 0
выявления небольшого числа наиболее существенных в этом смысле показателей исследователь может обследовать какое-то количество (п) семей и по полученным результатам наблюдения Хх, Х 2, ■■■, Хп по
строить главные компоненты у^х\ у&, ...,у(р,'>. Однако, увеличивая объем выборки п, т. е. добавляя к нашим наблюдениям результаты на блюдения по дополнительно обследованным семьям, естественно ожи дать, что пересчет главных компонент с учетом добавленных наблюде ний, вообще говоря, изменит (хотя, быть может, и незначительно) ра
нее |
полученные |
значения интересующих нас характеристик: Kit lt |
(i = |
1, 2, ..., р) |
и т. п. В то же время существует, по-видимому, такое |
(столь большое) п, дальнейшее увеличение которого уже не будет прак тически приводить к изменению основных характеристик главных ком понент (другими словами, мы вправе ожидать, что главные компоненты выборок достаточно большого объема практически совпадают с глав ными компонентами всей генеральной совокупности).
Выяснению некоторых вопросов, связанных с оценкой близости
различных выборочных (у<‘\ tu и теоретических (у (і), /*, А,г) ха рактеристик главных компонент, и посвящен настоящий пункт. При этом, приведенные ниже результаты исследований неизменно опирают ся на допущение нормальности исследуемой генеральной совокупности и взаимной независимости извлеченных из нее наблюдений. Как и преж де под Хх, Х 2, ..., Х„ мы будем понимать центрированные наблюдения, которые, строго говоря, даже при независимых исходных наблюдениях уже не будут независимыми. Однако при достаточно больших п мы мо жем пренебречь этим эффектом нарушения независимости. Таким обра зом, Х і £ N (О, 2), і'= 1 ,2 , ..., п (как следует из предыдущего, вектор средних значений а = M X определяет лишь точку в /ъмерном прост ранстве, в которую переносится начало координат при переходе к глав ным компонентам, и мы с самого начала будем считать этот перенос уже осуществленным).
а) Вспомогательные факты, относящиеся к свойствам выборочных
характеристик главных компонент [2], [26], |
[14], [15], [20], [21], |
[4]. Если все характеристические корни А,х, |
..., Кр ковариационной |
матрицы 2 различны, что и имеет место в большинстве приложений анализа главных компонент, то справедливо следующее:
— характеристические корни Хх, %2, •••> ^р и соответствующие им собственные векторы Іх, 12, ...,1Р выборочной ковариационной матрицы
2 являются оценками максимального правдоподобия для соответствую щих теоретических характеристик (соответственно ?:х, К2, ..., Хр и /х, /2, ..., Ір) и обладают всеми хорошими свойствами этих оценок (со стоятельность, асимптотическая эффективность). Следовательно, выбо рочные главные компоненты
■ y(»= f;X (£--= 1, 2, ....
можно интерпретировать как оценки главных компонент уй) всей ге неральной совокупности. Если среди характеристических корней Хх, Я2, ..., встречаются равные между собой, то оценки максимального
148
правдоподобия для Xt и /г определяются иначе. Аналогичные результа ты имеют место и при оценке характеристических корней и соответст вующих им собственных векторов корреляционной матрицы;
— величины
|
Y n — |
— |
(t = 1, 2,... , р) |
|
асимптотически |
(по п-*~ |
°о ) нормальны со средним значением 0 и |
||
с дисперсией, равной 2 |
X*, и независимы от других выборочных харак |
|||
теристических |
корней; |
|
|
|
— вектор |
|
|
|
|
|
f n - |
\ |
( / , - / , ) |
(і = 1, 2.......р) |
асимптотически (по п - * - оо ) подчиняется многомерному нормальному распределению с вектором средних значений О и с ковариационной матрицей
h (kj—Xi)2 •hl}-
( і ¥=і)
Заметим, что этот результат имеет место для всякого Xt, отличного от всех остальных характеристических корней, каждый из которых может
иметь произвольную |
кратность; |
корень Xt распределен асим |
— выборочный характеристический |
||
птотически (по |
оо) независимо ют компонент соответствующего |
|
ему собственного вектора Гг (г = 1, 2, ..., |
р); |
— ковариация между r-й компонентой выборочного собственного
вектора lt и q-я компонентой выборочного собственного вектора /7- равна
XtXjl^ i f {п-\)(Хг- Х у '
Следующий факт [4] относится к весьма специфической ситуации, характеризуемой так называемым «эффектом большой размерности», когда, несмотря на достаточно большой объем выборки п, поведение выборочных характеристик обнаруживает неожиданные особенности из-за соизмеримо (с п) большого значения размерности р\ при этом для вывода этого факта не требуется нормальности исходных наблюдений;
— если компоненты х вектора наблюдений X взаимно незави симы и пронормированы таким образом, что Мх<‘>= 0 и Dx<‘>= 1, причем существуют все моменты М (х<г>)ѵ, и если объем выборки п и размерность р одновременно достаточно велики, причем
]іш^-^- = с (0 < [с < о о ),
П~* оо ТІ
149
то распределение случайно выбранного из последовательности Х1(
Х2, ..., Хр характеристического корня «слабо сходится»1 к некоторому предельному распределению (сосредоточенному на конечном отрезке), моменты которого задаются формулой.
|
V |
а |
V (ѵ— 1) (ѵ— 1)... (у — / + |
1) (у — / ч -i) (у — /) |
|||
м |
( 2 х |
||||||
) ѵ |
= |
1 |
+ |
||||
|
/= 1 |
|
1*2-2 |
... ]■]■() + 1) |
|||
|
|
|
(ѵ=1, 2 ...) |
|
|
||
так что |
МХ = 1, МХ2=- 1 + с, |
MX.3 — 1+ 3с + с2 |
и т. д. Здесь с — не |
||||
которая |
постоянная |
величина, причем 0 |
^ с < |
оо ). |
Заметим, что примером подобного соотношения между объемом вы борки и размерностью может служить задача, описанная в § 1 главы V,
в которой п = 74, а р = 32 (так |
что {pin) |
= 0,43). |
В заключение приведем два |
факта, |
относящихся к ситуациям, |
в которых компоненты нормального вектора наблюдений X взаимно не зависимы:
—пусть X £ N(a, Е), где ковариационная матрица имеет диагональ ный вид, т. е. соѵ (хѴ\ хЩ = 0 при і Ф /, і, j = 1, 2, ..., р. И пусть I rtj I — определитель выборочной корреляционной матрицы, построен ной по наблюдениям (Хь ..., Хп). Тогда при достаточно больших п (п-*~ оо ) статистика критерия отношения правдоподобия для провер ки гипотезы о диагональном виде Е может быть определена в виде
у = — |
[п ---- 2р П ) 1° ко'ІІ- а для ее Функции распределения спра |
|
ведливо |
приближенное соотношение |
|
|
Р {у < и) « Р J r 2 |
< wj |
при относительной ошибке, не превосходящей сотых долей процента;
— пусть наблюдения Xj извлечены из так называемой сферической р-мерной нормальной совокупности N (а, сг2У), т. е. компоненты каж дого из векторов Xj взаимно независимы и имеют одинаковые дис пе сни D x\'\ равные а2. Тогда ковариационная матрица Е = а 2/ имеет единственный корень (кратности р), оценкой максимального правдо подобия для которого является величина
2 у W " - ? 0)2. |
(4.16) |
рп i=i /=і
причем величина Х/сг2 распределена по закону %2 (р (п — 1)). Статистика критерия отношения правдоподобия для проверки ги
потезы о сферичности распределения исследуемого вектора наблюде-
1 Последовательность функций Fn (х), в частности последовательность функций распределения, называется слабо сходящейся (прия-^оо) к функ ции F (х), если Fn (х) сходится к функции на множестве ее точек непрерывности.
150
нии имеет вид
|
I п S 1 |
со |
|
|
1 |
|
-tr'Z |
и при достаточно больших |
п (п -> оо ) |
■1 ■ 2ра+ р + 2 |
ІП СО< 2 І ж Р )[ р(р + 1) |
6р |
|
при относительной ошибке данного приближенного соотношения, не превосходящей сотых долей процента.
б) Применения свойств выборочных характеристик главных ком понент. Опишем некоторые методы построения разного рода интер вальных оценок для интересующих нас неизвестных характеристик главных компонент и статистической проверки гипотез, относящихся
кэтим характеристикам:
—интервальная оценка (доверительный интервал) для і-го ха рактеристического корня Xt. Она получается (при больших п) с учетом
асимптотической нормальности |
статистики ] / я — 1 (7,г — Xt). |
|
|||
А именно: |
|
|
|
|
|
---------^ |
- |
< |
Х; < -------- |
Ьі— |
(4.17) |
1+“« ] / іггг |
|
1 |
l Aér |
|
где данное неравенство справедливо с вероятностью 1 — а (величиной а заранее задаемся), а и а — 100--|'%-ная точка стандартного нормаль-
~2
ного распределения (находится из таблиц).
Возвращаясь к примеру 1, по формуле (4.17), находим 95%-ный (а = 0,05) доверительный интервал для наименьшего характеристи
ческого корня Х3 по его выборочному значению Х3 = |
2,86. В этом слу |
|
чае п = 24, и а = 1,96, так что 1,81 -< Хэ < |
6,78. |
|
~2 |
(по п -> |
оо ) доверитель |
Возможно обобщение асимптотического |
ного интервала на случай кратных, т. е. повторяющихся корней. Если г — кратность корня Хи то 100 (1 — а) — процентный доверительный интервал для неизвестного значения Xt задается неравенством
■-----------^ ---------- < X, < ----------- ■- — , (4.18)
1+МА j/"(rt-l)r |
1~ U—] / (n~7)7 |
2 9 |
2 r |
где |
|
Xt = — (Яг + Хг+1+ |
... +^'^+г-l)• |
151
Однако откуда мы можем знать, что неизвестный характеристиче ский корень Хі имеет кратность и, в частности, кратность, равную г? Этот вопрос может быть решен с помощью следующего критерия, пред ложенного в [15];
■— проверка гипотезы о равенстве нескольких (а именно г) характе ристических корней: Xt = Хі+1 = ... = Хі+Т^х. Очевидно, альтер нативой к этой гипотезе является утверждение, что не все корни среди
Хи Х;+1, ..., ^і+г_і равны |
между |
собой. Оказывается, в предполо |
|||||
жении справедливости проверяемой гипотезы статистика |
|
|
|||||
|
г + г—1 |
^ |
/ |
і + г—1 ^ \ |
|
|
|
|
уг=--(п— 1) 2 |
ln L + (и— 1) г In |
— |
2 |
) |
(4.19) |
|
|
J=i |
|
\ |
r |
j = i |
! |
|
распределена (асимптотически по n |
oo ) но закону %2 c (r (r + |
l)/2) — |
|||||
— 1 |
степенью свободы. Поэтому |
гипотеза Xt = |
Xi+1 = |
... = |
^;+г-і |
||
отвергается (с вероятностью ошибиться, равной а), если |
|
|
|||||
|
Уг>Ха r J ^ l - Л |
|
|
|
|
||
где |
Ха{т) — 100 а%-ная |
точка |
^-распределения с т степенями |
свободы.
Заметим, что особый интерес может представить специальный слу чай і = р — г + 1, т. е. проверка гипотезы о равенстве последних г собственных значений X, что будет означать независимость и сферич ность г последних признаков исследуемого вектора наблюдений.
Возвратимся к примеру 1. Тот факт, что оценка второго собствен
ного значения |
(Х2 = 6,50) попадает в доверительный интервал |
для |
||
Л3 (см. выше), |
приводит нас к мысли, что, возможно, Х2 = |
Х3. |
Прове |
|
рим эту гипотезу. В нашем случае п = 24, р = 3, і = 2, |
г = |
2, |
так |
|
что |
|
|
|
|
у2- |
—23 (In 6,50 + ln 2,86) + 46 ln 6’50+ 2,88 = 3,70. |
|
|
Апоскольку %о,05 (2) = 5,99 и, следовательно,
Т2 < Х о,05(2),
то гипотезу Х2 = Х3 следует принять. Но тогда нужно пересчитать до верительный интервал для Х2 с учетом его кратности (в соответствии
с (4.18)). Несложные подсчеты |
(при |
а = 0,05 и, соответственно, |
и а = «о,025 = 1 .96) дают: 2,62 ^ |
Х2 ^ |
6,21, |
”2
где последнее неравенство будет справедливо в среднем в 95 случаях из 100;
— проверка гипотезы о независимости признаков + 1), + 2)...... л+>, являющихся компонентами вектора наблюдений X. Такая проверка нужна для установления целесообразности применения метода главных компонент: ведь, если признаки являются взаимно независимыми, то переход к главным компонентам сведется по существу лишь к упорядо чиванию исходных признаков по принципу убывания их дисперсий.
152