Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 112
Скачиваний: 0
Воспользуемся статистикой критерия отношения правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере.
П р и м е р 2 [2]. Исследовалось время, затрачиваемое работника ми швейной фабрики на выполнение различных элементов операции глаженья одежды. Операцию глаженья можно разделить на следу ющие шесть элементов:
1)одежда размещается на гладильной доске
2)разглаживаются короткие швы (х^2))\
3)одежда перекладывается на гладильной доске (л43>);
4)разглаживаются длинные швы на три четверти (я<4>);
5)разглаживаются остатки длинных швов (х(5));
6)одежду вешают на вешалку (х(6>).
Вэтом случае Х ѵ представляет собой вектор измерения над ѵ-м индивидуумом. Компонента х<‘) — это время, затраченное на выпол нение і-го элемента операции, п = 76. Данные (время в секундах) обработаны, получены выборочные вектор среднего значения и ковари ационная матрица
9,47 \
25,56
13,25
а— 31,44 27,29 8,70
2,57 |
0,85 |
1,56 |
1,79 |
1,33 |
0,42' |
0,85 |
37,00 |
3,34 |
13,47 |
7,59 |
0,52 1 |
1,56 |
3,34 |
8,44 |
5,77 |
2,00 |
0,50 |
1,79 |
13,47 |
5,77 |
34,01 |
10,50 |
1,77 |
1,33 |
7,59 |
2,00 |
10,50 |
23,01 |
3,43 |
Выборочные стандартные отклонения равны (1,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляционная матрица R — (гі})
имеет вид: |
0,088 |
0,334 |
0,191 |
0,173 |
0,123 |
1,000 |
|||||
0,088 |
1,000 |
0,186 |
0,383 |
0,262 |
0,040 |
0,334 |
0,186 |
1,000 |
0,343 |
0,144 |
0,080 |
0,191 |
0,384 |
0,343 |
1,000 |
0,375 |
0,142 |
0,173 |
0,262 |
0,144 |
0,375 |
1,000 |
0,334 |
[0,123 |
0,040 |
0,080 |
0,142 |
0,334 |
1,000 |
Для исследователей представляет интерес проверка гипотезы о вза имной независимости шести случайных величин. Часто при изучении
затрат времени предлагается новая операция, в которой элементы ком бинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выбро шены. Если оказываются независимыми величины, обозначающие вре мя, затрачиваемое на различные элементы операции, то естественно счи тать, что и в новой операции они останутся независимыми. Тогда рас пределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для ос тальных элементов. Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с по мощью которых мы могли бы производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле).
В этой задаче отношение правдоподобия V равно | R і = 0,472. Так как объем выборки велик, то можно пользоваться теори ей асимптоти ческих разложений.
В нашем случае у = |
— (п — |
1*-) |
ln | R \ = |
— ^ In 0,472= |
= 54,1, а р (р — 1)/2 = |
15. Задавшись |
уровнем |
значимости кри |
терия а = 0,01 (вероятность ошибочно отвергнуть проверяемую гипо тезу), находим (из таблиц) величину 1%-ной точки ^распределения с 15 степенями свободы: хо,оі (15) = 30,6. Поскольку у > Хо,оі (15), то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать не зависимыми;
— статистическая проверка некоторых предположений (гипотез)
относительно собственных |
векторов |
ковариационной матрицы ис |
следуемых признаков (і = |
1,2,..., р). Пусть у нас есть основания пред |
полагать, что «нагрузки» всех признаков на первую главную компонен ту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е.
‘■и 112 — |
^1Р |
Р |
|
/ |
|
или, напротив, что некоторые из признаков, |
скажем х<р—і) и х <р>, во |
обще не влияют на первую главную компоненту (т. е. Іцр—і) = 11р = = 0), в то время как остальные р — 2 признака влияют на нее симмет
рично, т. е. /ц = /12 = ... = Іц р -2) = у ■*_2 и т. д.
Для решения подобных вопросов можно использовать статистиче ский критерий равенства г'-го собственного вектора неизвестной кова
риационной матрицы некоторому заранее заданному вектору /г. В [15]
показано, что гипотеза lt = U должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно рав ной а), если окажется, что
у(0) = (П-- 1) % 1 ; 2 - Ч г + ~
Я.І
/ ; 2 ѵ |
1) . |
154
где подразумевается, что характеристический корень оценка кото*
рого участвует в выражении для критической статистики, имеет крат ность, равную единице, а все остальные величины соответствуют ранее введенным обозначениям;
— проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы rtj — г°, где rtJ — парный коэффициент кор реляции между признаком и признаком х^> [26]. Эта гипотеза оз начает, что последние р — 1 характеристических корней корреляцион ной матрицы равны между собой. Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные
выражения |
в виде решений |
соответствующих |
характеристических |
|
уравнений |
= 1 + (р — 1) |
г°, |
= ... = Кр |
= 1 — г°, //<’>= |
= (л/1' + х<2>+ ... + х<Р>)/|/р и т. д. [26, с. 244].
Оказывается, гипотезу гі} = г° следует отвергнуть (с вероятностью ошибиться, приблизительно равной а), если
|
п— 1 |
р |
|
а - , - ; ) 2 •С 2 (г ,—г)2 |
|
- 2) |
||||||
и = |
2 |
|
■ x S ( ö * ^ |
|||||||||
О - ? ) 2 |
|
|
||||||||||
|
г. /= 1 |
|
|
|г = і |
|
|
|
|
||||
|
|
|
(<</) |
|
|
|
|
|
|
|
|
|
где ru — выборочные парные коэффициенты корреляции между |
и |
|||||||||||
x(J), подсчитанные по наблюдениям Х 1г Х2, ..., Хп, а |
|
|||||||||||
|
|
|
|
|
|
|
р |
|
|
|
|
|
|
|
|
|
|
г |
р- i |
V |
|
ІѴ> |
|
|
|
|
|
|
|
|
^ |
|
Г |
|
|
|||
|
|
|
|
|
|
к |
ѵ= 1 |
|
|
|
|
|
|
|
|
|
|
|
|
( Ѵ ф і ) |
|
|
|
|
|
|
|
|
|
|
: |
2 |
|
V, |
- |
|
|
|
|
|
|
|
|
— |
гг |
Z |
|
ГЧ’ |
|
|
|
|
|
|
|
|
|
P ( P - i ) . |
|
|
|
|
|
|
|
|
|
|
|
|
|
U Ф/) |
|
|
|||
|
|
|
|
|
|
( Р~ l)2 (2—г) Я |
|
|
||||
|
|
|
|
|
|
Р—(Р — 2) (і —7)2 ‘ |
|
|
||||
Кстати, |
в нашем примере 1 корреляционная матрица |
|
||||||||||
|
|
|
|
|
/1,0000 0,9740 0,972б\ |
|
|
|||||
|
|
|
|
R = I 0,9740 |
1,0000 |
0,9655 |
|
|
||||
|
|
|
|
|
\0,9726 |
0,9655 |
1,0000/ |
|
|
|||
Несложные подсчеты дают: |
|
|
|
|
|
|
|
|||||
гх = 0,9733, |
г2 = 0,9698, г3 = 0,9691, |
г = 0,9707, |
так что в конечном |
|||||||||
счете |
£ (/•„) —0,825. |
|
|
|
|
|
|
|
|
|
Задавшись уровнем значимости а = 0,05 и отыскав по таблицам ЗСо,о5 (2) = 5,99, приходим к выводу, что гипотеза о равнокоррелиро ванности всех трех исходных признаков может быть признана непро тиворечащей имеющимся у нас результатам наблюдения.
155
4. Главные компоненты в задачах классификации
а) Общие идеи использования главных компонент в задачах клас сификации. Дуализм в постановке задачи. Очевидно, возможность гео метрической интерпретации и возможность наглядного представле
ния исследуемых наблюдений X- = (х\Х), ... , xjp>) (г= 1,2, , п) существенно облегчает решение задач по их классификации, и в частно сти проведение таких этапов, как предварительный анализ классифици-
y W
>18 •/3 •17
•іг •;5 •20*9 •18»19 >•ТО
|
*60 |
*43 * |
|
• 51 |
|
|
•54 •57»58*81 »50 |
|
•33»40*37 |
•49*48*56 |
•S3 |
•21 *25»39*31 |
•52 |
|
•32 |
|
|
Рис. 4.3. Расположение проекций 18-мерных наблюдений на плоскость пер вых двух главных компонент г/(1), г/(2)
руемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов k , для системы эталонных множеств Е, наконец, для самого искомого разбиения S.
Так, например, одного взгляда на рис. 4.3, на котором изображены проекции тридцати одного (п = 31) восемнадцатимерного наблюдения (р = 18) на плоскость первых двух главных компонент (построенных по исходным 18признакам х(1), %<2>, ..., х(18>), достаточно, чтобы обнару жить четкое распадение исследуемой совокупности наблюдений на
3класса1.
1Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растений,
на однородные группы. Эти группы должны были выявить, в конечном счете, на-
156
А попробовал бы исследователь уловить это распадение непосредст венно в исходном восемнадцатимерном пространстве X!
Источником нашего оптимизма в отношении результатов исполь зования такого проектирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экс тремальные свойства главных компонент, в частности вышеупомянутые свойства 1 — 3, в соответствии с которыми проектирование исходной совокупности наблюдений в пространство меньшей размерности, «на тянутое» на р' первых главных компонент (р' < р), наименее искажает ее геометрическую конфигурацию.
Перед тем как перейти к некоторым конкретным примерам примене ния главных компонент в задачах классификации обратим внимание читателя на возможную двойственность_(дуаушзм). в интерпретации мно
гомерного наблюдения Х'і = lx*p,x(iZ\ ..., х\р)) вообще, и в постанов ке задачи при эксплуатации метода главных компонент в частности-
Действительно, если в матрице наблюдений
х \ 1) |
. |
л п |
|
: * ( 1 ) |
|
ѵ (2> |
v ( 2 ) • • „ ( 2 ) |
|
Xi |
X% |
|
(*1, Я * , - , *п) = |
|
|
У ( Р ) |
: |
y(p) |
X i |
4 P ) : . |
Л П |
рассматривать в качестве наблюдения столбцы X t, то классифици руемыми объектами (в количестве п штук) будут объекты, на каждом из которых было замерено по р признаков х^1\ так или иначе характеризующих его состояние. Если же в качестве «наблюде
ния» рассматривать строки Х%' = (х ^ , х<£), хіѵ)) этой матрицы, то классифицируемыми объектами будут уже сами признаки (в коли честве р штук), рассматриваемые, соответственно, в н-мерном прост ранстве X*.
Очевидно, задачи классификации в одном (X) и в другом (X*) про странстве преследуют совершенно разные цели. Относительно целей классификации в пространстве X мы уже говорили. Что же касается классификации в пространстве X* (т. е. классификации самих призна ков) то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (коррелированное™, взаимном дублировании) признаков, входящих в одну группу, и, в ко нечном счете, существенно снизить размерность исходного факторного
личие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, — и как выяснилось, не обоснованно! — одинаковыми для всех растений). Кстати, при исследовании было
обнаружено, что первые две главные компоненты у^ и у(2^ |
содержат |
80% от |
|
общей суммарной дисперсии всех 18 |
исходных признаков. При этом |
первую |
|
главную компоненту ( у ^ ) удалось |
интерпретировать как |
характеристику |
общего состояния растения, в то время как вторая главная компонента (у'2*)
характеризовала процесс фотосинтеза.
157