Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 112

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Воспользуемся статистикой критерия отношения правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере.

П р и м е р 2 [2]. Исследовалось время, затрачиваемое работника­ ми швейной фабрики на выполнение различных элементов операции глаженья одежды. Операцию глаженья можно разделить на следу­ ющие шесть элементов:

1)одежда размещается на гладильной доске

2)разглаживаются короткие швы (х^2))\

3)одежда перекладывается на гладильной доске (л43>);

4)разглаживаются длинные швы на три четверти (я<4>);

5)разглаживаются остатки длинных швов (х(5));

6)одежду вешают на вешалку (х(6>).

Вэтом случае Х ѵ представляет собой вектор измерения над ѵ-м индивидуумом. Компонента х<‘) — это время, затраченное на выпол­ нение і-го элемента операции, п = 76. Данные (время в секундах) обработаны, получены выборочные вектор среднего значения и ковари­ ационная матрица

9,47 \

25,56

13,25

а31,44 27,29 8,70

2,57

0,85

1,56

1,79

1,33

0,42'

0,85

37,00

3,34

13,47

7,59

0,52 1

1,56

3,34

8,44

5,77

2,00

0,50

1,79

13,47

5,77

34,01

10,50

1,77

1,33

7,59

2,00

10,50

23,01

3,43

Выборочные стандартные отклонения равны (1,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляционная матрица R — (гі})

имеет вид:

0,088

0,334

0,191

0,173

0,123

1,000

0,088

1,000

0,186

0,383

0,262

0,040

0,334

0,186

1,000

0,343

0,144

0,080

0,191

0,384

0,343

1,000

0,375

0,142

0,173

0,262

0,144

0,375

1,000

0,334

[0,123

0,040

0,080

0,142

0,334

1,000

Для исследователей представляет интерес проверка гипотезы о вза­ имной независимости шести случайных величин. Часто при изучении


затрат времени предлагается новая операция, в которой элементы ком­ бинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выбро­ шены. Если оказываются независимыми величины, обозначающие вре­ мя, затрачиваемое на различные элементы операции, то естественно счи­ тать, что и в новой операции они останутся независимыми. Тогда рас­ пределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для ос­ тальных элементов. Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с по­ мощью которых мы могли бы производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле).

В этой задаче отношение правдоподобия V равно | R і = 0,472. Так как объем выборки велик, то можно пользоваться теори ей асимптоти­ ческих разложений.

В нашем случае у =

(п

1*-)

ln | R \ =

— ^ In 0,472=

= 54,1, а р (р — 1)/2 =

15. Задавшись

уровнем

значимости кри­

терия а = 0,01 (вероятность ошибочно отвергнуть проверяемую гипо­ тезу), находим (из таблиц) величину 1%-ной точки ^распределения с 15 степенями свободы: хо,оі (15) = 30,6. Поскольку у > Хо,оі (15), то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать не­ зависимыми;

— статистическая проверка некоторых предположений (гипотез)

относительно собственных

векторов

ковариационной матрицы ис­

следуемых признаков =

1,2,..., р). Пусть у нас есть основания пред­

полагать, что «нагрузки» всех признаков на первую главную компонен­ ту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е.

‘■и 112 —

^

Р

 

/

или, напротив, что некоторые из признаков,

скажем х<р—і) и х <р>, во­

обще не влияют на первую главную компоненту (т. е. Іцр—і) = 11р = = 0), в то время как остальные р — 2 признака влияют на нее симмет­

рично, т. е. /ц = /12 = ... = Іц р -2) = у ■*_2 и т. д.

Для решения подобных вопросов можно использовать статистиче­ ский критерий равенства г'-го собственного вектора неизвестной кова­

риационной матрицы некоторому заранее заданному вектору /г. В [15]

показано, что гипотеза lt = U должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно рав­ ной а), если окажется, что

у(0) = (П-- 1) % 1 ; 2 - Ч г + ~

Я.І

/ ; 2 ѵ

1) .

154


где подразумевается, что характеристический корень оценка кото*

рого участвует в выражении для критической статистики, имеет крат­ ность, равную единице, а все остальные величины соответствуют ранее введенным обозначениям;

— проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы rtj — г°, где rtJ — парный коэффициент кор­ реляции между признаком и признаком х^> [26]. Эта гипотеза оз­ начает, что последние р — 1 характеристических корней корреляцион­ ной матрицы равны между собой. Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные

выражения

в виде решений

соответствующих

характеристических

уравнений

= 1 + (р — 1)

г°,

= ... = Кр

= 1 — г°, //<’>=

= (л/1' + х<2>+ ... + х<Р>)/|/р и т. д. [26, с. 244].

Оказывается, гипотезу гі} = г° следует отвергнуть (с вероятностью ошибиться, приблизительно равной а), если

 

п— 1

р

 

а - , - ; ) 2 •С 2 (г ,—г)2

 

- 2)

и =

2

 

■ x S ( ö * ^

О - ? ) 2

 

 

 

г. /= 1

 

 

|г = і

 

 

 

 

 

 

 

(<</)

 

 

 

 

 

 

 

 

 

где ru — выборочные парные коэффициенты корреляции между

и

x(J), подсчитанные по наблюдениям Х 1г Х2, ..., Хп, а

 

 

 

 

 

 

 

 

р

 

 

 

 

 

 

 

 

 

 

г

р- i

V

 

ІѴ>

 

 

 

 

 

 

 

^

 

Г

 

 

 

 

 

 

 

 

к

ѵ= 1

 

 

 

 

 

 

 

 

 

 

 

( Ѵ ф і )

 

 

 

 

 

 

 

 

 

:

2

 

V,

-

 

 

 

 

 

 

 

гг

Z

 

ГЧ’

 

 

 

 

 

 

 

 

P ( P - i ) .

 

 

 

 

 

 

 

 

 

 

 

 

U Ф/)

 

 

 

 

 

 

 

 

( Р~ l)2 (2—г) Я

 

 

 

 

 

 

 

 

Р—(Р — 2) (і —7)2 ‘

 

 

Кстати,

в нашем примере 1 корреляционная матрица

 

 

 

 

 

 

/1,0000 0,9740 0,972б\

 

 

 

 

 

 

R = I 0,9740

1,0000

0,9655

 

 

 

 

 

 

 

\0,9726

0,9655

1,0000/

 

 

Несложные подсчеты дают:

 

 

 

 

 

 

 

гх = 0,9733,

г2 = 0,9698, г3 = 0,9691,

г = 0,9707,

так что в конечном

счете

£ (/•„) —0,825.

 

 

 

 

 

 

 

 

 

Задавшись уровнем значимости а = 0,05 и отыскав по таблицам ЗСо,о5 (2) = 5,99, приходим к выводу, что гипотеза о равнокоррелиро­ ванности всех трех исходных признаков может быть признана непро­ тиворечащей имеющимся у нас результатам наблюдения.

155


4. Главные компоненты в задачах классификации

а) Общие идеи использования главных компонент в задачах клас­ сификации. Дуализм в постановке задачи. Очевидно, возможность гео­ метрической интерпретации и возможность наглядного представле­

ния исследуемых наблюдений X- = (х\Х), ... , xjp>) (г= 1,2, , п) существенно облегчает решение задач по их классификации, и в частно­ сти проведение таких этапов, как предварительный анализ классифици-

y W

>18 •/3 •17

•іг •;5 •20*9 •18»19 >•ТО

 

*60

*43 *

 

• 51

 

 

•54 •57»58*81 »50

 

•33»40*37

•49*48*56

•S3

•21 *25»39*31

•52

 

•32

 

 

Рис. 4.3. Расположение проекций 18-мерных наблюдений на плоскость пер­ вых двух главных компонент г/(1), г/(2)

руемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов k , для системы эталонных множеств Е, наконец, для самого искомого разбиения S.

Так, например, одного взгляда на рис. 4.3, на котором изображены проекции тридцати одного (п = 31) восемнадцатимерного наблюдения = 18) на плоскость первых двух главных компонент (построенных по исходным 18признакам х(1), %<2>, ..., х(18>), достаточно, чтобы обнару­ жить четкое распадение исследуемой совокупности наблюдений на

3класса1.

1Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растений,

на однородные группы. Эти группы должны были выявить, в конечном счете, на-

156

А попробовал бы исследователь уловить это распадение непосредст­ венно в исходном восемнадцатимерном пространстве X!

Источником нашего оптимизма в отношении результатов исполь­ зования такого проектирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экс­ тремальные свойства главных компонент, в частности вышеупомянутые свойства 1 — 3, в соответствии с которыми проектирование исходной совокупности наблюдений в пространство меньшей размерности, «на­ тянутое» на р' первых главных компонент (р' < р), наименее искажает ее геометрическую конфигурацию.

Перед тем как перейти к некоторым конкретным примерам примене­ ния главных компонент в задачах классификации обратим внимание читателя на возможную двойственность_(дуаушзм). в интерпретации мно­

гомерного наблюдения Х'і = lx*p,x(iZ\ ..., х\р)) вообще, и в постанов­ ке задачи при эксплуатации метода главных компонент в частности-

Действительно, если в матрице наблюдений

х \ 1)

.

л п

 

: * ( 1 )

ѵ (2>

v ( 2 ) • „ ( 2 )

Xi

X%

 

(*1, Я * , - , *п) =

 

 

У ( Р )

:

y(p)

X i

4 P ) : .

Л П

рассматривать в качестве наблюдения столбцы X t, то классифици­ руемыми объектами (в количестве п штук) будут объекты, на каждом из которых было замерено по р признаков х^1\ так или иначе характеризующих его состояние. Если же в качестве «наблюде­

ния» рассматривать строки Х%' = (х ^ , х<£), хіѵ)) этой матрицы, то классифицируемыми объектами будут уже сами признаки (в коли­ честве р штук), рассматриваемые, соответственно, в н-мерном прост­ ранстве X*.

Очевидно, задачи классификации в одном (X) и в другом (X*) про­ странстве преследуют совершенно разные цели. Относительно целей классификации в пространстве X мы уже говорили. Что же касается классификации в пространстве X* (т. е. классификации самих призна­ ков) то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (коррелированное™, взаимном дублировании) признаков, входящих в одну группу, и, в ко­ нечном счете, существенно снизить размерность исходного факторного

личие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, — и как выяснилось, не­ обоснованно! — одинаковыми для всех растений). Кстати, при исследовании было

обнаружено, что первые две главные компоненты у^ и у(2^

содержат

80% от

общей суммарной дисперсии всех 18

исходных признаков. При этом

первую

главную компоненту ( у ^ ) удалось

интерпретировать как

характеристику

общего состояния растения, в то время как вторая главная компонента (у'2*)

характеризовала процесс фотосинтеза.

157