Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 109
Скачиваний: 0
ную характеристику эффективности и организационно-технических условий труда ткачих, тогда как вторая компонента г/<2> характеризует различия между ткачихами, связанные с социально-демографически ми и, в первую очередь, с возрастными особенностями (на первые две компоненты, как выяснилось, приходится 63,1% общей суммарной дис персии признаков). Действительно, вверху по оси у резко выделяется
группа молодежи. Ниже оси |
расположена основная масса ткачих |
среднего и старшего возрастов. |
|
Рис. 4.5. Результаты исследования типологических групп рабочих, имеющих сходные производственные и социальные условия
Ось г/(І) в свою очередь делит каждую из этих групп на отдельные подгруппы в зависимости от производственных условий и уровня вы работки. Как среди молодежи, так и среди работниц старших возрастов слева выделяются ткачихи, находящиеся в более сложных условиях и имеющие низкую выработку (затушеванные геометрические фигуры). Но если среди ткачих старших возрастов работницы с низкой выработ кой составляют всего 14%, то среди молодежи их более 30%. Таким образом, примерно треть молодежи имеет низкую выработку. Это связано с тем, что молодые ткачихи работают в более сложных производ ственных условиях. В то же время основная группа молодежи (45%), которая поставлена в более благоприятные производственные условия, имеет высокую выработку. В первой же группе только 19% ткачих старших возрастов имеют высокую выработку.
На рис. 4.6 представлено расположение тех же ста наблюдений •(ткачих) в плоскости первых двух главных компонент г/<1> (Х^1)) и
,6* |
163 |
у (2]
б
Рис. 4.6. Исследование типологических групп рабочих, имеющих сходные условия организационной и технической оснащенности производства: а) расположение проекций 9-мерных наблюде ний (£=1, 2, 100) на плоскость первых двух главных
компонент </(*) (XI1)), yW (XW); б) расположение проекций шестимерных наблюдений Х((-2) (t= 1, 2, . .. , 100) на плоскость
первых двух главных компонент |
(Х<2>), і/<2>(Х<2>) |
164
г/<2>(Х<х>), построенных по подвектору |
признаков Х<’> (рис. 46, а), |
|
и в плоскости первых двух компонент |
г/<1>(Х<2>) и z/<2>(Х<2>), |
пост |
роенных по подвектору социально-демографических признаков |
Х <2> |
|
(рис. 4.66). |
|
|
На обоих рисунках обозначено весьма четкое разделение исследуе мых наблюдений на группы. Остановимся несколько подробнее на ана лизе рис. 4.66. Мы видим, по первой главной компоненте г/<‘)(Х<2>) вся совокупность наблюдений делится на две группы, одна из которых (21 человек), как выяснилось, молодежь со стажем ^ 5 лет, характе ризующаяся чрезвычайно близкими значениями всех семи социально демографических показателей — возраст, количество детей и т. д.
Вторая группа ■— ткачихи с большим стажем работы, гораздо более сильно отличающиеся друг от друга по значениям признаков
(і = 10, 11, ..., 15).
Сами компоненты г/(1) (Х<2)) и г/(2>(Х<2>) имеют довольно естест венную интерпретацию. Первая главная компонента у<1> имеет боль шие нагрузки для признаков, характеризующих возраст, стаж (общий и на данном предприятии) и количество детей, а также образование тка чихи. Последний признак имеет знак, противоположный знаку первых четырех из упомянутых выше признаков, вследствие того, что средний уровень образования возрос за последнее время, и поэтому ткачихи
старших возрастов имеют |
преимущественно 8-классное образование, |
а недавно поступившие на |
работу ткачихи — в среднем 10-классное |
образование. Вторая главная компонента у ( 2 >дифференцирует ткачих по материально-жилищным условиям, которые зависят в основном от числа нетрудоспособных членов семьи, в данном случае — от числа детей, так как сравнительно большие нагрузки на эту компоненту име ют признаки х<13), х<14) и х<15К
Из распределения ткачих на плоскости этих двух компонент видно, что на второй компоненте существенные отличия наблюдаются только среди ткачих старших возрастов, в то время как молодые ткачихи близ ки друг к другу по этой характеристике. Это расположение является
естественным следствием |
более разнообразных |
жизненных условий, |
в которых живут ткачихи |
старших возрастов, |
по сравнению с моло |
дежью, потому что большинство молодых ткачих живет в общежитии, не имеет еще семьи и детей.
Заметим в заключение, что весьма интересный пример применения главных компонент, в прямой и двойственной постановках задачи, связанный со статистической обработкой экспертных оценок, примени тельно к задаче классификации картин абстрактной живописи, чита тель найдет в [17].
§ 2. ФАКТОРНЫЙ АНАЛИЗ
Предпосылкой для появления метода факторного анализа можно, по-видимому, считать естественное желание связать корреляцию меж ду р наблюдаемыми признаками х*1), ..., х<р) с тем фактом, что эти переменные зависят (линейно или нет) от меньшего числа других, не посредственно неизмеряемых («скрытых») переменных г/<1>....... у(р,)
165
(p' < p), которые в дальнейшем стали называть общими1 факторами и которые чаще всего удобнее конструировать так, чтобы они оказа лись взаимно некоррелированными. Поскольку в общем случае нельзя считать, что каждый из наблюдаемых признаков зависит лишь от р' ка ких-то (одних и тех же для всех признаков) общих факторов, то посту лируется, что исходный (наблюдаемый) признак х^'і зависит также от некоторой «специфической» (для себя) остаточной (или «шумовой») случайной компоненты и<‘>.
В литературе по факторному анализу иногда не указывается ко нечная цель исследования, которая по существу заключается в макси мальном уменьшении числа ненаблюдаемых общих факторов с одновре
менной минимизацией зависимости |
от своих специфических факто |
|
ров-компонент |
; эта цель может быть достигнута лишь приближен |
но. В некотором смысле общие факторы можно считать причинами, а наблюдаемые (измеряемые на объектах) признаки — следствиями. Принято считать научное исследование такого рода успешным, если большое число следствий удалось объяснить малым числом причин.
Другими словами, факторный анализ можно рассматривать как метод сжатия информации или, что то же, как метод снижения размер ности исходного факторного пространства X, поскольку корреляция между исследуемыми признаками означает их избыточность, а сведе ние многих избыточных признаков к немногим вспомогательным приз накам (общим факторам), свободным от избыточности, и является зада чей сжатия информации (снижения размерности).
Следует признать, что в силу ряда исторических причин и, в част ности, из-за субъективных пристрастий и специфических интересов многочисленных исследователей, работавших в этой области, собствен но вероятностно-статистические аспекты этого важного раздела много мерного статистического анализа, каковым, по нашему мнению, яв ляется факторный анализ, долгое время были преданы некоторому заб вению, а интерпретации и анализу различных факторных моделей была присуща некоторая неопределенность. Однако в последнее двадцати летие появился ряд интересных именно вероятностно-статистических исследований этого метода [16], [30], [18], среди которых работу Андер сона и Рубина [16] можно выделить как основополагающую.
Мы кратко остановимся здесь лишь на линейных моделях фактор ного анализа, причем, так же как и в предыдущем параграфе, посвя щенном главным компонентам, оставим в стороне вычислительные ас пекты метода [9], [22].
При разработке моделей факторного анализа исследователю при ходится последовательно решать следующие вопросы:
— существования модели, заключающийся в том, что далеко не для всякого набора признаков X ’ = (х(1), ..., х(р)) можно (при заданном р’ <С р) построить модель факторного анализа, т. е. указать такие об-
1 Распространенный в литературе перевод «соттеп factor» как простой фактор, а не общий фактор, не несет в себе главной смысловой нагрузки этого термина: ведь смысл каждой из переменных в том, что она является общей
для всех исходных признаков х ^ \ ..., х^рК
166
щие факторы г/(1), ...,у (р'> (или доказать их существование), которые полностью объяснили бы существующую корреляцию между различны ми парами хй) и хб). При каком характере связей между исходными признаками .... х(р), т. е. при каких корреляционных (ковариа ционных) матрицах R = (гц) (2 = (вц)), а также при каком соотно шении между числом наблюдаемых признаков р и числом скрытых об щих факторов р' ( < р) сделанное допущение о наличии определенных
связей |
между хй) (і = |
1, 2, |
р), с одной стороны, и уб) (/ = 1, |
2, ..., |
р') — с другой, |
является обоснованным и содержательным? — |
вэтом и заключается вопрос существования модели;
—единственности (идентификации) мбдели. Оказывается, что если р, 2 и р’ таковы, что допускают построение модели факторного анализа, то определение соответствующих факторов Y' = (//<’>, ..., у (р,)) и
коэффициентов |
линейного |
преобразования |
|
Q = |
(цц), связывающего |
|
X и У, не единственно. Спрашивается, при |
каких |
дополнительных |
||||
ограничениях |
на матрицу |
преобразования |
Q и |
на |
ковариационную |
матрицу V — (vij) остаточных специфических факторов и*1), ..., «(р> определение параметров искомой модели факторного анализа будет единственным?
— алгоритмического определения структурных параметров модели:
при заданной ковариационной матрице 2 исходных признаков и из вестном числе общих факторов р' (и в предположении, что решение за дачи определения структурных параметров Q и V существует) как кон кретно вычислить неизвестные параметры модели?
— статического оценивания (по наблюдениям Х г, Х 2, ..., Хп и
при заданном р') неизвестных структурных параметров модели;
— статистической проверки ряда гипотез, связанных с природой модели и значениями ее структурных параметров, таких, как гипотеза об истинном числе р' общих факторов, гипотеза адекватности принятой модели по отношению к имеющимся результатам наблюдения, гипотеза 0 значимом отличии от нуля интересующих нас коэффициентов Цц ли нейного преобразования и т. п.;
■— построения статистических оценок для ненаблюдаемых значений общих факторов г/(1>, .... г/<р'>.
Кроме сформулированных выше вопросов, которых мы в той или иной мере коснемся в нашем изложении, мы затронем здесь вопросы соотношения моделей факторного анализа с моделями главных ком понент и регрессии, а также некоторых направлений их модифика ции и использования.
1. Модель факторного анализа, ее интерпретация
Как и в предыдущем параграфе, будем для удобства полагать ис следуемые наблюдения Х ъ Х 2, ..., Хп центрированными. Переход
от исходных наблюдений Х и Х 2, .... Хп к центрированным осущест вляется с помощью простого переноса начала координат в «центр тя
жести» |
исходного множества наблюдений, т. е. хй) = хй) ■— х ^ \ |
1 = (1, |
2, ..., п). |
167