Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 108
Скачиваний: 0
пространства X, оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.
З а м е ч а н и е о необходимости нормировки в пространстве X*. Классифицируя признаки, необходимо помнить, что два признака Х% и Х*тестественно считать близкими не только в случае сравнитель ной малости расстояния р (Ху, Х*т) (евклидового типа) между ними, но и в случае их достаточно простой взаимной зависимости, например Хѵ = сХт, где с — некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» X*, Х%, ...,
..., Хр в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) со ответствующим образом пронормировать исходные данные в простран стве X*, например, переходя к «наблюдениям»
арифметическое ѵ-го признака
подсчитанное по п исходным наблюдениям.
И, наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходи мой нормировки иногда еще дополнительно центрируют рассматривае мые наблюдения Х%, т. е. переходят, в конечном счете, к наблюдениям
В дальнейшем мы, как правило, будем предполагать вспомогатель ные операции нормировки и центрирования в пространстве X* выпол ненными, но в целях упрощения обозначений, будем опускать две верх ние волнистые черточки при записи соответствующих пронормирован ных и процентрированных наблюдений.
б) Применение главных компонент при анализе структуры семей ного потребления. В процессе исследований по проблеме «Типология потребителей и потребления» нами решалась следующая частная зада ча. Объект исследований — семья. Набор измеряемых на каждом «объ екте» признаков — удельные характеристики потребления (в расчете на одного члена семьи в единицу времени) по различным статьям рас ходов (табл. 4.1), — всего в количестве 31 штуки (р = 31)1. На первом этапе исследований была отобрана так называемая «контрольная» вы борка семей небольшого объема (п = 106).
1 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор й оформление исходных данных этого примера, их содержатель ный анализ был проведен Л. А. Левковой. В вычислительной части работы при нимал участие П. Ф. Андрукович.
158
П р и з н а к
Хп)
Х < 2 >
*<3>
Х< 5 >
х{7)
х( 8 >
х( 9 >
*( 1 0 )
Х<4>
*) 1 2 >
*( 1 3 )
*( 1 4 )
*< 1 5 )
*( 1 6 )
Х< 1 7 >
*( 1 8 )
*( 1 9 )
С о д е р ж а н и е п р и з н а к а
С у м м а з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м
и с ч и с л е н и и )
ткани готовую одежду (без ме
ховой)
меховую одежду трикотаж
обувь книги, газеты
музыкальные инструмен ты спорт мебель
предметы домашнего оби хода хлебобулочные изделия
ОВОЩИ
мясные продукты рыбные продукты молочные продукты жиры яйца сахар
кондитерские изделия
Пр и з н а к
*( 2 0 )
*( 2 1 )
*( 2 2 )
Х( 2 ö )
*< 2 4 )
х( 2 5 )
*< 2 6 )
*( 2 7 )
х(28)
*( 2 9 )
*( 3 0 )
*( 3 1 >
Т а б л и ц а 4.1
С о д е р ж а н и е п р и з н а к а
С у м м а , з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м
и с ч и с л е н и и )
общественное питание (включая расходы вре менно выехавших членов семьи)
культурно-просветитель- ные мероприятия транспорт услуги почты и телегра фа
жилищно-коммунальные расходы продукты растительного происхождения
продукты животного происхождения услуги (включая х(21) и
х(24), плюс бытовые и т. п.)
общественное питание (исключая расходы временно выехавших членов
семьи)
все продовольственные товары алкогольные напитки
все промышленные това ры
Результаты проектирования тридцати одного 106-мерного наблюде
ния Х%' = (х<ѵ), х<ѵ>, |
х[у0\), ѵ = |
1, |
2, |
31 — на плоскость пер |
вых двух главных компонент (у*, уі) |
представлены на рис. 4.4. Чита |
|||
тель, по-видимому, согласится с нами, |
что если разбить исследуемые |
признаки на пять условных классов так, как это сделано на рис. 4.4, то это даст пищу для достаточно естественного содержательного анали
за взаимосвязей, существующих |
между |
исследуемыми признаками |
||
(лишь «расходы на кондитерские изделия» л419>дали, вряд ли поддаю |
||||
щиеся содержательной |
интерпретации |
результаты проектирования: |
||
они оказались почему-то в классе, |
объединяющем в себе расходы на |
|||
услуги и на наиболее необходимые промышленные товары). |
||||
в) |
Применение главных компонент при анализе производительности |
|||
труда рабочих. Различные показатели |
производительности труда |
|||
Z' = |
(2<1>, 2<2>, ...,z<m>) |
характеризуют, |
как известно, отношение ре |
ально произведенной продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда
от |
набора регулируемых (и |
нерегулируемых) |
признаков X' = |
= |
х<2\ ..., х<р>), характеризующих технический и организа |
||
ционный уровень производства, |
личные качества |
рабочих, социаль- |
159
но-демографические условия их жизни, постоянно (и правомерно) привлекает к себе пристальное внимание исследователей.
Однако среди различных возможных подходов к решению этой за дачи мы бы выделили следующие две схемы исследования.
У*
/ |
*77 |
•26 |
X |
|
•16 |
\ |
|||
|
•15 |
• 13 |
\ |
|
|
18 |
|||
I |
|
|
• 29 j |
|
• 14 |
• 25 |
J |
||
'4 0 ') \ V |
||||
•// |
• 12 |
/ |
||
|
/
У/ /
/•7 |
' э//*зо |
* \ |
|
|
|
-Уг |
\ |
•з У Т Т |
|
|
• /д |
\ |
|
|
|
|
|
|||
|
|
/ |
23 |
|
\ |
|
|
|
|
|
|||
|
|
I |
•6 |
|
|
|
|
|
•5О/ |
|
\ |
||
|
•21 / |
I |
|
|
I |
|
|
\ .__' |
\X |
22*47 •31 |
|
/ |
|
|
|
•4 |
/ |
(Ѣ * \
Рис. 4.4. Расположение проекций 106-мерных наблюдений (из двойствен ного пространства X*) на плоскость первых двух главных компонент (у*, Уг )• Исследование взаимосвязей между признаками, характеризующими структуру и объем семейного потребления
С х е м а 1.
1) Разбиение исследуемой совокупности рабочих на однородные
группы в пространстве объединенных признаков (X ’, Z'), |
например, |
|
с помощью главных компонент, построенных по |
набору |
признаков |
Х(1>, *<2>, ..., Х<Р>, 2<1), ... , zlm>. |
типа |
Z = / г (X), |
2) Статистическое исследование зависимостей |
произведенное отдельно внутри каждой однородной группы, выявлен ной на первом этапе (і ■— номер группы, внутри которой анализирует ся искомая зависимость).
160
СX е м а 2.
1)Разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов X, например, с помощью
главных компонент, построенных по набору признаков |
х<2>, .... |
..., |
2) Расщепление вектора признаков-аргументов X' — (лЯ), х<2\ |
||
..., х<р)) на два подвектора: подвектор Х<‘>' = {х ^\ |
х<2\ ..., |
х^~>) |
признаков (как правило, труднорегулируемых), описывающих техни ческий и организационный уровень производства (q < р), и подвектор Х<2>' = (х^+і), х ^+ 2\ ..., л4р>) признаков (регулируемых), опи сывающих социально-демографические условия труда. Затем разбиение
исследуемой |
совокупности рабочих |
на |
однородные группы S<1), |
•S^, ..., |
подпространстве Х<н |
«нерегулируемых» признаков, |
|
а также на однородные группы 5<2>, S |2>, |
..., S*21 в подпространстве |
||
Х<2>«регулируемых» признаков. |
|
|
3) Статистическое исследование зависимостей типа
2=/{-,) U (2) l ^ (,)e s } 1)) |
(/ = |
і, 2,..., |
и |
|
|
z = / | 2, U (,)| x (2) e s (,2)) |
(/ = |
1 , 2,..., |
kx)
kt),
произведенное отдельно внутри каждой однородной группы подпро странства Х<’> (при аргументах Х<2>) и подпространства Х<2> (при аргументах Х<4). Здесь
/ (/ ) ( х (2)| х (І) e s } 11) |
|
|
означает векторную функцию от (р — q) |
переменных |
условии, |
х(<?+ 2), ..., х<р), описывающую зависимость Z от |
Х<2> при |
|
что значения «нерегулируемых» аргументов х(1), х<2), ..., |
принад |
лежат области Sj1). Аналогично определяется векторная функция /)2). Ниже приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (п = 100) льнокомбината «Крас ная текстильщица» г. Нерехта Костромской области, составляющим более 80% всей численности ткачих комбината1. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 в вышеопи
санных схемах исследования.
Обозначение и содержание восемнадцати исследуемых признаков (р = 18) приведены в табл. 4.2.
Расщепление вектора признаков-аргументов X на два подвектора носит, очевидно, условный характер и зависит как от конкретных усло вий производства, так и от конкретных целей исследования. В нашем случае в подвектор X*1* были включены первые 9 компонент вектора X.
Учитывая разнородный физический смысл единиц измерения ис следуемых восемнадцати признаков, до применения метода главных компонент все эти признаки были пронормированы с помощью своих
1 Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.
6 Зак. 358 |
161 |
Т а б л и ц а 4.2
Признак |
Содержание признака |
Показатели эффективности труда:
z(1) условно-натуральный по казатель часовой выра ботки рабочего (в метроуточинах)
z(2> выполнение нормы-выра ботки (в процентах)
z(3> заработная плата (в руб.)
Показатели состояния и степени использования оборудования:
|
производительность ткац |
||
|
кого станка (в метро- |
||
|
уточин в час) |
< |
|
х < 2 > |
скорость ткацкого |
стан |
|
х<3> |
ка (ударов в мин.) |
ткани |
|
ширина |
суровой |
||
*<4> |
(метров) |
оборудования |
|
простой |
|||
х(5> |
(в процентах) |
|
|
межремонтный цикл (ме |
сяцев)
Признак Содержание признака
Ассортимент вырабатываемой продукции (в качестве сырья):
х<6> |
номер уточной пряжи |
|||
х (~> |
число обрывов нитей ос |
|||
|
новы на 1000 м |
одиноч |
||
|
ной нити |
|
|
|
|
сортность ткани |
|
||
Показатели специализации |
||||
х<9> |
рабочих |
мест: |
|
|
количество |
артикулов,, |
|||
|
вырабатываемых |
на ра |
||
|
бочем месте |
|
|
|
Показатели социально-демогра |
||||
|
фических условий: |
|
||
* < 1 ° > |
трудовой стаж по специ |
|||
|
альности (лет) |
|
||
х < 1 1 ) |
возраст (лет) |
(классов) |
||
х ( 1 2 > |
образование |
|||
х < 1 3 ) |
число |
несовершеннолет |
||
|
них детей в семье |
|||
х < 1 4 ) |
среднедушевой |
доход |
||
|
семьи |
(руб.) |
|
размер |
д .1 1 5 ) |
среднедушевой |
|||
|
жилой площади (кв. м) |
выборочных среднеквадратических отклонений s, т. е. был осуществлен! переход к новым (безразмерным) признакам
|
|
|
z (i) = |
Z(0__J(0 |
(1 = 1, |
2, |
3), |
|
|
|
|
|
z<0 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и(/)_ѵ-(/) |
|
2, ♦• • j 15), |
||
|
|
|
х ш = ----------- |
(/= 1 , |
|||||
где |
|
|
|
|
SxU) |
|
|
|
|
|
|
1 |
|
|
|
|
п |
|
|
|
|
|
П |
|
|
|
ѵ</> |
||
|
;<!>__!_ |
V |
2<0 |
х (,) |
|
|
|||
|
|
|
Л т у |
||||||
|
с |
— |
--- |
у |
< С т у |
п |
2 |
||
|
|
|
п |
m= 1 |
|
|
|||
1 |
П |
|
|
|
|
т—1 |
|
||
|
— |
|
или и = х (і)), |
|
|||||
а s<2) = — |
V |
(ит—и )2 (w = 2<') |
|
||||||
п |
|
, |
|
|
|
|
|
|
|
Проекция исследуемых ста (п = 100) восемнадцатимерных (р = 18)* наблюдений на плоскость первых двух главных компонент г/<‘>(X , Z)■ и г/(2) (X , Z), построенных по всем рассматриваемым признакам, пред ставлена на рис. 4.5.
Анализ нагрузок исходных признаков на первые две главные ком поненты так же, как и тщательное рассмотрение рис. 4.5, позволяет интерпретировать первую главную компоненту г/<1) как агрегирован-
162