Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 108

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

пространства X, оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.

З а м е ч а н и е о необходимости нормировки в пространстве X*. Классифицируя признаки, необходимо помнить, что два признака Х% и Х*тестественно считать близкими не только в случае сравнитель­ ной малости расстояния р (Ху, Х*т) (евклидового типа) между ними, но и в случае их достаточно простой взаимной зависимости, например Хѵ = сХт, где с — некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» X*, Х%, ...,

..., Хр в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) со­ ответствующим образом пронормировать исходные данные в простран­ стве X*, например, переходя к «наблюдениям»

арифметическое ѵ-го признака

подсчитанное по п исходным наблюдениям.

И, наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходи­ мой нормировки иногда еще дополнительно центрируют рассматривае­ мые наблюдения Х%, т. е. переходят, в конечном счете, к наблюдениям

В дальнейшем мы, как правило, будем предполагать вспомогатель­ ные операции нормировки и центрирования в пространстве X* выпол­ ненными, но в целях упрощения обозначений, будем опускать две верх­ ние волнистые черточки при записи соответствующих пронормирован­ ных и процентрированных наблюдений.

б) Применение главных компонент при анализе структуры семей­ ного потребления. В процессе исследований по проблеме «Типология потребителей и потребления» нами решалась следующая частная зада­ ча. Объект исследований — семья. Набор измеряемых на каждом «объ­ екте» признаков — удельные характеристики потребления (в расчете на одного члена семьи в единицу времени) по различным статьям рас­ ходов (табл. 4.1), — всего в количестве 31 штуки = 31)1. На первом этапе исследований была отобрана так называемая «контрольная» вы­ борка семей небольшого объема (п = 106).

1 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор й оформление исходных данных этого примера, их содержатель­ ный анализ был проведен Л. А. Левковой. В вычислительной части работы при­ нимал участие П. Ф. Андрукович.

158


П р и з н а к

Хп)

Х < 2 >

*<3>

Х< 5 >

х{7)

х( 8 >

х( 9 >

*( 1 0 )

Х<4>

*) 1 2 >

*( 1 3 )

*( 1 4 )

*< 1 5 )

*( 1 6 )

Х< 1 7 >

*( 1 8 )

*( 1 9 )

С о д е р ж а н и е п р и з н а к а

С у м м а з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м

и с ч и с л е н и и )

ткани готовую одежду (без ме­

ховой)

меховую одежду трикотаж

обувь книги, газеты

музыкальные инструмен­ ты спорт мебель

предметы домашнего оби­ хода хлебобулочные изделия

ОВОЩИ

мясные продукты рыбные продукты молочные продукты жиры яйца сахар

кондитерские изделия

Пр и з н а к

*( 2 0 )

*( 2 1 )

*( 2 2 )

Х( 2 ö )

*< 2 4 )

х( 2 5 )

*< 2 6 )

*( 2 7 )

х(28)

*( 2 9 )

*( 3 0 )

*( 3 1 >

Т а б л и ц а 4.1

С о д е р ж а н и е п р и з н а к а

С у м м а , з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м

и с ч и с л е н и и )

общественное питание (включая расходы вре­ менно выехавших членов семьи)

культурно-просветитель- ные мероприятия транспорт услуги почты и телегра­ фа

жилищно-коммунальные расходы продукты растительного происхождения

продукты животного происхождения услуги (включая х(21) и

х(24), плюс бытовые и т. п.)

общественное питание (исключая расходы временно выехавших членов

семьи)

все продовольственные товары алкогольные напитки

все промышленные това­ ры

Результаты проектирования тридцати одного 106-мерного наблюде­

ния Х%' = (х<ѵ), х<ѵ>,

х[у0\), ѵ =

1,

2,

31 — на плоскость пер­

вых двух главных компонент (у*, уі)

представлены на рис. 4.4. Чита­

тель, по-видимому, согласится с нами,

что если разбить исследуемые

признаки на пять условных классов так, как это сделано на рис. 4.4, то это даст пищу для достаточно естественного содержательного анали­

за взаимосвязей, существующих

между

исследуемыми признаками

(лишь «расходы на кондитерские изделия» л419>дали, вряд ли поддаю­

щиеся содержательной

интерпретации

результаты проектирования:

они оказались почему-то в классе,

объединяющем в себе расходы на

услуги и на наиболее необходимые промышленные товары).

в)

Применение главных компонент при анализе производительности

труда рабочих. Различные показатели

производительности труда

Z' =

(2<1>, 2<2>, ...,z<m>)

характеризуют,

как известно, отношение ре­

ально произведенной продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда

от

набора регулируемых (и

нерегулируемых)

признаков X' =

=

х<2\ ..., х<р>), характеризующих технический и организа­

ционный уровень производства,

личные качества

рабочих, социаль-

159


но-демографические условия их жизни, постоянно (и правомерно) привлекает к себе пристальное внимание исследователей.

Однако среди различных возможных подходов к решению этой за­ дачи мы бы выделили следующие две схемы исследования.

У*

/

*77

•26

X

•16

\

 

•15

• 13

\

 

18

I

 

 

• 29 j

• 14

• 25

J

'4 0 ') \ V

•//

12

/

 

/

У/ /

/•7

' э//*зо

* \

 

 

 

-Уг

\

•з У Т Т

 

 

• /д

\

 

 

 

 

 

 

/

23

 

\

 

 

 

 

 

 

I

•6

 

 

 

 

•5О/

 

\

 

•21 /

I

 

 

I

 

\ .__'

\X

22*47 •31

 

/

 

 

•4

/

(Ѣ * \

Рис. 4.4. Расположение проекций 106-мерных наблюдений (из двойствен­ ного пространства X*) на плоскость первых двух главных компонент (у*, Уг )• Исследование взаимосвязей между признаками, характеризующими структуру и объем семейного потребления

С х е м а 1.

1) Разбиение исследуемой совокупности рабочих на однородные

группы в пространстве объединенных признаков (X ’, Z'),

например,

с помощью главных компонент, построенных по

набору

признаков

Х(1>, *<2>, ..., Х<Р>, 2<1), ... , zlm>.

типа

Z = / г (X),

2) Статистическое исследование зависимостей

произведенное отдельно внутри каждой однородной группы, выявлен­ ной на первом этапе ■— номер группы, внутри которой анализирует­ ся искомая зависимость).

160


СX е м а 2.

1)Разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов X, например, с помощью

главных компонент, построенных по набору признаков

х<2>, ....

...,

2) Расщепление вектора признаков-аргументов X' — (лЯ), х<2\

..., х<р)) на два подвектора: подвектор Х<‘>' = {х ^\

х<2\ ...,

х^~>)

признаков (как правило, труднорегулируемых), описывающих техни­ ческий и организационный уровень производства (q < р), и подвектор Х<2>' = (х^+і), х ^+ 2\ ..., л4р>) признаков (регулируемых), опи­ сывающих социально-демографические условия труда. Затем разбиение

исследуемой

совокупности рабочих

на

однородные группы S<1),

•S^, ...,

подпространстве Х<н

«нерегулируемых» признаков,

а также на однородные группы 5<2>, S |2>,

..., S*21 в подпространстве

Х<2>«регулируемых» признаков.

 

 

3) Статистическое исследование зависимостей типа

2=/{-,) U (2) l ^ (,)e s } 1))

(/ =

і, 2,...,

и

 

 

z = / | 2, U (,)| x (2) e s (,2))

(/ =

1 , 2,...,

kx)

kt),

произведенное отдельно внутри каждой однородной группы подпро­ странства Х<’> (при аргументах Х<2>) и подпространства Х<2> (при аргументах Х<4). Здесь

/ (/ ) ( х (2)| х (І) e s } 11)

 

 

означает векторную функцию от q)

переменных

условии,

х(<?+ 2), ..., х<р), описывающую зависимость Z от

Х<2> при

что значения «нерегулируемых» аргументов х(1), х<2), ...,

принад­

лежат области Sj1). Аналогично определяется векторная функция /)2). Ниже приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (п = 100) льнокомбината «Крас­ ная текстильщица» г. Нерехта Костромской области, составляющим более 80% всей численности ткачих комбината1. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 в вышеопи­

санных схемах исследования.

Обозначение и содержание восемнадцати исследуемых признаков = 18) приведены в табл. 4.2.

Расщепление вектора признаков-аргументов X на два подвектора носит, очевидно, условный характер и зависит как от конкретных усло­ вий производства, так и от конкретных целей исследования. В нашем случае в подвектор X*1* были включены первые 9 компонент вектора X.

Учитывая разнородный физический смысл единиц измерения ис­ следуемых восемнадцати признаков, до применения метода главных компонент все эти признаки были пронормированы с помощью своих

1 Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.

6 Зак. 358

161


Т а б л и ц а 4.2

Признак

Содержание признака

Показатели эффективности труда:

z(1) условно-натуральный по­ казатель часовой выра­ ботки рабочего (в метроуточинах)

z(2> выполнение нормы-выра­ ботки (в процентах)

z(3> заработная плата (в руб.)

Показатели состояния и степени использования оборудования:

 

производительность ткац­

 

кого станка (в метро-

 

уточин в час)

<

х < 2 >

скорость ткацкого

стан­

х<3>

ка (ударов в мин.)

ткани

ширина

суровой

*<4>

(метров)

оборудования

простой

х(5>

(в процентах)

 

межремонтный цикл (ме­

сяцев)

Признак Содержание признака

Ассортимент вырабатываемой продукции (в качестве сырья):

х<6>

номер уточной пряжи

х (~>

число обрывов нитей ос­

 

новы на 1000 м

одиноч­

 

ной нити

 

 

 

сортность ткани

 

Показатели специализации

х<9>

рабочих

мест:

 

 

количество

артикулов,,

 

вырабатываемых

на ра­

 

бочем месте

 

 

Показатели социально-демогра­

 

фических условий:

 

* < 1 ° >

трудовой стаж по специ­

 

альности (лет)

 

х < 1 1 )

возраст (лет)

(классов)

х ( 1 2 >

образование

х < 1 3 )

число

несовершеннолет­

 

них детей в семье

х < 1 4 )

среднедушевой

доход

 

семьи

(руб.)

 

размер

д .1 1 5 )

среднедушевой

 

жилой площади (кв. м)

выборочных среднеквадратических отклонений s, т. е. был осуществлен! переход к новым (безразмерным) признакам

 

 

 

z (i) =

Z(0__J(0

(1 = 1,

2,

3),

 

 

 

 

z<0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и(/)_ѵ-(/)

 

2, • • j 15),

 

 

 

х ш = -----------

(/= 1 ,

где

 

 

 

 

SxU)

 

 

 

 

 

 

1

 

 

 

 

п

 

 

 

 

П

 

 

 

ѵ</>

 

;<!>__!_

V

2<0

х (,)

 

 

 

 

 

Л т у

 

с

---

у

< С т у

п

2

 

 

 

п

m= 1

 

 

1

П

 

 

 

 

т1

 

 

 

или и = х (і)),

 

а s<2) = —

V

(ити )2 (w = 2<')

 

п

 

,

 

 

 

 

 

 

 

Проекция исследуемых ста (п = 100) восемнадцатимерных = 18)* наблюдений на плоскость первых двух главных компонент г/<‘>(X , Z)■ и г/(2) (X , Z), построенных по всем рассматриваемым признакам, пред­ ставлена на рис. 4.5.

Анализ нагрузок исходных признаков на первые две главные ком­ поненты так же, как и тщательное рассмотрение рис. 4.5, позволяет интерпретировать первую главную компоненту г/<1) как агрегирован-

162