Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 80
Скачиваний: 0
|
|
Т а б л и ц а 5.7 |
Признак |
Обоз начение |
Описание признака |
признака |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
*(1>
Х<2 >
X(3>
х(4>
х(5>
*<в> *<7> х<8> х(0> х<10> х<14> х<12> х<13>
х(14)
к<15)
х(16)
х<17>
Х< 1 8 >
Х< 1 9 >
£(2 0 )
х(21)
х( 2 2 )
^( 2 3 )
Х< 2 4 >
£( 2 Ь )
Х< 2 6)
х< 2 7 )
д;(2 S >
х<29>
30)
х(31)
х( 3 2 )
Число жителей города, приходящееся на каждую тысячу городского населения
с образованием:
ВЫСШИМ
незаконченным высшим, средним специальным или средним общим семилетним начальным
Мужчин:
в возрасте: до 1 года от 1 до 2 лет
от 3 до 6 лет от 7 до 15 лет от 16 до 17 лет от 18 до 25 лет от 26 до 29 лет от 30 до 39 лет от 40 до 49 лет от 50 до 59 лет свыше 59 лет
занятых в сфере материального производства и непроизводственной сфере
рабочих иждивенцев рабочих служащих
иждивенцев служащих
занятых в сфере материального производства
в промышленности: рабочих
служащих в строительстве:
рабочих
служащих
вотрасли «связь»: рабочих служащих
вторговле и общественном питании: рабочих
служащих
пенсионеров
получающих различного рода стипендии
занятых в сфере материального производства
226
•— применить «метод k - средних» и «метод потенциальных функ ций» (см. § 3 главы 3) для классификации городов в исходном простран стве и в пространстве сниженной размерности;
— с помощью экспертов (специалистов по экономической географии) получить контрольное («экспертное») разбиение исследуемой совокуп ности городов на однородные классы и произвести сравнение различ ных вариантов формального (машинного) разбиения как между собой, так и с экспертным разбиением;
— получить содержательные выводы произведенного численного анализа, позволяющие описать качественный и количественный состав основных однородных групп городов и выявить наиболее типичных представителей от каждой из групп.
2. Снижение размерности с помощью главных компонент
Анализ главных компонент вектора А' = (х^>, ..., х<32)), построен ных по выборочной корреляционной матрице размерности 32 X 32 (для экономии места эта матрица здесь не приводится), показал, что
первая главная компонента харак
|
теризует города в основном с точки |
||||||||
|
зрения |
удельного |
веса |
прослойки |
|||||
|
населения детского (до 8 лет) и по |
||||||||
|
жилого |
(после 40 лет) |
возраста, а |
||||||
|
также |
имеющего |
законченное |
или |
|||||
|
незаконченное |
высшее образова |
|||||||
|
ние. В то же время |
вторая глав |
|||||||
|
ная компонента имеет |
социальный |
|||||||
|
смысл, характеризуя |
города с точ |
|||||||
|
ки зрения удельного веса прослой |
||||||||
|
ки населения, |
занятой в сфере ма |
|||||||
|
териального производства или не |
||||||||
|
производственной сфере (или, что |
||||||||
|
практически дублирует этот приз |
||||||||
|
нак, — имеющий |
возраст |
между |
||||||
|
восемнадцатью |
и |
сорока годами). |
||||||
|
На рис. 5.1. показано, как ме |
||||||||
|
няется |
доля суммарной дисперсии |
|||||||
|
q (р), заключенной в |
р' |
первых |
||||||
|
главных |
компонентах |
вектора |
X, |
|||||
|
описанного в табл. 5.7. при измене |
||||||||
Рис. 5.1. Изменение доли суммарной |
нии р' (см. формулу 4.10). Из рисун |
||||||||
ка мы |
|
видим, |
что |
на первые две |
|||||
дисперсии q(p'), заключенной в р' |
|
||||||||
первых главных компонентах век |
главные |
компоненты |
приходится |
||||||
тора X |
51%, на |
первые |
три — 67%, а на |
||||||
первые пять — 78% от суммарной меры |
случайного рассеяния иссле |
||||||||
дуемых точек-городов. Поэтому в дальнейшем наряду с наглядно |
ин |
||||||||
терпретируемыми случаями р' = |
2 и р' — 3 классификация |
городов |
|||||||
будет производиться также по пяти главным компонентам (р = |
5). |
227
На рис. 5.2 представлены проекции исследуемых тридцатидвухмер ных точек-городов на плоскости двух первых главных компонент у О и г/(2). Анализ рис. 5.2 склоняет к мнению, что в данной задаче вряд ли можно ожидать достаточно явного распадения исследуемой сово купности точек-городов на четко выраженные «сгущения»», однород ные классы. Однако пять слабо выраженных сгущений мы все-таки можем условно наметить. На рис. 5.2 они обведены пунктирными
У®
.33 15 . |
|
/ |
|
|
|
43 |
|
|
|
•70 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/ |
|
•27\ |
|
( . 5 1 |
. 6 2 |
. 3 5 |
" X |
||||
•59 . / 7 |
|
|
|
|
|
|
|
|||||||
22/ |
/ |
|
\ |
\ |
|
|
|
© |
||||||
|
|
|
|
|
|
|||||||||
|
|
|
У |
■' |
|
I |
•38 |
|
|
|
|
|
||
|
|
|
|
|
|
|
. 3 7 |
|
. 6 5 / |
|||||
|
|
|
|
|
|
|
|
|
||||||
|
|
/ |
' |
© |
|
ззI |
|
|
|
|
|
|
|
|
|
|
|
•24 I |
|
|
|
68 |
21 \ |
|
|
|
|||
|
/ |
|
. 4 0 |
•34 . 6 0 |
|
. / |
, |
•67 |
|
|
|
|||
|
/ |
|
. 3 2 |
|
У. |
У |
|
|
||||||
|
|
|
|
|
|
|
<47 |
. 2 9 |
|
|
44 |
|
- y d ) |
|
|
•12 |
|
'6 4 |
J 8/ |
|
/ |
|
7 2 • ■ • 3 6 |
.5 5 |
» 5 4 |
.4 6 |
•26', |
|
|
\ |
|
|
|
|
|
48 |
|
|
|
' |
] |
|
||
|
|
|
У |
/ |
|
4 2 |
•53 |
' 2Ь о |
|
'К 1 9 |
|
|
||
\ |
\ |
•* |
.6 9 |
.31 25 |
|
|
|
|||||||
|
|
V/ ^ |
/ |
|
Ѳ |
|
|
|
/ |
|
|
|||
|
|
|
|
/ |
|
|
|
|
|
|
|
|
||
|
|
|
|
/ |
.16 |
|
|
•56 |
/ |
|
|
|
||
|
|
|
|
I |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
\ |
|
•63 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
•39 |
|
|
|
|
|
|
|
|
|
|
|
\ |
\ |
|
« |
|
|
|
|
|
|
|
|
|
|
|
N |
|
73 |
|
|
|
|
|
|
|
|
|
|
|
|
|
ч _ |
|
|
|
|
|
|
|
||
/ 1 |
8 |
9 |
© |
•50\ |
|
|
.3 |
|
|
|
|
|
|
|
\ |
|
|
|
|
|
|
|
|
|
|||||
' |
\ |
* |
|
|
|
|
|
|
|
|
|
|
|
|
Рис. |
5.2. |
Расположение |
|
проекций |
32-мерных |
точек — городов на |
плос |
|||||||
|
|
|
|
кость первых двух главных компонент |
|
|
|
линиями и обозначены с помощью 1° ~ 5° (нумерация классов не соответствует той, которая принята в табл. 5.6). Это дает нам первое (приближенное) представление о числе однородных классов (типов городов) и их составе.
3. Сравнительный анализ результатов классификации городов
Во-первых, наша выборка из 74 городов была предъявлена специа листу по экономической географии для разбиения на однородные (с его точки зрения) классы. При классификации городов эксперт ис ходил в основном из своих представлений о них и практически не ис пользовал данных, описываемых вектором признаков X ' — (х(1),..., л;(32)). Основными критериями, на которые ориентировался эксперт,
228
являлись промышленный и культурный облик города, его администра тивный статус.
В связи с этим эксперт не дал четкого разбиения всех городов на „однородные группы. Правда, число условных групп k, на которые, в конечном счете, эксперт счел возможным разбить предъявленные ему города, совпало с тем, которое мы ориентировочно наметили, анализируя рис. 5.5 (и в том, и в другом случае k = 5). При этом к пер вому классу эксперт отнес в основном шахтерские центры и центры химической промышленности. Ко второму — города с обрабатываю щей промышленностью и областные центры тяжелого машиностроения, к третьему — небольшие областные центры обрабатывающей про мышленности и областные центры тяжелого машиностроения, к четвертому— центры тяжелого машиностроения, химической про мышленности и города горнодобывающей и металлургической про мышленности, к пятому — несколько специфических, с его точки зрения, городов.
В табл. 5.6 приведены результаты разбиения исследуемой совокуп ности городов на заданное число k=b классов, произведенного восемью различными способами. При этом под номером 1 подразумевается эк спертный метод классификации, под номерами 2~5 — классификация методом потенциальных функций (№ 2 — по всем 32 признакам, № 3 — по первым двум главным компонентам, § 4 — по первым трем главным компонентам, № 5 — по первым пяти главным компонентам), под номерами 6~ 8 — классификация методом ^-средних (№ 6 — по всем признакам и при предъявлении «наблюдений» в том порядке, как они занумерованы в табл. 5.7; № 7 — по всем признакам при об ратном порядке предъявления «наблюдений»; № 8— по всем призна кам и при предъявлении городов в порядке: 38, 39,..., 74; 1, 2, ..., 37).
Как и следовало ожидать, формальные разбиения весьма хорошо согласуются с приближенным графическим разбиением, намеченным в плоскости двух первых главных компонент (см. рис. 5.2). Однако намеченные на рисунке классы 4° и 5° оказались, грубо говоря, объе диненными в один класс («класс 3») в экспертном варианте разбиения.
Проведенное исследование подтвердило также тот факт, что при сравнительно небольших объемах классифицируемых наблюдений (а у нас п = 74, при размерности р = 32!) результат разбиения, получа емого с помощью асимптотически «хорошего» метода k - средних, су щественно зависит от порядка предъявляемых наблюдений.
Чтобы не утомлять читателя, мы не будем приводить здесь резуль таты подробного сопоставления различных разбиений, произведен ного с помощью различного рода «расстояний между разбиениями» (см. § 4 главы 3), так называемых «таблиц сопряженности», крите риев у? и т. п.
4. Выводы и замечания
Классификация городов, произведенная с помощью различных ва риантов методов разбиения многомерных наблюдений на классы, не обнаружила естественного и достаточно явного разделения городов на
2 2 9
однородные классы. Это склоняет нас к выводу, что из двух вариантов постановки задачи разбиения многомерных наблюдений на классы в данном случае естественнее исходить из так называемой «обычной задачи типизации», при которой исследователь не ставит перед собой цели выявить наличие естественных «сгустков» (скоплений) наблюде ний, лежащих на некотором взаимном удалении, но не разбивающих ся — каждое •— на столь же удаленные друг от друга части.
В результате проведенного решения предложено несколько сравни тельно близких вариантов решения задачи типизации городов и опи сано, как в каждом из вариантов определить наиболее типичного пред ставителя группы. Для этого надо определить точку-город, наиболее близко отстоящую от «центра тяжести» соответствующей группы (обла сти группирования). В частности, к таким «типичным представителям» наиболее представительной группы городов (на рис. 5.2 она состав ляет объединение групп 4° и 5°) могут быть отнесены города Костро ма (точка №36), Таганрог (№ 44), Архангельск (№55) и некоторые другие.
Наблюдаемое различие в экспертном и машинном разбиении горо дов на группы в какой-то мере можно объяснить и тем, что эксперт производил разбиение на основании своих профессиональных зна ний, опыта, интуиции и т. п., относящихся к облику анализируемых городов периода 1967—1969 гг., в то время как машинная классифика ция опиралась на данные 1959 г.
ЛИ Т Е Р А Т У Р А
Вв е д е н и е
1.А н д е р с о н Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963.
2.Д у б с о н М. С., С о р о к и н а С. Г., Т ю р и н Ю. Н. Об оптимальном выборе факторов в задаче множественной регрессии. — В сб.: Математические методы и модели в экономике. Вып. 3. М., «Наука», 1972.
3.Распознавание образов в социальных исследованиях (под редакцией Н. Г. Загоруйко и Т. И. Заславской). Новосибирск, «Наука», СО АН СССР, 1968.
4.Р о з и н Б. Б. и др. Группировка предприятий отрасли методами теории
распознавания образов. «Экономика и математические методы», 1969, т. V, вып. 3, с. 353—365.
5. . Ш у р ы г и н А. М. Выбор параметров для классификации двух нормаль ных совокупностей с равными ковариациями. — В сб.: Статистические методы классификации, изд. МГУ, 1969, с. 47.
6. W i l k s |
S. S. |
Multivariate |
statistical outliers. Sankhya, The Jndian J. of |
Statistics,25, |
s. A. p. 407—426. |
|
|
Г л а в а I |
|
|
|
1. А н д е р с о н |
T. Введение в многомерный статистический анализ. М., Физ- |
||
матгиз, |
1963. |
|
Ю. Н. F — метод классификации для нормаль |
■2. Б л а г о в е щ е н с к и й |
|||
ных совокупностей: В сб.: |
Статистические методы классификации. Вып. 1. |
||
Препринт № 6, изд. МГУ, |
1969. |
3.Б л а г о в е щ е н с к и й Ю. Н., М е ш а л к и н Л . Д. Линейная класси фикация распределений с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. — В сб.: Статистические методы класси фикаций. Вып. 1. Препринт № 6, изд. МГУ, 1969.
4.К о л м о г о р о в А. Н. Основные понятия теории вероятностей. М., Гостехиздат, 1936.
5.К о н а к о в В. Д. Непараметрическая оценка плотности распределения
вероятностей. — «Теория вероятностей и ее применения», Т. 17, № 2, 1972.
6.М е ш а л к и н Л. Д. Об одном методе эмпирического улучшения поло жения плоскости классификации. — В сб.: Статистические методы классифи
кации. Препринт № 6, |
изд. МГУ, 1969. |
7. М е ш а л к и н Л. Д. |
Локальные методы классификации. — В сб.: Ста |
тистические методы классификации. Вып. 1. Препринт № 6, изд. МГУ, 1969.
8.Р а о С. Р. Линейные статистические методы и их применения. М., «Нау ка», 1968.
9.Ш л е з и н г е р М. И. О самопроизвольном различении образов. — В сб.:
10. |
Читающие автоматы. Киев. «Наукова думка», 1965. |
into Multivaria |
||||||
A n d e r s o n Т. W., B a h a d u r R. R. |
Classification |
|||||||
|
te Normal Distributions with Different Covariance Matrics. Ann. |
Math. Stat , |
||||||
11. |
33, № 2, |
1962. |
J. |
L. Nonparametric |
Discrimination, 1. |
Consistency |
||
F i x |
E., |
H o d g e s |
||||||
|
Properties. Tech. Report 11, Randolph Field, Texas, 1951. |
2. Smoll Sample |
||||||
'12. F i x |
E., |
H o d g e s |
J. |
L. Nonparametric Discrimination, |
||||
|
Preformance. Tech. Report 11, Randolph Field, Texas, 1951. |
|
|
13.H e 1 1 m a n M. E. The Nearest Neighbor Classification Rule with a Reject Option. IEEE Trans. Sist Sei Cybernetics, 6, № 3, 1970.
14.L o f t s g a a r d e n D. O., Q u e s e n b e r r y C . P. A Nonparametric Esti
mate of a Multuvariate Density Function. Ann., Math. Stat., 36, № 3, 1965.
15.M a c Q u e e n J. Some methods for classification and analysis of multiva riate observation. Proc. Fifth Berkeley Symp. Math. Stat. a. Probab., 1967, 1,
p. 281—297.
16. M u r t h у V. К- Nonparametric Estimation of Multivariate Densities with Applications. Multivariate Analysis, 1966, Proc. Intern. Symp. held in Dayton Ohio. June 14—19, 1965.
231