Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 74

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

у*:<',•

\

А. АЙВАЗЯН, 3. И. БЕЖАЕВА, О. В. СТАРОВЕРОВ

ПАССИФИКАЦИЯ

МНОГОМЕРНЫХ

НАБЛЮДЕНИЙ

«СТАТИСТИКА» 1974

Гос* оувлѵчи** млучмо-твхничвомѵі

бибп:'0тѳиа оР

uut>й Ы & К ± М В *

уч- м&о

Работа посвящена описанию м

классификации объекто

(стран, городов, предприятий, сеі

.ивидуумов

и т. д.), за ~

данных набором количественных

зк

Значительное мест

в работе уделено методам, позволяющ

выбрать из большого числа .

исходных

признаков,

характеризующих

состояние объекта, срав­

нительно

небольшое

число наиболее

существенных

признаков.

В работе показаны основные направления социально-эконо­ мических исследований, в которых излагаемые методы целесообрг

ны,

а подчас необходимы.

Рассмотрены примеры решения

реа. _

ных

социально-экономических задач с применением раскрь ѵ

в работе методов.

на математиков, экономистов,

ста'

 

Монография рассчитана

тиков и других специалистов, использующих математико-статис ческие методы при обработке многомерных наблюдений.

СЕРГЕЙ АРТЕМЬЕВИЧ АЙВАЗЯН ЗИНАИДА ИВАНОВНА БЕЖАЕВА

ОЛЕГ ВАСИЛЬЕВИЧ СТАРОВЕРОВ

КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ

 

Редактор Л. В. Сергеева

Техн. редактор Г.

А. Сидорова.

Корректор А. Т. Сидорова

 

Худ. редактор Т. В. Стихно

Переплет художника

Л. С

Эрмана_________________ ____

Сдано в набор 29.ѴІ 1973 г.

 

 

Подписано к печати 8.П

Формат бумаги 60Х90'/іб-

Бумага № 3

 

Объем 15,0 печ. л. Уч.-нзд. л.

Тираж 4700 экз.

А 03060

 

(Тематич. план 1973 г. Л,

Издательство «Статистика», Москва, ул. Кирова, 39.

Заказ № 358

 

 

' Цена 1 р. 80 к.

Московская типография № 4 Союзполиграфпрома

при Государственном Комитете

, Совета Министров СССР по делам издательств, полиграфии и книжной торговли Москва, И-41, Б. Переяславская, 46

д 10805-039

8—73

008(01)—74

f

ИЗДАТЕЛЬСТВО «СТАТИСТИК^»,


«.. . Математика,-.вообще столѴ^строго нравствен­ ная, совернжда-: грехопадение;-! она вкусила от яблока познания; и это открыло ей путь к гигант­ ским успеха^?', но вместе с, тем, и к Заблуждениям. Кануло в вечность девственное состояние абсолют­ ной значимости, неопровержимой* доказанности всего математического; наступила эра разногласий, и мы дошли до того, что большинство людей дифференцирует и интегрирует не потому, что люди понимают, что они делают, а просто потому, что верят в это, так как до сих пор результат всегда получался правильный».

'

Ф. Энгельс («Анти-Дюринг»)

ВВЕДЕНИЕ

«Четвертая планета принадлежала деловому человеку. Он был так занят, что при появлении Маленького принца даже головы

не поднял.

— Добрый день, — сказал ему Маленький принц. — Ваша папи­ роса погасла.

— Три да два •— пять. Пять да семь — двенадцать. Двенадцать да три — пятнадцать. Добрый день. Пятнадцать да семь — двадцать два. Двадцать два да шесть — двадцать восемь. Некогда спичкой чиркнуть. Двадцать шесть да п ять— тридцать один. Уф! Итого, стало быть, пятьсот один миллион шестьсот двадцать две тысячи семьсот тридцать один.

Пятьсот миллионов чего?

А? Ты еще здесь? Пятьсот миллионов ... Уже не знаю чего ...

Уменя столько работы! ...». (Антуан де Сент-Экзюпери «Маленький принц».)

Эти слова из «Маленького принца» Антуана де Сент-Экзюпери как нельзя лучше объясняют главную причину, по которой мы взялись за написание данной книги. Дело в том, что неуклонный рост потоков информации, с которыми приходится иметь дело человеку, и одновре­ менно вычислительной базы переработки этой информации с неизбеж­ ностью приводит ко все большей — пространственной и временной — занятости человека счетом. Считают сотрудники органов государст­ венной статистики и лингвисты, математики и биологи, физики и меди­ ки и т. д. Возникают новые разделы в старых добропорядочных дисциплинах, до недавнего времени не имевших (или имевших весьма слабое и поверхностное) отношение к счету, к статистике, к математике: технометрика, биометрика, эконометрика, психометрика, наконец, наукометрия... Обилие вычислительных машин и самых разнообразных

"

3


математических приемов статистической обработки информации, с од­ ной стороны, и самой этой информации — с другой, зачастую приводят* к бездумному, формальному применению различных математических методов, к ситуациям, в которых исследователь невольно теряет из ви­ ду основную цель производимых им вычислительных манипуляций.

Вычисление не вместо здравого смысла и глубоких профессиональ­ ных знаний исследуемого предмета, а лишь как дополнение последних, проводимое после тщательного профессионального анализа (и парал­ лельно с ним) и подбора соответствующих математических приемов

исследования, — к сожалению, этот тезис зачастую придается незаслу­ женному забвению.

К разделам, где эта тенденция «беспорядочного счета» проявляется достаточно выпукло, безусловно следует отнести совокупность разно­ образных методов, объединенных целью классификации объектов, пред­ ставленных многомерными наблюдениями, и целью выявления однород) ных в некотором смысле групп (типов) этих объектов с одновременны^ максимальным сжатием перерабатываемой при этом информации. '

Отчасти это можно объяснить тем, что данный раздел (классифика­ ция многомерных наблюдений и методы снижения размерности) лежит на стыке самых различных дисциплин как математических: теория ве­ роятностей и математическая статистика, логика, алгебра, теория при­ ближения функций, — так и нематематических: психология, биология, медицина, техника. В зависимости от специальности и природы исполь­ зуемых методов исследователь называет этот раздел распознаванием образов или таксономией, кластер-анализом или дискриминантным ана­ лизом. Дело осложняется тем, что в задачах классификации многомер­ ных наблюдений широко используются (и не без успеха) разнообразные эвристические методы, т. е. методы, не опирающиеся на строгую мате­

матическую модель и не допускающие сколько-нибудь полного и обо­ снованного исследования их свойств.

Заметим, кстати, что необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали и уче­ ные далекого прошлого. «Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея І

классификации, которая проходит через все его работы... Аристотель'

 

ввел или, по крайнем мере, кодифицировал способ классификации пред­

 

метов, основанный на сходстве и различии...», — пишет Дж. Берналл

 

в «Науке истории общества» (глава 4).

 

Главной целью данной работы является попытка посильной система-

 

тизацйи используемых в настоящее время методов классйфикации мно-

 

гомерных наблюдений и методов снижения размерности этих наблюде-

 

ний, осмысливание этих методов с точки зрения диапазона их содержа­

 

тельной применимости и их «взаимоувязки» и «взаимоотношений». Ра-

 

бота содержит и некоторые новые (ранее не публиковавшиеся) резуль-

!

тэты, принадлежащие как авторам: понятия и результаты, связанные

с классификацией при наличии квазиобучения (§4 главы 1); теоремы

і

4 и 5 главы 2 об оценках максимального правдоподобия параметров

1

смеси нормальных

распределений; описание самой общей схемы эта-

(

лонных алгоритмов

кластер-процедур (§ 3 главы 3); экспертно-стати-

4

'

/■

{


но выбранном изделии г-го класса, примет значение, равное или до­ статочно близкое к ІГ ..., ц <р)).

И, наконец, поскольку набор признаков X, как правило, не опреде­ ляет наверняка номер технологического режима, при котором изготов­ лялось соответствующее изделие, то при любом правиле классификадии, опирающемся на X, неизбежно возникают потери от отнесения >бъекта г'-го класса к классу с номером /, которые мы будем в дальнейіем обозначать с помощью С (j/i).

хФ

Рис, 1.4. Результаты измерения внешних признаков

исследуемых изделий, из­ готовленных в различных тех­ нологических режимах, пред­ ставленные графически: в пер­ вом режиме точками; во вто­ ром — крестиками; в третьем —

кружочками

Очевидно, выбор правила классификации рассматриваемых объек­ тов сведется, таким образом, к выбору способа разбиения всего про­ странства X возможных значений исследуемого признака X на три области: S1; S 2, S 3. Пример соответствующего разбиения приведен на „•рис. 1.4. Тогда наблюдение Хи т. е. 1-е изделие, относится к і-му клас­ су, если оказалось, что оно попало в область Si. При этом естественно

искать такое разбиение S = {5Ь S2>S 3}>

при котором минимизиро­

вались бы (в некотором

смысле) потери от

неправильной классифи­

кации.

 

 

 

Один из возможных подходов минимизации потерь, так называе-

: іый байесовский подход,

состоит в следующем.

С (j | і),

При классификации

1-то объекта потери равны Сг (/1і) =

• а при классификации п объектов общие (суммарные) потери

равны

4 П

"Т Ci (/ I i) = nC ( /11) и будут расти с ростом числа объектов. Поэтому

.инимизируют относительные потери, т. е.

— S с і (/ (г) = С ( /1г).

п 1=1

31


Выясним статистический смысл этой суммы. Обозначим через п (г)— общее число объектов г-го класса, а через т (/1і) — число объектов г-го класса, отнесенных к классу /'. Тогда, собирая слагаемые с одним и тем же / и одним и тем же і, получим, что

 

V

2 Q ( /|Z )

— 2 21

 

 

 

 

п

/=1

k

п

/= 1

г =

 

 

 

 

 

 

k

с (/1i)

m a

n (i)

 

 

 

 

- 2

2

 

 

 

 

n

 

 

 

 

 

/=1i= l

 

 

n { i)

 

 

Замечая, что при n —>- oo отношение

стремится по вероятности

к априорной вероятности я г, а отношение

от^

~ стремится в том же

смысле

к вероятности

Л (/1г)

отнести объект

класса г к классу

/,

получаем

 

 

 

fo

k

k

 

 

 

 

1

"

сг(/10

 

 

 

 

V

- 2

2

С (/|г )Р (/|г )л г -

 

 

п

I=

1

k

/= 1/=1

 

 

 

 

 

 

 

2

С (/I і)Р (/ I 0

 

 

 

 

=

2

 

 

 

 

/= 1

/= 1

 

J

 

Символ —у означает

сходимость

по вероятности при п-> оо.

 

Таким образом,

 

 

 

 

 

 

k

 

если теперь через Сг обозначить 2 С ( /1г)/3 (/ | г)—

средние потери,

 

 

 

 

 

 

 

/=1

 

или математическое ожидание потерь при определении

класса

объектов, принадлежащих в действительности к классу г,

то

 

 

 

 

 

 

1

п

 

при большом числе п

относительные суммарные потери —

2 Сг(/|г)

 

 

 

 

 

 

п

/=1

 

 

 

 

 

 

 

 

 

 

k

 

 

 

объектов будут примерно равны величине 2 я гСг, т. е. средним потерям,

І — 1

возникающим при данном правиле определения класса произвольно взятого объекта.

Легко обнаружить, что при специальном виде потерь

о,

/ = /,

с а I о = С,

іф).

минимизация относительных потерь эквивалентна максимизации ве­ роятности правильной классификации. Действительно,

2 с ,(/| і) =

2

(я,

2 с (/іі) р и I і)

п

1 = 1

 

і=

1

і=і

 

 

 

 

 

k

= с 2 щ

2 я ( /1о = с 2 я г[ і - р ( і |0 ]

 

і = 1

./= 1

 

 

і — \

 

 

ІФі

 

 

 

= с 1— 2 яір (і

/= 1

32