Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 90

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ходим Х ^ іп и Х^шахі соответствующие v2mln и ѵ2шах. Новое поощре­ ние и пересылку v2mln в ячейку делаем только тогда, если v2mln <; < vimin> а наказание и пересылку ѵ2шах в ячейку у2, если ѵ2тах >■

^ ^lmax’

 

 

 

В результате такого поиска получа­

Далее поступаем аналогично.

ем в ячейке

некоторое vmin =

min {vj.mjn }Ч

 

 

Поиск прекращается,

если

содержимое ячейки

сохраняется

на протяжении

некоторого числа групп. За подпространство Хэф*

принимается подпространство, соответствующее vmln.

 

 

Метод СПА был использован для нахождения

в уже

рас­

смотренном примере, т. е.: р =

17; р' =

3; k = 3; т1 = 84; т2 =

92;

т 3 = 74.

 

без

поощрения

и наказания,

поиск б2 —

Поиск бх проводился

с поощрением и наказанием (h

=

0,013). При поиске б3

первоначаль­

ные вероятности выбора признаков (я;) устанавливались различными в соответствии со значениями средней доли ошибочно расклассифицируемых наблюдений обучающих выборок (^/полученными отдельно для каждого из признаков, т. е. при р' = 1.

Число г подпространств, анализируемых на каждом этапе алго­ ритма, равно 10.

На рис. 4.8 изображена сходимость величины Ѵ;.тіп к vmln при различных видах поиска. На оси абсцисс откладывается суммарное число подпространств R, которые были рассмотрены к данному моменту поиска. Из рис. видно, что при поиске Ь3 понадобилось всего 4 группы (40 подпространств) для получения ѵш1п = 88 (а при методе 62 ■—120).

Этот эксперимент показывает целесоообразность применения данного метода для определения наиболее информативной системы при­ знаков.

В общем виде вопрос о выборе г и h не решен. Вероятно, что чем больше г и меньше h, тем больше вероятность получения Х^п и тем больше потребуется мащинного времени. Предполагается также, что с увеличением числа сочетаний выигрыш в количестве вычислений, который дает данный метод по сравнению с методом полного перебора, увеличивается.1

1 Заметим, что при неограниченном поощрении и наказании признаков де

исключена ситуация, в которой вероятность выбора некоторого признака щ окажется или отрицательной, или большей единицы.

Конечно, вероятность такого события очень мала (вследствие малости h и большого числа признаков), и, кроме того, в рассмотренных в работе [8] примерах показано, что на практике алгоритм сходится значительно раньше, чем вероят­ ность выбора какого-либо из признаков окажется близкой к 0 или 1. Тем не ме­ нее целесообразно ввести следующее ограничение: пусть 0 < Мх < М2 < 1, где Мг и М2 ■— некоторые заранее выбранные числа.

В случае, если на 1-м шаге окажется

что щ h < Мг или я,- + h > М2,

где X1*1 •— некоторый признак, попавший

в

подпространство, дающее соответст­

венно V;. іліп или V;, щах. то положим на (I

+ 1)-м шаге: я* = Мх или щ = М 2.

При этом наказание или

поощрение остальных признаков нужно провести та­

ким образом, чтобы Я! +

... Яр = 1.

 

 

2 0 2



б) Последовательное рассмотрение отдельных признаков (метод Кендалла). В работе [25] предлагается метод построения наиболее информативного набора признаков, не зависящий от типа распределе­ ния. Рассматривается задача распознавания двух образов, т. е. реша­ ется вопрос, как зная 2 обучающие выборки из двух многомерных ге­ неральных совокупностей, определить, к которой из этих совокуп­ ностей относится некоторый элемент. Метод, которым решается зада­ ча, состоит в том, что признаки сначала упорядочиваются «по старшин-

I------1__ I__ I____I___ I___ I___ I___ I__ I____ I__ I____ I__ I____ 1___ I-----1-----

О

20

4 0

60

80

10 0

120

14 0

160

Рис.

4.8. Сравнение различных алгоритмов поиска

 

 

наилучшей комбинации признаков

ству», в порядке убывания их информативности,

а затем строится ре­

шающее правило, по которому по значению старшего признака неко­ торого элемента либо можно отнести этот элемент к одной из генераль­ ных совокупностей, либо перейти к следующему по старшинству при­ знаку. В случае, если после перехода к самому младшему признаку по его значению нельзя распознать данный элемент, задача остается нерешенной.

Рассмотрим пример: генеральные совокупности —это 2 сорта ириса: «Разноцветный» и «Вирджиния».

Берется по 50 цветков каждого сорта и делается 4 линейных из­ мерения специального вида (ширины лепестков и т. д.). Следуя [25], обозначим эти четыре признака через PL, PW, SL,

Данные измерений двух сортов ириса по 4 переменным приводятся в табл. 4.4.

203

 

 

 

 

 

 

Т

а б л и ц а 4.4

 

Сорт «Разноцветный»

 

 

Сорт «Вирджиния»

SL

 

PL

PW

SL

SW

PL

PW

7,0

3,2

4,7

1,4

6,3

3,3

6,0

2,5

6,4

3,2

4,5

1,5

5,8

2,7

5,1

1,9

Примечание. В каждом столбце по 50 значений, измерения производили с точностью до

0 , 1.

Используя табл. 4.4, составляем таблицу частостей по каждому из признаков. Так, в табл. 4.5 приведены частости для признака PL двух сортов ириса. Этот признак, как выяснится позже, является стар­ шим в данной задаче.

 

 

 

 

Т а б л и ц а 4.5

Значения

Сорт

Сорт

Значения

Сорт

Сорт

переменных

«Разноцвет­

«Вирджиния»

переменных

«Разноцвет­

«Вирджиния»

 

ный»

 

 

ных»

 

4,3

25

 

 

5,2

 

2

4,4

4

 

5,3

2

4,5

7

 

1

5,4

2

4,6

3

 

5,5

3

4,7

5

 

5,6

6

4,8

2

 

2

5,7

4,9

1

 

3

5,8

3 ,

5,0

1

 

3

5,9

13

5,1

1

 

7

 

 

 

Примечание. В правой части таблицы приводится количество цветков, для которых из­ мерение по PL равно данному значению.

Из таблицы видно, что по переменной PL множества измерений цветков обоих сортов пересекаются на отрезке (4.5; 5.1); т. е. левее отрезка попадают только измерения «Разноцветного», правее только «Вирджиния», а внутри отрезка содержатся измерения обоих сортов. Обозначим этот отрезок через R Pl , а через N PL — число цветков обоих сортов, измерения которых по PL попадают вне отрезка R p l . Анало­ гично введем N s l , N p w , N s w - П о табл. 4.5 подсчитаем N PL, N P W, N S l и

N s w • Оказалось, что N PL — 63; N p w

62; а N s l <

N P W, N s w <

N p w -

Следовательно, по переменной

PL можно

распознать

макси­

мальное число элементов (цветков),

поэтому считаем PL — старшим

признаком, PW — следующим по старшинству, так как Nsw и N sl <

<N PW и строим следующее решающее правило:

/ ч I

PL < 4 ,4

относим цветок к сорту

«Разноцветный»

п,

г г.

(*)

PL > 5 ,2

 

«Вирджиния»

 

 

4,5 ^

PL <; 5,1 переходим к следующему по старшинству

 

 

 

признаку.

 

204


Рис. 4.9. Переход к новым координатам в методе Кендалла

Всего элементов, которые нельзя распознать по PL, т. е. тех, для которых значения PL попадают в RPL,—37 (37 = 50 + 50—63). Выбераем эти элементы из табл. 4.4 и составляем для них по PW таблицу, аналогичную таблице 4.5, отражающую распределение частостей для 37 элементов, не распознанных по PL.

Затем находится Rpw, строится решающее правило по PW аналогично (*), определяется старший из оставшихся признаков.

После построения реша­ ющего правила для «са­ мого младшего» призна­ ка процедура распозна­ вания заканчивается. Элементы, которые нель­ зя распознать с помо­ щью такой процедуры, считаются неопределен­ ными. Этот метод очень прост: никаких вычис­ лений, кроме подсчета случаев, в нем не содер­ жится. Процедура рас­ познавания не зависит от вида распределений совокупностей; не тре­ буется никакой априор­ ной информации об этих распределениях. При применении процедуры выясняется, какой из признаков более инфор­ мативный в том смысле, по какому из них можно определить большее чис­ ло случаев. Если с по­ мощью такой процедуры

удается распознать очень мало случаев, рекомендуется перейти к но­ вым координатам. Попробуем наглядно пояснить смысл этой-реко­ мендации .

Изрис. 4.9видно, что R x(i) и Rx(2) велики, и по п р и з н а к а м и х<2> не удается распознать ни одного элемента. После поворота осей (пере­ ход к координатам у П) и г/(2>) получаем области А, В, С, D, в которых можно распознать элементы, и область Е — «область неопределен­ ности».

В общем случае предлагается переходить к координатам, совпада­ ющим с главными компонентами одной из выборок. Но вопрос о том, действительно ли при этом уменьшится число неопределенных эле­ ментов, не исследован. Естественным критерием качества такой про­ цедуры можно считать долю «неопределенных» точек по аналогии с долей ошибочно оаспознанных точек.

205

Г л а в а V

РЕШЕНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЗАДАЧ

СИСПОЛЬЗОВАНИЕМ МЕТОДОВ КЛАССИФИКАЦИИ

ИСНИЖЕНИЯ РАЗМЕРНОСТИ

§1. ЭКСПЕРТНО-СТАТИСТИЧЕСКИЙ МЕТОД

ѵ п о с т рЪе н и я н е и зв е с т н о й ц е л е в о й ф у н к ц и и

И ЕГО ПРИМЕНЕНИЕ

1. Объект, его выходное качество и входные параметры. Понятие целевой функции

Пусть исследуемый объект (страна, предприятие, семья и т. д.) характеризуется неким «выходным качеством» у, которое апри­ ори обусловливается (не обязательно однозначно, детерминированно)

набором поддающихся учету ^^змеренцю .«входные параметров» x<'), ..., х<р>. Так, уровень общественного благосостояния страны у , по-видимому, в значительной мере характеризуется структурой и объе­ мом потребления различных благ и услуг хЧ>, х<р>х. Т о ч н о так же эффективность работы предприятия у определяется в основном со­ вокупностью таких входных параметров, как себестоимость продукции

хЧ), ее реализуемость х<12>,* текучесть кадров х<3),

фондоотдача х<4> и

т. п. В том же плане можно рассмотреть пример,

в котором объектом

исследования являются здания (жилые, производственные или админи­ стративные), а выходной характеристикой качества — величина, об­

ратная степени их износа у.

При этом в качестве входных параметров

х<>); ,.м х(р) естественно

принять различные стандартные технические

характеристики, поддающиеся непосредственному измерению

и опи­

сывающие

отдельные

стороны

общего

понятия — степени

износа

всего здания. И, наконец,

можно рассмотреть задачу оптимизации

структуры

личного (семейного) потребления2. Здесь объектом исследо­

вания является семья,

выходным

качеством у — степень оптималь-

1 В зависимости от конкретизации постановки задачи различные факторы,

не вошедщие

в состав «аргументов»

...,

(социальные, политические,

географические и др.), либо должны быть приблизительно одинаковыми по всем

обследуемым объектам, либо

войдут в «остаточную» случайную компоненту,

объясняющую стохастичный характер зависимости у от х ^ \ ..., х ^ .

2 Точный смысл понятия

оптимизации будет ясен из дальнейшего изложе­

ния.

 

206


ности ее социально-экономического поведения, а входными парамет­ рами х(1), — характеристики структуры потребления различ­ ных благ и услуг. Перечень подобных задач представлен в табл.

 

 

Компоненты век­

Вид

Конкретный

Цель

Объект

тора наблюдений

(входные пара­

экспертной

смысл

выходного

исследования

 

 

метры)

оценки

качества объекта

 

 

1. Эксплуа­

Текущие значе­

Определение

Общий

показа­

Определение об­

тируемый

ния параметров

общего процен­

тель износа эк­

щего

показате­

объект

(жи­

эксплуатируе­

та износа

сплуатируемого

ля износа толь­

лые и

про­

мого объекта,

 

объекта

 

ко по

текущим

изводствен­

фиксируемые в

 

 

 

значениям офи­

ные построй­

официальной

 

 

 

циальных пара­

ки, единицы

документации

 

 

 

метров*

технической

 

 

 

 

 

 

оснащенно­ сти и т.п.)

2.Предпри­ ятие

3.Семья

Показатели эф­

Группировка

Характеристика

Ранжированиеи

фективности ра­

предприятий по

качества рабо­

сопоставление

боты предприя­

качеству их ра­

ты предприятия

предприятий по

тия

 

боты

 

качеству их ра­

 

 

 

 

боты*

 

Показатели со­

Группировка се­

Характеристика

Ранжирование и

циально-эконо­

мей с точки зре­

прогрессивности

сопоставление

мического пове­

ния прогрессив­

и общественной

семей с

точки

дения

семей

ности и общест­

полезности со­

зрения прогрес­

(бюджет

време­

венной полезно­

циально-эконо­

сивности

и об­

ни, денег и т.

сти их социаль­

мического пове­

щественной по­

Д-)

 

но-экономичес­

дения семьи

лезности их со­

 

 

кого поведения

 

циально-эконо­

мического пове­ дения*

4. Спорт­

 

Показатели ско­

Оценка за игру,

Характеристика

Определение

 

ростной и сило­

выставляемая

эффективности и

лучших игроков

смен, участ­

вой выносливо­ спортсмену тре­ мастерства

соревнования,

ник матча в

сти,

выполне­

нером или спе­

спортсмена,

турнира,

сезо­

одном из иг­

ния ряда техни­

циальной смот­ проявленных в

на*, разработка

ровых видов

ческих элемен­

ровой комисси­

данной игре

индивидуаль­

спорта,

на­

тов и тактичес­

ей, жюри

 

ных

планов

пример,

в

ких

приемов в

 

 

тренировки

хоккее

 

процессе игры

 

 

спортсмена

*Без привлечения экспертов.

1В табл. 5.1 приведены лишь те из конкретных задач, подпадающих под описываемую здесь весьма общую и актуальную, с нашей точки зрения, схему исследования, с которыми мы в той или иной мере сталкивались в нашей практи­ ке. В ней не упомянуты, например, задачи промышленно-технического и медико­ биологического профиля, для которых данная постановка особенно естественна

иплодотворна.

2 0 7