Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 90
Скачиваний: 0
ходим Х ^ іп и Х^шахі соответствующие v2mln и ѵ2шах. Новое поощре ние и пересылку v2mln в ячейку делаем только тогда, если v2mln <; < vimin> а наказание и пересылку ѵ2шах в ячейку у2, если ѵ2тах >■
^ ^lmax’ |
|
|
|
В результате такого поиска получа |
|||
Далее поступаем аналогично. |
|||||||
ем в ячейке |
некоторое vmin = |
min {vj.mjn }Ч |
|
|
|||
Поиск прекращается, |
если |
содержимое ячейки |
сохраняется |
||||
на протяжении |
некоторого числа групп. За подпространство Хэф* |
||||||
принимается подпространство, соответствующее vmln. |
|
|
|||||
Метод СПА был использован для нахождения |
в уже |
рас |
|||||
смотренном примере, т. е.: р = |
17; р' = |
3; k = 3; т1 = 84; т2 = |
92; |
||||
т 3 = 74. |
|
без |
поощрения |
и наказания, |
поиск б2 — |
||
Поиск бх проводился |
|||||||
с поощрением и наказанием (h |
= |
0,013). При поиске б3 |
первоначаль |
ные вероятности выбора признаков (я;) устанавливались различными в соответствии со значениями средней доли ошибочно расклассифицируемых наблюдений обучающих выборок (^/полученными отдельно для каждого из признаков, т. е. при р' = 1.
Число г подпространств, анализируемых на каждом этапе алго ритма, равно 10.
На рис. 4.8 изображена сходимость величины Ѵ;.тіп к vmln при различных видах поиска. На оси абсцисс откладывается суммарное число подпространств R, которые были рассмотрены к данному моменту поиска. Из рис. видно, что при поиске Ь3 понадобилось всего 4 группы (40 подпространств) для получения ѵш1п = 88 (а при методе 62 ■—120).
Этот эксперимент показывает целесоообразность применения данного метода для определения наиболее информативной системы при знаков.
В общем виде вопрос о выборе г и h не решен. Вероятно, что чем больше г и меньше h, тем больше вероятность получения Х^п и тем больше потребуется мащинного времени. Предполагается также, что с увеличением числа сочетаний выигрыш в количестве вычислений, который дает данный метод по сравнению с методом полного перебора, увеличивается.1
1 Заметим, что при неограниченном поощрении и наказании признаков де
исключена ситуация, в которой вероятность выбора некоторого признака щ окажется или отрицательной, или большей единицы.
Конечно, вероятность такого события очень мала (вследствие малости h и большого числа признаков), и, кроме того, в рассмотренных в работе [8] примерах показано, что на практике алгоритм сходится значительно раньше, чем вероят ность выбора какого-либо из признаков окажется близкой к 0 или 1. Тем не ме нее целесообразно ввести следующее ограничение: пусть 0 < Мх < М2 < 1, где Мг и М2 ■— некоторые заранее выбранные числа.
В случае, если на 1-м шаге окажется |
что щ — h < Мг или я,- + h > М2, |
||
где X1*1 •— некоторый признак, попавший |
в |
подпространство, дающее соответст |
|
венно V;. іліп или V;, щах. то положим на (I |
+ 1)-м шаге: я* = Мх или щ = М 2. |
||
При этом наказание или |
поощрение остальных признаков нужно провести та |
||
ким образом, чтобы Я! + |
... Яр = 1. |
|
|
2 0 2
б) Последовательное рассмотрение отдельных признаков (метод Кендалла). В работе [25] предлагается метод построения наиболее информативного набора признаков, не зависящий от типа распределе ния. Рассматривается задача распознавания двух образов, т. е. реша ется вопрос, как зная 2 обучающие выборки из двух многомерных ге неральных совокупностей, определить, к которой из этих совокуп ностей относится некоторый элемент. Метод, которым решается зада ча, состоит в том, что признаки сначала упорядочиваются «по старшин-
I------1__ I__ I____I___ I___ I___ I___ I__ I____ I__ I____ I__ I____ 1___ I-----1-----
О |
20 |
4 0 |
60 |
80 |
10 0 |
120 |
14 0 |
160 |
Рис. |
4.8. Сравнение различных алгоритмов поиска |
|||||||
|
|
наилучшей комбинации признаков |
||||||
ству», в порядке убывания их информативности, |
а затем строится ре |
шающее правило, по которому по значению старшего признака неко торого элемента либо можно отнести этот элемент к одной из генераль ных совокупностей, либо перейти к следующему по старшинству при знаку. В случае, если после перехода к самому младшему признаку по его значению нельзя распознать данный элемент, задача остается нерешенной.
Рассмотрим пример: генеральные совокупности —это 2 сорта ириса: «Разноцветный» и «Вирджиния».
Берется по 50 цветков каждого сорта и делается 4 линейных из мерения специального вида (ширины лепестков и т. д.). Следуя [25], обозначим эти четыре признака через PL, PW, SL,
Данные измерений двух сортов ириса по 4 переменным приводятся в табл. 4.4.
203
|
|
|
|
|
|
Т |
а б л и ц а 4.4 |
|
Сорт «Разноцветный» |
|
|
Сорт «Вирджиния» |
|||
SL |
|
PL |
PW |
SL |
SW |
PL |
PW |
7,0 |
3,2 |
4,7 |
1,4 |
6,3 |
3,3 |
6,0 |
2,5 |
6,4 |
3,2 |
4,5 |
1,5 |
5,8 |
2,7 |
5,1 |
1,9 |
Примечание. В каждом столбце по 50 значений, измерения производили с точностью до
0 , 1.
Используя табл. 4.4, составляем таблицу частостей по каждому из признаков. Так, в табл. 4.5 приведены частости для признака PL двух сортов ириса. Этот признак, как выяснится позже, является стар шим в данной задаче.
|
|
|
|
Т а б л и ц а 4.5 |
|
Значения |
Сорт |
Сорт |
Значения |
Сорт |
Сорт |
переменных |
«Разноцвет |
«Вирджиния» |
переменных |
«Разноцвет |
«Вирджиния» |
|
ный» |
|
|
ных» |
|
4,3 |
25 |
|
|
5,2 |
|
2 |
4,4 |
4 |
— |
|
5,3 |
— |
2 |
4,5 |
7 |
|
1 |
5,4 |
— |
2 |
4,6 |
3 |
— |
|
5,5 |
— |
3 |
4,7 |
5 |
— |
|
5,6 |
— |
6 |
4,8 |
2 |
|
2 |
5,7 |
— |
— |
4,9 |
1 |
|
3 |
5,8 |
— |
3 , |
5,0 |
1 |
|
3 |
5,9 |
— |
13 |
5,1 |
1 |
|
7 |
|
|
|
Примечание. В правой части таблицы приводится количество цветков, для которых из мерение по PL равно данному значению.
Из таблицы видно, что по переменной PL множества измерений цветков обоих сортов пересекаются на отрезке (4.5; 5.1); т. е. левее отрезка попадают только измерения «Разноцветного», правее только «Вирджиния», а внутри отрезка содержатся измерения обоих сортов. Обозначим этот отрезок через R Pl , а через N PL — число цветков обоих сортов, измерения которых по PL попадают вне отрезка R p l . Анало гично введем N s l , N p w , N s w - П о табл. 4.5 подсчитаем N PL, N P W, N S l и
N s w • Оказалось, что N PL — 63; N p w |
— 62; а N s l < |
N P W, N s w < |
N p w - |
Следовательно, по переменной |
PL можно |
распознать |
макси |
мальное число элементов (цветков), |
поэтому считаем PL — старшим |
признаком, PW — следующим по старшинству, так как Nsw и N sl <
<N PW и строим следующее решающее правило:
/ ч I |
PL < 4 ,4 |
относим цветок к сорту |
«Разноцветный» |
|
п, |
г г. |
„ |
||
(*) |
PL > 5 ,2 |
|
«Вирджиния» |
|
|
|
4,5 ^ |
PL <; 5,1 переходим к следующему по старшинству |
|
|
|
|
признаку. |
|
204
Всего элементов, которые нельзя распознать по PL, т. е. тех, для которых значения PL попадают в RPL,—37 (37 = 50 + 50—63). Выбераем эти элементы из табл. 4.4 и составляем для них по PW таблицу, аналогичную таблице 4.5, отражающую распределение частостей для 37 элементов, не распознанных по PL.
Затем находится Rpw, строится решающее правило по PW аналогично (*), определяется старший из оставшихся признаков.
После построения реша ющего правила для «са мого младшего» призна ка процедура распозна вания заканчивается. Элементы, которые нель зя распознать с помо щью такой процедуры, считаются неопределен ными. Этот метод очень прост: никаких вычис лений, кроме подсчета случаев, в нем не содер жится. Процедура рас познавания не зависит от вида распределений совокупностей; не тре буется никакой априор ной информации об этих распределениях. При применении процедуры выясняется, какой из признаков более инфор мативный в том смысле, по какому из них можно определить большее чис ло случаев. Если с по мощью такой процедуры
удается распознать очень мало случаев, рекомендуется перейти к но вым координатам. Попробуем наглядно пояснить смысл этой-реко мендации .
Изрис. 4.9видно, что R x(i) и Rx(2) велики, и по п р и з н а к а м и х<2> не удается распознать ни одного элемента. После поворота осей (пере ход к координатам у П) и г/(2>) получаем области А, В, С, D, в которых можно распознать элементы, и область Е — «область неопределен ности».
В общем случае предлагается переходить к координатам, совпада ющим с главными компонентами одной из выборок. Но вопрос о том, действительно ли при этом уменьшится число неопределенных эле ментов, не исследован. Естественным критерием качества такой про цедуры можно считать долю «неопределенных» точек по аналогии с долей ошибочно оаспознанных точек.
205
Г л а в а V
РЕШЕНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЗАДАЧ
СИСПОЛЬЗОВАНИЕМ МЕТОДОВ КЛАССИФИКАЦИИ
ИСНИЖЕНИЯ РАЗМЕРНОСТИ
§1. ЭКСПЕРТНО-СТАТИСТИЧЕСКИЙ МЕТОД
ѵ п о с т рЪе н и я н е и зв е с т н о й ц е л е в о й ф у н к ц и и
И ЕГО ПРИМЕНЕНИЕ
1. Объект, его выходное качество и входные параметры. Понятие целевой функции
Пусть исследуемый объект (страна, предприятие, семья и т. д.) характеризуется неким «выходным качеством» у, которое апри ори обусловливается (не обязательно однозначно, детерминированно)
набором поддающихся учету ^^змеренцю .«входные параметров» x<'), ..., х<р>. Так, уровень общественного благосостояния страны у , по-видимому, в значительной мере характеризуется структурой и объе мом потребления различных благ и услуг хЧ>, х<р>х. Т о ч н о так же эффективность работы предприятия у определяется в основном со вокупностью таких входных параметров, как себестоимость продукции
хЧ), ее реализуемость х<12>,* текучесть кадров х<3), |
фондоотдача х<4> и |
т. п. В том же плане можно рассмотреть пример, |
в котором объектом |
исследования являются здания (жилые, производственные или админи стративные), а выходной характеристикой качества — величина, об
ратная степени их износа у. |
При этом в качестве входных параметров |
|||||
х<>); ,.м х(р) естественно |
принять различные стандартные технические |
|||||
характеристики, поддающиеся непосредственному измерению |
и опи |
|||||
сывающие |
отдельные |
стороны |
общего |
понятия — степени |
износа |
|
всего здания. И, наконец, |
можно рассмотреть задачу оптимизации |
|||||
структуры |
личного (семейного) потребления2. Здесь объектом исследо |
|||||
вания является семья, |
выходным |
качеством у — степень оптималь- |
||||
1 В зависимости от конкретизации постановки задачи различные факторы, |
||||||
не вошедщие |
в состав «аргументов» |
..., |
(социальные, политические, |
географические и др.), либо должны быть приблизительно одинаковыми по всем
обследуемым объектам, либо |
войдут в «остаточную» случайную компоненту, |
объясняющую стохастичный характер зависимости у от х ^ \ ..., х ^ . |
|
2 Точный смысл понятия |
оптимизации будет ясен из дальнейшего изложе |
ния. |
|
206
ности ее социально-экономического поведения, а входными парамет рами х(1), — характеристики структуры потребления различ ных благ и услуг. Перечень подобных задач представлен в табл.
|
|
Компоненты век |
Вид |
Конкретный |
Цель |
||
Объект |
тора наблюдений |
||||||
(входные пара |
экспертной |
смысл |
выходного |
исследования |
|||
|
|
метры) |
оценки |
качества объекта |
|
|
|
1. Эксплуа |
Текущие значе |
Определение |
Общий |
показа |
Определение об |
||
тируемый |
ния параметров |
общего процен |
тель износа эк |
щего |
показате |
||
объект |
(жи |
эксплуатируе |
та износа |
сплуатируемого |
ля износа толь |
||
лые и |
про |
мого объекта, |
|
объекта |
|
ко по |
текущим |
изводствен |
фиксируемые в |
|
|
|
значениям офи |
||
ные построй |
официальной |
|
|
|
циальных пара |
||
ки, единицы |
документации |
|
|
|
метров* |
||
технической |
|
|
|
|
|
|
оснащенно сти и т.п.)
2.Предпри ятие
3.Семья
Показатели эф |
Группировка |
Характеристика |
Ранжированиеи |
||
фективности ра |
предприятий по |
качества рабо |
сопоставление |
||
боты предприя |
качеству их ра |
ты предприятия |
предприятий по |
||
тия |
|
боты |
|
качеству их ра |
|
|
|
|
|
боты* |
|
Показатели со |
Группировка се |
Характеристика |
Ранжирование и |
||
циально-эконо |
мей с точки зре |
прогрессивности |
сопоставление |
||
мического пове |
ния прогрессив |
и общественной |
семей с |
точки |
|
дения |
семей |
ности и общест |
полезности со |
зрения прогрес |
|
(бюджет |
време |
венной полезно |
циально-эконо |
сивности |
и об |
ни, денег и т. |
сти их социаль |
мического пове |
щественной по |
||
Д-) |
|
но-экономичес |
дения семьи |
лезности их со |
|
|
|
кого поведения |
|
циально-эконо |
мического пове дения*
4. Спорт |
|
Показатели ско |
Оценка за игру, |
Характеристика |
Определение |
||
|
ростной и сило |
выставляемая |
эффективности и |
лучших игроков |
|||
смен, участ |
вой выносливо спортсмену тре мастерства |
соревнования, |
|||||
ник матча в |
сти, |
выполне |
нером или спе |
спортсмена, |
турнира, |
сезо |
|
одном из иг |
ния ряда техни |
циальной смот проявленных в |
на*, разработка |
||||
ровых видов |
ческих элемен |
ровой комисси |
данной игре |
индивидуаль |
|||
спорта, |
на |
тов и тактичес |
ей, жюри |
|
ных |
планов |
|
пример, |
в |
ких |
приемов в |
|
|
тренировки |
|
хоккее |
|
процессе игры |
|
|
спортсмена |
*Без привлечения экспертов.
1В табл. 5.1 приведены лишь те из конкретных задач, подпадающих под описываемую здесь весьма общую и актуальную, с нашей точки зрения, схему исследования, с которыми мы в той или иной мере сталкивались в нашей практи ке. В ней не упомянуты, например, задачи промышленно-технического и медико биологического профиля, для которых данная постановка особенно естественна
иплодотворна.
2 0 7