Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 96

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ружности, и центр круга. В обоих случаях начальное приближение на плоскости выбиралось случайно, а А = 10'1в; исходные данные одномерны в 1-м и двумерны во 2-м случае, поэтому отображение на плоскость можно провести с нулевой ошибкой.

При отображении набора из 30 точек, равномерно распределен­ ных на 3-мерной спирали, была получена конфигурация из то­ чек на синусоидальной кривой и примерно равноотстоящих друг от друга.

Следующий пример показывает, что метод нелинейных отображе­ ний может давать лучшие результаты, чем метод главных компонент

[30].

Даны 5 сферических 4-мерных гауссовских распределений спе­ циального вида, из каждого делается выборка по 15 точек. Оказалось что при нелинейном отображении исходной конфигурации в R 2 на плос­ кости можно выделить 5 групп точек, причем эти группы соответству­ ют исходным группам.

При отображении методом главных компонент удается выделить только 4 группы точек. Две исходные группы точек после проекти­ рования на плоскость оказались полностью «перекрытыми».

Во всех рассмотренных примерах сходимость алгоритма была по­ лучена за 20 и менее шагов.

Возможности применения данного метода ограничены, с одной сто­ роны, видом или сложностью распределений, из которых были сдела­ ны выборки, и, с другой стороны, общим количеством точек. При по­ пытке применить алгоритм для анализа выборок из очень сложных распределений высокой размерности оказалось, что ошибка отобра­ жения слишком велика (Л > 0,1), и двумерная конфигурация резко искажает исходную. В то же время есть основания предполагать, что описанный метод может быть успешно использован для анализа таких данных, которые содержат выборки из гиперсферических и гипер­ эллиптических распределений.

Отметим, что данный метод требует большого объема оперативной памяти машины, поэтому общее число точек ограничено (у автора [31] максимальное значение п = 250). При п > 250 целесообразно объе­ динять наблюдения в группы и заменять группу некоторым ее пред­ ставителем (например, центром группы), сокращая таким образом число векторов («Замечание о методах предварительной обработки классифицируемых наблюдений» см. в конце главы III). Данная про­ цедура сравнительно проста, она не зависит от вида распределений элементов выборки, не требуется никакой априорной информации об

этих распределениях. Можно

предложить

следующие два видоизме­

нения данного алгоритма.

 

 

 

Во-первых, рассмотрим

 

 

 

AW

У

[dlj-ldij]

-

 

і < !

 

 

 

При растяжении каждого вектора У; в 1 раз (У* = RY;) расстояние

187


между преобразованными точками так же, как легко видеть, растя- dij Ря (Yi, Yj) ==Xdij, так что

 

к

 

2

 

п

,

Z2

п

du

 

А ß)

2 <4І

 

,

 

 

с

я 2 4 - і - — 2

dij

 

І < }

 

 

 

і < І

 

 

і </

 

 

/

п

 

\

1

 

п

,2

\

 

2 ( 4 -

2

duf

 

Ф

dij

\

(4.33)

/

Z +

2

d*i

\X2.

 

 

і < І

 

я

 

г < /

/

 

Из (4.33) следует, что

min

А (X) достигается при

 

Х =

2

( d i} )

 

2

( 4 / 4 )

 

(4.34)

 

І < /

 

 

 

і < І

 

 

 

 

 

В то же время очевидно, что наилучшее в смысле минимума функции ошибки А значение X равно 1 (иначе конфигурацию можно «растянуть», уменьшив значение А), следовательно.

 

,2

(4.35)

2 du

d-ij

І2 < j

 

Представляется целесообразным на каждом шаге итерационной проце­ дуры «растягивать» все векторы в X раз по формуле (4.34), уменьшая тем самым значения функции ошибки. Из сказанного следует, что ус­ ловие (4.35) является необходимым условием минимума функции ошиб­ ки в смысле преобразования «растяжения» всех векторов конфигура­ ции.

Во-вторых, оставаясь в рамках тех же качественных критериев близости конфигураций исходной и преобразованной совокупностей точек, можно предложить использовать вместо функции ошибки А более гладкую (бесконечно дифференцируемую) функцию новых координат, например:

 

</,” ...... » Г ) =

 

 

« / ) ■ -

S W '” - » ! '”)1

 

2

К ,] I < !

( 4 ) 2

 

І </

 

 

 

 

Рассмотрим подробнее случай р' =

2.

Обозначим

 

Z = ( 2<», г<2>,

..., г'2" - » , г ™ ) = { у ?\

у ? \

г/<2))-

188


вектор в

2 « -м ер н ом п р остр ан ств е;

IZ ||=

f

2п

1 /

2 [г(ѵ)]2 —норма вектора Z,

*ѵ = 1

(Z\, Z2) — 2 z(iv) z2v)—скалярное произведение векторов Zx и Z2.

 

 

 

 

 

V = 1

 

 

 

 

 

 

 

 

 

 (Z) = А (г(1>, z(2),

z(2n)) =

 

 

 

 

1

у

[(d?/)a -

-

г (2/ - ' ) ) 2 - (z ^ ) - г (2/))»]а

 

 

V ( ä - , y

, < I

 

 

( * „ )

 

i

<

1

 

 

 

 

 

 

 

 

1

2

 

 

2<г/-П)8- (г<»>- 2(2/))2]2

 

S

1

(</)2

/“

“ >

 

« f f

 

i

<

 

 

 

 

 

 

Выпишем в явном виде первые производные функции Д:

 

 

 

 

 

 

дЛ

____ 4_

 

 

 

 

 

 

az(2i-D

с Х

X

^

 

 

(г(2і--1 )_

2(2/-1)) [(d*;)2_ (z(2 i- l)_ г(2/-1))2_(г(2«_ г(2/))2]2

2

 

 

 

 

 

«

f f

 

/= 1

 

 

 

 

і Ф І

 

 

 

 

 

 

 

 

 

 

 

 

д Л

 

X

 

 

 

 

 

 

0г<2г>

 

 

 

 

 

 

 

 

 

 

 

 

«

( г ( 2 і ) _ г ( 2 / ) ) [ ( ^ . ) 2 _ ( г ( 2 , - - 1 ) _ г ( 2 / - 1) ) 2 _ ( г ( 2 Ц _ г ( 2 / ) ) 2] 2

 

X

у

 

 

 

(402

 

 

/

=

1

 

 

 

 

 

 

 

 

 

 

і

Ф

І

 

 

 

 

где

с =

2 ( 4 ) 2-

 

 

 

 

 

 

 

г < 1

 

 

 

 

Пусть г(1) = г (2>= г<3) = 0, z(4)> 0 .

Тогда легко показать, что выполняются следующие условия:

Л (Z) > О,

189


Q = {Z : А (Z) <1 c) — ограниченное множество, где с — произволь­ ная константа,

/

д А (Z)

d S ( Z )

d % ( Z ) \

^ , ( Z)

\

0г<‘> ’

d z ^

öz<2"> 1 '

 

■— градиент функции A (Z) удовлетворяет условию Липшица на мно­

жестве Q, так как А' (Z) — непрерывно дифференцируемая векторфункция.

Следовательно, для нахождения минимума функции А (Z) приме­ ним метод сопряженных градиентов [11], а именно, следующую итера­ ционную процедуру

Z (т + 1) --- Z (т) 4 ат U (т),

U(m)=: — A'[Z(m)] + ßmH(m— 1) т-= 0, 1, ...,

где Z(m) и U(m) — векторы, полученные на т-м шаге, а коэффициенты а т и ßm находятся из условий:

ат: А [Z (т)— ат U (т)] =- min А [Z (т)ail (т)],

а

о(А ' [Z {т)\ , Â'[Z (ш)] —'К' [Z ( т — 1)])

Р т "

и

(.0

 

II А

[Z ( т — 1)]і!2

Можно доказать, что для любого начального приближения такой алгоритм сходится в смысле

lim I А' [Z (т)] I —О,

где под lim <р (т) понимается так называемый нижний предел функ-

т~* оо

ции ср (т), т. е. sup inf ф (п). Заметим, что экспериментальные ис-

тп > т .

следования метода сопряженных градиентов показывают, что на прак­ тике наблюдается не только сходимость на подпоследовательностях (т. е. по нижнему пределу), но и обычная сходимость, т. е.

lim [I A' [Z (т)] I = 0.

m ->• о с

б) Метод экстремальной группировки признаков. При изучении сложных объектов, заданных многими параметрами, возникает задача разбиения параметров на группы, каждая из которых характеризует объект с какой-либо одной стороны. Но получение легко интерпрети­ руемых результатов осложняется тем, что во многих приложениях из­ меряемые параметры (признаки) лишь косвенно отражают существен­ ные свойства, которыми характеризуется данный объект.

Так, в психологии измеряемые параметры •— это реакции людей на'различные тесты, а выражением существенных свойств, общими факторами, являются такие характеристики, как тип нервной сис­ темы, работоспособность и т. д.

190


Оказывается, что во многих случаях изменение какого-либо общего фактора сказывается неодинаково на измеряемых признаках, в част­ ности, исходная совокупность из р признаков обнаруживает такое ес­ тественное «расщепление» на сравнительно (с р) небольшое количество групп, при котором изменение признаков, относящихся к какой-либо одной группе, обусловливается в основном каким-то одним общим фак­ тором, своим для каждой такой группы. После принятия этой гипо­ тезы разбиение на группы естественно строить так, чтобы параметры,, принадлежащие к одной группе, были коррелированы сравнительно сильно, а параметры, принадлежащие к разным группам ■— слабо. После такого разбиения для каждой группы признаков строится слу­ чайная величина, которая в некотором смысле наиболее сильно коррелирована с параметрами данной группы; эта случайная величина интерпретируется как искомый фактор, от которого существенно зави­ сят все параметры данной группы.

Очевидно, подобная схема является одним из частных случаев об­ щей логической схемы факторного анализа. В отличие от ранее описан­ ных классических моделей факторного анализа при так называемом экстремальном подходе [5], группировка признаков и выделение общих факторов делаются на основе экстремизации некоторых эври­ стически введенных функционалов. Разбиение, оптимизирующее дан­ ный функционал, называется экстремальной группировкой парамет­ ров. Таким образом, под задачей экстремальной группировки набора случайных величин хР), х(2>, ..., х<г) на заранее заданное число клас­

сов р' понимают отыскание такого набора подмножеств Sx,

S 2,

Sp'

натурального ряда

чисел 1, 2, ...,

р, что

Р'

= {1,

2, ..., р),

U S;

а Si

 

 

і=1

 

 

П S g — 0 при І'Ф q, и таких р' нормированных (т. е. с единич­

ной дисперсией £>/<*'> =

1) факторов /Р>,

/<2), ...,

/(''б,

которые макси­

мизируют какой-либо критерий оптимальности.

Следуя [5], остановимся здесь на алгоритмах для двух различных критериев оптимальности.

Первый алгоритм экстремальной группировки признаков в каче­ стве критерия оптимальности использует функционал

Ji — 2

[сог(*<»,/<•>)]*+ ... -f- 2

[сог(х<г>, /<р'>)]2,

і еs,

 

г еSp'

 

в котором под сог (х, /)

понимается обычный

парный коэффициент

корреляции между признаком х и фактором /

[1]. Обозначим Л г =

= {х<*>, і 6 S J ,

/ = 1, 2,

..., p'. Максимизация функционала J1 (как

по разбиению признаков на группы Ах, ...,

Ар>, так и по выбору фак­

торов /С)( jF(2)j ...,/(р')) отвечает требованию такого разбиения парамет­ ров, когда в одной группе оказываются наиболее «близкие» между собой, в смысле степени коррелированное™, признаки: в самом деле, при максимизации функционала Jxдля каждого фиксированного набо­ ра случайных величин /С), /<2), ..., /(p'), в одну 1-ю группу будут по­ падать такие признаки, которые наиболее сильно коррелированы с ве­ личиной в то же время среди всех возможных наборов случайных

191