Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 96
Скачиваний: 0
ружности, и центр круга. В обоих случаях начальное приближение на плоскости выбиралось случайно, а А = 10'1в; исходные данные одномерны в 1-м и двумерны во 2-м случае, поэтому отображение на плоскость можно провести с нулевой ошибкой.
При отображении набора из 30 точек, равномерно распределен ных на 3-мерной спирали, была получена конфигурация из то чек на синусоидальной кривой и примерно равноотстоящих друг от друга.
Следующий пример показывает, что метод нелинейных отображе ний может давать лучшие результаты, чем метод главных компонент
[30].
Даны 5 сферических 4-мерных гауссовских распределений спе циального вида, из каждого делается выборка по 15 точек. Оказалось что при нелинейном отображении исходной конфигурации в R 2 на плос кости можно выделить 5 групп точек, причем эти группы соответству ют исходным группам.
При отображении методом главных компонент удается выделить только 4 группы точек. Две исходные группы точек после проекти рования на плоскость оказались полностью «перекрытыми».
Во всех рассмотренных примерах сходимость алгоритма была по лучена за 20 и менее шагов.
Возможности применения данного метода ограничены, с одной сто роны, видом или сложностью распределений, из которых были сдела ны выборки, и, с другой стороны, общим количеством точек. При по пытке применить алгоритм для анализа выборок из очень сложных распределений высокой размерности оказалось, что ошибка отобра жения слишком велика (Л > 0,1), и двумерная конфигурация резко искажает исходную. В то же время есть основания предполагать, что описанный метод может быть успешно использован для анализа таких данных, которые содержат выборки из гиперсферических и гипер эллиптических распределений.
Отметим, что данный метод требует большого объема оперативной памяти машины, поэтому общее число точек ограничено (у автора [31] максимальное значение п = 250). При п > 250 целесообразно объе динять наблюдения в группы и заменять группу некоторым ее пред ставителем (например, центром группы), сокращая таким образом число векторов («Замечание о методах предварительной обработки классифицируемых наблюдений» см. в конце главы III). Данная про цедура сравнительно проста, она не зависит от вида распределений элементов выборки, не требуется никакой априорной информации об
этих распределениях. Можно |
предложить |
следующие два видоизме |
||
нения данного алгоритма. |
|
|
|
|
Во-первых, рассмотрим |
|
|
|
|
AW |
У |
[dlj-ldij] |
||
1Ч |
- |
|||
|
і < ! |
|||
|
|
|
При растяжении каждого вектора У; в 1 раз (У* = RY;) расстояние
187
между преобразованными точками так же, как легко видеть, растя- dij Ря (Yi, Yj) ==Xdij, так что
|
к |
|
2 |
|
п |
, |
Z2 |
п |
du |
|
А ß) |
2 <4І |
|
, |
|
|
|||||
с |
я 2 4 - і - — 2 |
dij |
|
|||||||
І < } |
|
|
|
і < І |
|
|
і </ |
|
||
|
/ |
п |
|
\ |
1 |
|
п |
,2 |
\ |
|
2 ( 4 - |
2 |
duf |
|
Ф |
dij |
\ |
(4.33) |
|||
/ |
Z + |
2 |
d*i |
\X2. |
||||||
|
|
і < І |
|
я |
|
г < / |
/ |
|
||
Из (4.33) следует, что |
min |
А (X) достигается при |
|
|||||||
Х = |
2 |
( d i} ) |
|
2 |
( 4 / 4 ) |
|
(4.34) |
|||
|
І < / |
|
|
|
і < І |
|
|
|
|
|
В то же время очевидно, что наилучшее в смысле минимума функции ошибки А значение X равно 1 (иначе конфигурацию можно «растянуть», уменьшив значение А), следовательно.
|
,2 |
(4.35) |
2 du |
d-ij |
|
І2 < j |
|
Представляется целесообразным на каждом шаге итерационной проце дуры «растягивать» все векторы в X раз по формуле (4.34), уменьшая тем самым значения функции ошибки. Из сказанного следует, что ус ловие (4.35) является необходимым условием минимума функции ошиб ки в смысле преобразования «растяжения» всех векторов конфигура ции.
Во-вторых, оставаясь в рамках тех же качественных критериев близости конфигураций исходной и преобразованной совокупностей точек, можно предложить использовать вместо функции ошибки А более гладкую (бесконечно дифференцируемую) функцию новых координат, например:
|
</,” ...... » Г ) = |
|
||
|
« / ) ■ - |
S W '” - » ! '”)1 |
|
|
2 |
К ,] I < ! |
( 4 ) 2 |
|
|
І </ |
|
|
|
|
Рассмотрим подробнее случай р' = |
2. |
Обозначим |
|
|
Z = ( 2<», г<2>, |
..., г'2" - » , г ™ ) = { у ?\ |
у ? \ |
г/<2))- |
188
вектор в |
2 « -м ер н ом п р остр ан ств е; |
|
IZ ||= |
f |
2п |
1 / |
2 [г(ѵ)]2 —норма вектора Z, |
*ѵ = 1
(Z\, Z2) — 2 z(iv) z2v)—скалярное произведение векторов Zx и Z2.
|
|
|
|
|
V = 1 |
|
|
|
|
|
|
|
|
|
 (Z) = А (г(1>, z(2), |
z(2n)) = |
|
|
|
|
|
1 |
у |
[(d?/)a - |
- |
г (2/ - ' ) ) 2 - (z ^ ) - г (2/))»]а |
|
|
V ( ä - , y |
, < I |
|
|
( * „ ) |
||
|
i |
< |
1 |
|
|
|
|
|
|
|
|
|
1 |
2 |
|
|
2<г/-П)8- (г<»>- 2(2/))2]2 |
|
S |
1 |
(</)2 |
/“ |
“ > |
|
« f f |
|
|
i |
< |
|
|
|
|
|
|
|
Выпишем в явном виде первые производные функции Д: |
|||||||
|
|
|
|
|
|
дЛ |
____ 4_ |
|
|
|
|
|
|
|
az(2i-D |
“ |
с Х |
X |
^ |
|
|
(г(2і--1 )_ |
2(2/-1)) [(d*;)2_ (z(2 i- l)_ г(2/-1))2_(г(2«_ г(2/))2]2 |
|||
2 |
|
|
|
|
|
« |
f f |
|
|
/= 1 |
|
|
|
||||
|
і Ф І |
|
|
|
|
|
|
|
|
|
|
|
|
|
д Л |
|
X |
|
|
|
|
|
|
0г<2г> |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
« |
( г ( 2 і ) _ г ( 2 / ) ) [ ( ^ . ) 2 _ ( г ( 2 , - - 1 ) _ г ( 2 / - 1) ) 2 _ ( г ( 2 Ц _ г ( 2 / ) ) 2] 2 |
||||
|
X |
у |
|
|
|
(402 |
||
|
|
/ |
= |
1 |
|
|
||
|
|
|
|
|
|
|||
|
|
і |
Ф |
І |
|
|
|
|
где |
с = |
2 ( 4 ) 2- |
|
|
|
|||
|
|
|
|
г < 1 |
|
|
|
|
Пусть г(1) = г (2>= г<3) = 0, z(4)> 0 .
Тогда легко показать, что выполняются следующие условия:
Л (Z) > О,
189
Q = {Z : А (Z) <1 c) — ограниченное множество, где с — произволь ная константа,
/ |
д А (Z) |
d S ( Z ) |
d % ( Z ) \ |
^ , ( Z) |
\ |
0г<‘> ’ |
d z ^ ’ |
öz<2"> 1 ' |
|
■— градиент функции A (Z) удовлетворяет условию Липшица на мно
жестве Q, так как А' (Z) — непрерывно дифференцируемая векторфункция.
Следовательно, для нахождения минимума функции А (Z) приме ним метод сопряженных градиентов [11], а именно, следующую итера ционную процедуру
Z (т + 1) --- Z (т) 4 ат U (т),
U(m)=: — A'[Z(m)] + ßmH(m— 1) т-= 0, 1, ...,
где Z(m) и U(m) — векторы, полученные на т-м шаге, а коэффициенты а т и ßm находятся из условий:
ат: А [Z (т)— ат U (т)] =- min А [Z (т)—ail (т)],
а
о(А ' [Z {т)\ , Â'[Z (ш)] —'К' [Z ( т — 1)])
Р т " |
и |
(.0 |
|
II А |
[Z ( т — 1)]і!2 |
Можно доказать, что для любого начального приближения такой алгоритм сходится в смысле
lim I А' [Z (т)] I —О,
где под lim <р (т) понимается так называемый нижний предел функ-
т~* оо
ции ср (т), т. е. sup inf ф (п). Заметим, что экспериментальные ис-
тп > т .
следования метода сопряженных градиентов показывают, что на прак тике наблюдается не только сходимость на подпоследовательностях (т. е. по нижнему пределу), но и обычная сходимость, т. е.
lim [I A' [Z (т)] I = 0.
m ->• о с
б) Метод экстремальной группировки признаков. При изучении сложных объектов, заданных многими параметрами, возникает задача разбиения параметров на группы, каждая из которых характеризует объект с какой-либо одной стороны. Но получение легко интерпрети руемых результатов осложняется тем, что во многих приложениях из меряемые параметры (признаки) лишь косвенно отражают существен ные свойства, которыми характеризуется данный объект.
Так, в психологии измеряемые параметры •— это реакции людей на'различные тесты, а выражением существенных свойств, общими факторами, являются такие характеристики, как тип нервной сис темы, работоспособность и т. д.
190
Оказывается, что во многих случаях изменение какого-либо общего фактора сказывается неодинаково на измеряемых признаках, в част ности, исходная совокупность из р признаков обнаруживает такое ес тественное «расщепление» на сравнительно (с р) небольшое количество групп, при котором изменение признаков, относящихся к какой-либо одной группе, обусловливается в основном каким-то одним общим фак тором, своим для каждой такой группы. После принятия этой гипо тезы разбиение на группы естественно строить так, чтобы параметры,, принадлежащие к одной группе, были коррелированы сравнительно сильно, а параметры, принадлежащие к разным группам ■— слабо. После такого разбиения для каждой группы признаков строится слу чайная величина, которая в некотором смысле наиболее сильно коррелирована с параметрами данной группы; эта случайная величина интерпретируется как искомый фактор, от которого существенно зави сят все параметры данной группы.
Очевидно, подобная схема является одним из частных случаев об щей логической схемы факторного анализа. В отличие от ранее описан ных классических моделей факторного анализа при так называемом экстремальном подходе [5], группировка признаков и выделение общих факторов делаются на основе экстремизации некоторых эври стически введенных функционалов. Разбиение, оптимизирующее дан ный функционал, называется экстремальной группировкой парамет ров. Таким образом, под задачей экстремальной группировки набора случайных величин хР), х(2>, ..., х<г) на заранее заданное число клас
сов р' понимают отыскание такого набора подмножеств Sx, |
S 2, |
|||||
Sp' |
натурального ряда |
чисел 1, 2, ..., |
р, что |
Р' |
= {1, |
2, ..., р), |
U S; |
||||||
а Si |
|
|
і=1 |
|
|
|
П S g — 0 при І'Ф q, и таких р' нормированных (т. е. с единич |
||||||
ной дисперсией £>/<*'> = |
1) факторов /Р>, |
/<2), ..., |
/(''б, |
которые макси |
мизируют какой-либо критерий оптимальности.
Следуя [5], остановимся здесь на алгоритмах для двух различных критериев оптимальности.
Первый алгоритм экстремальной группировки признаков в каче стве критерия оптимальности использует функционал
Ji — 2 |
[сог(*<»,/<•>)]*+ ... -f- 2 |
[сог(х<г>, /<р'>)]2, |
||
і еs, |
|
г еSp' |
|
|
в котором под сог (х, /) |
понимается обычный |
парный коэффициент |
||
корреляции между признаком х и фактором / |
[1]. Обозначим Л г = |
|||
= {х<*>, і 6 S J , |
/ = 1, 2, |
..., p'. Максимизация функционала J1 (как |
||
по разбиению признаков на группы Ах, ..., |
Ар>, так и по выбору фак |
торов /С)( jF(2)j ...,/(р')) отвечает требованию такого разбиения парамет ров, когда в одной группе оказываются наиболее «близкие» между собой, в смысле степени коррелированное™, признаки: в самом деле, при максимизации функционала Jxдля каждого фиксированного набо ра случайных величин /С), /<2), ..., /(p'), в одну 1-ю группу будут по падать такие признаки, которые наиболее сильно коррелированы с ве личиной в то же время среди всех возможных наборов случайных
191