Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 95
Скачиваний: 0
величин ff1), /(2), /<р') будет выбираться такой набор, что каждая из величин ffl) в среднем наиболее «близка» ко всем признакам своей группы.
Очевидно, что при заданных классах Sx, S2, |
..., S p>оптимальный |
|||||
набор факторов /б), |
ff2), |
ffp') |
получается в результате независимой |
|||
максимизации каждого слагаемого |
|
|
|
|||
V |
[cor(x<‘>, /(О)]* (/==1,2,..., |
р'), |
||||
|
|
max |
Jt = |
V |
Xf, |
|
|
f O ) , |
f(2)........ |
f(/) |
i = |
! |
|
где Я,г — максимальное собственное значение матрицы 2 г, составлен ной из коэффициентов корреляции переменных, входящих в А х. При этом оптимальный набор факторов ff1), I = 1, 2, ..., р' задается фор мулами:
|
2 |
a j l) |
|
------ --— -- l |
, 1 = 1,2, ...,p', |
(4.36) |
|
г / |
s |
“ М ' Ч |
|
Г |
г,/es, |
|
|
где
Д/ =сог (х(0, л:0)), а а (0 = (а (/ ), 4 г), ..., а ^ )
— собственный вектор матрицы 2 г, отвечающий максимальному соб ственному значению Яг, т. е.
2,-а<0 = Ѵа<0. |
|
С другой стороны, считая известными факторы Д1), Д2>, ..., |
нетруд |
но построить разбиение Slt S 2, ..., SP', максимизирующее Jx при фик сированных ff-1'), ff2), .... ffp'), а именно:
S, = {/: cor2 (лД>, ffl)) ^cov2(xfi), ffq)) для всех q —1,2,..., p'. (4.37)
Заметим, что соотношения (4.36) и (4.37) являются необходимыми ус ловиями максимума Д.
Для одновременного нахождения оптимального разбиения 51? 5 2, |
|
..., Sp' и оптимального набора факторов ff1), ff2), ..., ffp'>предлагается |
|
итерационный алгоритм, чередующий выбор оптимальных (по отноше |
|
нию к разбиению, полученному на предыдущем шаге) |
факторов и вы |
бор разбиения оптимального к факторам, полученным |
на предыдущем |
шаге.
Пусть на ѵ-м шаге итерации построено разбиение параметров на группы Аг, ..., Ар'. Для каждой такой группы параметров строят фак
торы fil) по формуле (4.36) и новое (ѵ + |
1) разбиение параметров |
||
Д]Ѵ+1), ..., A fi+l) в соответствии с правилом: |
параметр лД> |
относит |
|
ся к группе Л/(ѵ+І), если |
|
|
|
сог2(х(0, /</>)> cor2(x(<?). fvq)) |
(1=1, |
2, ..., p'). |
(4.38) |
192
Если для некоторого параметра лЛ) найдутся два или более факто
ров таких, что для х(‘) и этих факторов в (4.38) имеет |
место |
равен |
ство, то параметр лЛ') относится к одной из соответствующих |
групп |
|
произвольно. |
не убывает, |
|
Очевидно, что на каждом шаге итераций функционал |
поэтому данный алгоритм будет сходиться к максимуму. Максимум может быть локальным.
Для описания второго алгоритма экстремальной группировки при
знаков введем функционал |
|
|
|
|
|
J2= 2 IС О Г |
/(1)) I + 2 Ісог (лЛ>, /<2>) I + |
... + |
У, I сог (х<‘>, f(p')) I. |
||
ге S; |
|
|
|
|
|
В содержательном смысле функционал |
/ 2 |
похож на функционал |
|||
Jlt и его максимизация также |
соответствует |
основному требованию |
|||
к характеру разбиения признаков на группы. |
В [5] показано, что |
||||
имеет место |
следующее утверждение. Необходимыми и достаточными |
||||
условиями максимума функционала J 2 являются: |
|||||
— разбиение параметров на группы А и ..., |
|
таково, что функ |
|||
ционал |
|
|
|
|
|
|
і=і |
і es. |
|
|
|
(где gi — некоторые числовые коэффициенты, равные либо +1 либо —1) достигает максимума как по разбиению на группы, так и по значениям коэффициентов gt. Здесь под Dz понимается, как обычно, дисперсия случайной величины z;
—• факторы /Л> определяются соотношениями |
|
|
/(О = |
(4.39) |
|
Логическая схема доказательства этого факта следующая. Сначала, |
||
варьируя функционал |
J 2 и используя метод множителей |
Лагранжа |
для учета условия D/Л) |
= 1, показывают что в точке максимума функ |
|
ционала J2 фактор / (/) имеет вид (4.39). Затем доказывается, что если |
имеет вид (4.39), то при любом наборе коэффициентов gi — ±1 и любом разбиении параметров на группы имеет место соотношение J 2 ^ ^ J з, а если же J3достигает максимума, то J 2 — J 3. Из этого утвер ждения следует, в частности, что для нахождения групп Si и факторов
достаточно |
максимизировать функционал J 3. При фиксированном |
||
разбиении |
на |
группы |
функционал J 3 достигает максимума тогда, |
когда для |
каждого I |
соответствующие коэффициенты gi максимизи |
|
руют величину: |
|
||
|
|
|
(4.40) |
7 З а к . 353 |
193 |
Поэтому естественно воспользоваться рекуррентной процедурой
максимизации |
J 3. В |
процедуре циклически перебираются |
перемен |
|
ные х ^ \ х<2>, |
х<р\ |
и на каждом шаге принимается решение об от |
||
несении очередного параметра |
к одной из групп Ль |
А р>и |
||
определяется знак gt. |
|
|
|
|
Пусть к ѵ-му шагу алгоритма построены разбиения параметров на |
||||
группы Ліѵ), |
АрѴ, вычислены |
коэффициенты g\v), g2V), |
.... gpV\- |
равные плюс или минус единице, и пусть на этом шаге рассматривает
ся признак х<‘> 6 Л;(ѵ)- |
Тогда |
строятся р' |
вспомогательных коэф |
|||
фициентов g/Г/1' (/ = |
1, |
|
р') |
по формуле |
|
|
grn/bl) = |
sign |
V |
|
|
||
|
|
|
М">с aW |
|
|
|
|
|
|
|
ел |
|
|
и для всех I = 1, 2, |
p' |
вычисляются разности |
||||
д!ѵ+1) = V d |
|
[ 2 |
г Г ^ |
' Ч ^ У |
х « 1] - |
|
|
|
|
ІФІ |
|
|
|
|
- V D [ 2 |
x” T |
|
|||
|
|
|
«/,6 4 ’ |
|
|
|
|
|
|
7/4 i |
|
|
|
Затем выбирается такой номер |
I — /*, |
что |
|
|||
|
( V + 1 ) |
шах А(гѵ+1), |
|
|||
|
Аl* |
|
|
|||
|
|
|
|
< I < p' |
|
|
и признак x ^ исключается |
из группы А г и присоединяется к группе |
Аі*\ остальные группы признаков на этом шаге не меняются. В резуль тате получаем новое разбиение признаков —
4 Ѵ+1), л<2ѵ+,), |
л ^ +1). |
Новые значения коэффициентов g^+Л |
определяются по формулам: |
g(v+i) = g(v) (дЛЯ ! ф і ) , |
g(v+D = g^t*)- |
На следующем (v -f 1)-м шаге алгоритма рассматривается пара метр х^+1\ если і Ф р, и Xt1), если і = р.
Процедура заканчивается, если при рассмотрении всех признаков очередного цикла сохранились как разбиения признаков на группы, так и значения всех коэффициентов; полученное разбиение и значения коэффициентов рассматриваются как оптимальные.I
I |
при |
х > 0 , |
О |
при |
х — 0, |
I— 1 |
при |
х < 0 . |
194
Для демонстрации сходимости метода к локальному максимуму в [5] доказывается, что на каждом шаге алгоритма значение J 3 не убывает.
Нетрудно проследить идейную близость метода экстремальной груп пировки признаков с методами, опирающимися на логическую схему факторного анализа. Так, например, отправляясь от общей модели
вида |
|
*(0 = |
+ ut |
|
9=1 |
(см. (4.9) и (4.20)), первую компоненту /О) и «нагрузки» llt в методе главных компонент можно определять, как мы видели (см. п. 2 § 1 глава IV) из условия минимума выражения
2 D (лД) —1и /('>) (= 1
при нормирующем ограничении
D/(') = l. '
Решение этой условно-экстремальной задачи очевидным образом сводится к нахождению максимума выражения
р
2 [сог(лѴ>, /О)]2 при условии D/<1>= 1. ;= 1
Для построения следующего фактора /<2>(второй главной компоненты рассматриваются случайные величины
Ѵ г2>= х ( і ) — сог(лД) J0>)./(i).
Для этих случайных величин аналогичным образом находится сле
дующий фактор /<2>и так далее.
Очевидно, что при реализации первого алгоритма метода экстре мальной группировки признаков для каждой группы признаков Лг строится фактор, имеющий смысл 1-й главной компоненты для этой
группы в смысле метода главных компонент. |
ищется |
|
В центроидном методе (см. § 2 глава IV) общий фактор |
||
в виде |
|
|
|
/<'>--= »= 1 |
(4-41) |
где gi = |
и gt выбирается так, чтобы максимизировать величину |
|
|
D/<‘>--=D ^Д § гѴг>|. |
(4.42) |
Сравнение выражений (4.41) и (4.42) с выражениями(4.39) и (4.40) по казывает, что максимизация функционала J 2 приводит кпостроению
7* |
195 |