Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 84

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

арифметическое среднее ѵ* (ѵ) наблюдений, выбранных некоторым об­ разом из V первых членов последовательности {Xj}, причем, вообще говоря, M X и = а,ц, где аіг — какие-то векторы средних, возможно и повторяющихся, из числа а, (/ = 1, 2, ...,), ранее рассмотренных.

И, наконец, обозначим

R t ( v +

1)

ѵг (ѵ)

т s—р-\- 1

P2(Z<Vi Xy-f- i),

Ѵі (ѵ)+ 1

(m — s) р

 

 

 

где V i (v)— число точек из

последовательности Х ъ Х2, ..., Х п,

участвующих в вычислении переменного центра тяжести і-го клас­

са XІу

 

С ,,(ѵ +1 ) = -V«lv+1)Vj(v+ i ) -

m —s p -\-1 P8 (Хг(ѵ +1)Х Д ѵ +1)).

Vj (-V+ 1) + V^ ( v + 1)

(m —s) p

На первом шаге процедуры из случайной последовательности берет­ ся Х 1 и принимается в качестве центра первого класса, т. е. при ѵ =

= 1,М1) = 1 и ZU) = (Zn) =

(X,).

2) извлекаем Х2 и подсчитываем

На втором шаге процедуры (ѵ =

Яі (2) = ■4 - ^7 ^

+ - ' р®.(Zu , Х2).

2

—s) р

Если Rx (2) > Fa (р , т—s—р +

1), где Fa (q, г)—100а%-ная точ­

ка центрального ^-распределения с числами степеней свободы числи­ теля и знаменателя соответственно q и г, то Х2 принимается в качестве

центра второго класса, т. е. k (2) =

2 и

 

Z‘« ^ ( Z la,Z 2a) = (X1, X 2).

Если же

Rx (2) ^ Fa (р , m—s—p + 1), то Х2 присоединяется к

первому классу, центр которого пересчитывается

 

7

~V

-^l-h-^2

и, следовательно, k (2) =

1, Z<2) =

(Z12) =(Х 1).

На (ѵ +

1)-м шаге процедуры

вначале подсчитывается величина

 

^min(v + l ) =

min

Rt (v+ l)=-.Rio(v+ 1).

Если

 

1 < г ' < * (V)

 

# m ln (v + l)> M p , m—s —p + 1 ),

TO

 

 

 

k (v -j- 1) — k (v) “Г 1, Z<v+ U — (Zi.v+ Ь Z2.V+I...... Zft (V -f 1). v+ 1)

 

= (Zlv»

Z2v> •••> Z*.(v)v, Xv4 1)

и переходит к следующему шагу, т. е. к рассмотрению точки Хѵ+2.

Если же R min (V +

1) <

Fa (р, m—s~ p + 1), то точка Хѵ+і от­

носится к і0-му классу,

центр

которого пересчитывается по формуле

* , .( ѵ + 1)

<У) Х І, + Х Ѵ + \

V. (ѵ)+ 1

53


Э т а п А. Положив в остальных классах

 

 

 

 

А”; (Ѵ + 1) = Z/v,

 

 

 

подсчитываем величины Сг-0/(ѵ +1), / =

1,2,

k (v), ] 'ф і0.

Если

окажется, что

 

 

 

 

c <„/.(v + 1) =

min Cui>Fa(P, m — s — p+1),

(1.13)

то полагают

l < / < * (V )

 

 

 

 

 

 

 

*( v + l) . = Ä!(v),

Z,iV+I= x ; ( v + l )

( i = l , 2 , ...,'k(v))

 

и переходят к следующему шагу, т. е. к рассмотрению точки Хѵ-)_2 Если же

 

 

Сі,и(У+ 1)<Fa(p, т —s—р + 1),

 

то центр тяжести

класса

с номером і = min

(t0, /0)

пересчитывается

по формуле

 

 

 

 

 

 

 

I 1 \

V, ( ѵ + 1)Х ; ( ѵ + 1 ) + ѵ , ( ѵ + 1 ) Х ( ѵ + 1)

 

у * / ѵ

_ ‘о 4

1 '

<»'

' 1 /о v

1 '

Іо 4 1 '

 

КК

^

 

 

ѵ/о(ѵ+1) + ѵ/в(ѵ+1)

 

а для і Ф і0 и і Ф /о X* (ѵ +

1) =

Х і (ѵ +

1) причем классам с по­

рядковыми номерами шах (г0, /о) +

1, ..., k (ѵ) присваиваются номера

на единицу меньшие (за счет «исчезновения» класса с порядковым номе­ ром, равным max (г0, /0)). Далее повторяется процедура А с заменой

і0 на і и Х і на X * до тех пор, пока не окажется выполненным соотно­ шение (1.13), либо не останется всего лишь один класс.

Последним (п + 1)-м шагом процедуры является реализация мини­ мального дистанционного разбиения S kt‘n)(Z^n'> относительно k (п) — точки Z(n>, полученной на предыдущем шаге.

З а м е ч а н и е 1. При сравнительно небольших объемах иссле­ дуемых выборок п можно использовать один из двух, или оба сразу вспомогательных приема:

циклическое продолжение выборки, т. е. реализация описанной процедуры на искусственно удлиненных последовательностях вида

X], Х2, ..., Х п, Хі, Х2, ..., Х п, Хх, Х 2, ..., Х п;

многократное повторение процедуры на различных вариантах последовательностей Х і{, Хг-2, ..., Х іп из случайно перетасованных

Хі с целью выбора наиболее воспроизводимых результатов разбиения. З а м е ч а н и е 2. В целях ускорения сходимости описанной про­ цедуры целесообразно воспользоваться частичными обучающими выборками для образования «нулевого приближения» Z<°> центров тя­

жести классов по правилу

Z(°) = (Z10, Z20, ...,ZSi0),

где

Zio = X, = - L У Х н (/ 1, 2...... s) m

54


средние арифметические, построенные по наблюдениям 1-й частичной обучающей выборки. Соответственно k (0) = s. После этого проводят­

ся все

необходимые

циклы этапа А и подсчет Сгі (0) і, j

= 1,2,

.... s

до тех

пор, пока не

окажется выполненным соотношение

(1.13),

либо

не останется всего лишь один класс. Затем извлекается наблюдение

Х 1 и выполняются все

необходимые вычисления (ѵ + 1)-го шага про­

цедуры при V = 0 и т.

д.

2. О некоторых свойствах, используемых в процедуре статистик

Следующие результаты поясняют смысл описанной процедуры клас­ сификации и использованных в ней статистик и процентных точек.

Л е м м а 1. Оценкой максимального правдоподобия (с устранен­ ным смещением) для S по совокупности квазиобучающих выборок яв­ ляется матрица вида

 

 

s

т I

 

 

 

 

 

 

2

 

 

и , , - * , ) -

 

 

I = 1/ = 1

 

 

 

 

 

у _

1

V 1

у

 

 

 

Л1—

----

/Г ,

ЛЛ>

 

 

 

 

 

пц

 

 

где т = 2

Щ-

 

 

 

 

 

 

і= і

2, Статистика

—s )2

может быть представлена в виде

Л ем м а

 

 

 

 

т — s

 

 

 

(/71 -5)2=

2

YkY'k,

 

 

 

 

 

k =

\

 

 

где Yh независимы и Yk £ N (0,

2 )

Для

&= 1. 2, ...,

т s.

Л е м м а

3. Пусть Y (Хг — Xj), где

 

причем

Уі

I = і

 

 

 

k= 1

 

Xri 6 N (аГ[,

2),

X„h 6 N (a.qh, 2)-

 

 

 

Тогда —

— И' 2 - 1F подчинено

нецентральному

/•’-распределе-

Ѵі + Vj

 

 

 

 

нецентральности

нию Fx (p, т —s —p~h 1), где параметр

 

Vi+Vj

/= 1

 

 

Ч

X

 

 

 

 

 

 

'k=l

 

 

 

V ;

 

 

 

 

 

 

X

I = I

 

 

*4

 

 

 

 

J k=i

 

55


А„, в (а, ß, К),

В частности, когда все аГ[ и аЧк равны между собой, то распределение центральное, т. е. X = 0.

Для доказательства сформулированных лемм достаточно восполь­ зоваться приемами и результатами работы [1], и в частности: в лемме 1 составить функцию правдоподобия и воспользоваться леммами 3.2.1— 3.2.3 [ 1, с. 66—691; в лемме 2 при анализе блочно-диагональной матрицы ортогонального преобразования, переводящего X jt в Уг, воспользо­ ваться теоремой 3.3.1 и леммой 3.3.1 [1, с. 74—75]; в леммеЗ восполь­ зоваться нашей леммой 2 и теоремой 5.2.2 из [1, с. 148].

В конечном счете исследователя, естественно, интересуют характе­ ристики качества описанной процедуры и в частности:

насколько точно число классов k («), полученное в результате нашего алгоритма, характеризует истинное число классов kn, представ­ ленных в последовательности {Xj}?

какова доля неправильно расклассифицированных объектов, а точнее — вероятность неправильной классификации в данном алго­ ритме?

Ответы на поставленные вопросы можно было бы получить с по­ мощь ю анализа вероятностей

k (и)

1 < е

I

 

где е — некоторое фиксированное положительное число и

Р (i I І) —

і ^ 1, 2, ..., hn.

а и — вероятность того, что наблюдение, принадлежащее к і-му клас­ су, будет отнесено, в результате применения нашей процедуры, имен­ но к этому, г-му классу. Сформулированные выше свойства использу­ емых в данной процедуре статистик должны помочь нам в этом анали­ зе. В частности, интересно было бы получить описание функции Ал,е (а, ß, К) в оценке вида

Р k (п) j

где а — введенный ранее уровень используемой в процедуре процент­ ной точки ^’-распределения, К — максимальное число классов, из которых извлекаются наблюдения {Х;}, п — общее число наблю­ дений, подлежащих классификации,

ß = P{Fupo) (р, m — s— p + l ) < F a(p, т s р-\- 1)},

р0= min р (öj,

aj),

I«Гг, / </С

f -распределенной случай­

а К (ро) — параметр нецентральности

ной величины, — некоторая известная монотонно возрастающая функ­

ция аргумента р0.

При этом, очевидно, ß = ß (р0)-монотонно убывающая (до нуля)

функция ро,

а А„, 8 (а,

ß, К) — монотонно возрастающая

функция

по а,

ß и К,

и монотонно убывающая функция по е и п. Если

Ап, е (а,

ß, К)

0 при л -+ оо и при любых фиксированных е, а, ß

и К, то

естественно

называть

соответствующую процедуру классификации

/^-состоятельной.