Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 21.10.2024
Просмотров: 84
Скачиваний: 0
арифметическое среднее ѵ* (ѵ) наблюдений, выбранных некоторым об разом из V первых членов последовательности {Xj}, причем, вообще говоря, M X и = а,ц, где аіг — какие-то векторы средних, возможно и повторяющихся, из числа а, (/ = 1, 2, ...,), ранее рассмотренных.
И, наконец, обозначим
R t ( v + |
1) |
ѵг (ѵ) |
т — s—р-\- 1 |
P2(Z<Vi Xy-f- i), |
|
Ѵі (ѵ)+ 1 |
(m — s) р |
||||
|
|
|
|||
где V i (v)— число точек из |
последовательности Х ъ Х2, ..., Х п, |
участвующих в вычислении переменного центра тяжести і-го клас
са XІу |
|
С ,,(ѵ +1 ) = -V«lv+1)Vj(v+ i ) - |
m —s —p -\-1 P8 (Хг(ѵ +1)Х Д ѵ +1)). |
Vj (-V+ 1) + V^ ( v + 1) |
(m —s) p |
На первом шаге процедуры из случайной последовательности берет ся Х 1 и принимается в качестве центра первого класса, т. е. при ѵ =
= 1,М1) = 1 и ZU) = (Zn) = |
(X,). |
2) извлекаем Х2 и подсчитываем |
На втором шаге процедуры (ѵ = |
||
Яі (2) = ■4 - ^7 ^ |
+ - ' р®.(Zu , Х2). |
|
2 |
(т —s) р |
|
Если Rx (2) > Fa (р , т—s—р + |
1), где Fa (q, г)—100а%-ная точ |
ка центрального ^-распределения с числами степеней свободы числи теля и знаменателя соответственно q и г, то Х2 принимается в качестве
центра второго класса, т. е. k (2) = |
2 и |
|||
|
Z‘« ^ ( Z la,Z 2a) = (X1, X 2). |
|||
Если же |
Rx (2) ^ Fa (р , m—s—p + 1), то Х2 присоединяется к |
|||
первому классу, центр которого пересчитывается |
||||
|
7 |
~V |
-^l-h-^2 |
|
и, следовательно, k (2) = |
1, Z<2) = |
(Z12) =(Х 1). |
||
На (ѵ + |
1)-м шаге процедуры |
вначале подсчитывается величина |
||
|
^min(v + l ) = |
min |
Rt (v+ l)=-.Rio(v+ 1). |
|
Если |
|
1 < г ' < * (V) |
|
|
# m ln (v + l)> M p , m—s —p + 1 ), |
||||
TO |
||||
|
|
|
||
k (v -j- 1) — k (v) “Г 1, Z<v+ U — (Zi.v+ Ь Z2.V+I...... Zft (V -f 1). v+ 1) |
||||
|
= (Zlv» |
Z2v> •••> Z*.(v)v, Xv4 1) |
и переходит к следующему шагу, т. е. к рассмотрению точки Хѵ+2.
Если же R min (V + |
1) < |
Fa (р, m—s~ p + 1), то точка Хѵ+і от |
носится к і0-му классу, |
центр |
которого пересчитывается по формуле |
* , .( ѵ + 1) |
<У) Х І, + Х Ѵ + \ |
|
V. (ѵ)+ 1 |
53
Э т а п А. Положив в остальных классах |
|
|
|
|
|
А”; (Ѵ + 1) = Z/v, |
|
|
|
подсчитываем величины Сг-0/(ѵ +1), / = |
1,2, |
k (v), ] 'ф і0. |
Если |
|
окажется, что |
|
|
|
|
c <„/.(v + 1) = |
min Cui>Fa(P, m — s — p+1), |
(1.13) |
||
то полагают |
l < / < * (V ) |
|
|
|
|
|
|
|
|
*( v + l) . = Ä!(v), |
Z,iV+I= x ; ( v + l ) |
( i = l , 2 , ...,'k(v)) |
|
и переходят к следующему шагу, т. е. к рассмотрению точки Хѵ-)_2 Если же
|
|
Сі,и(У+ 1)<Fa(p, т —s—р + 1), |
|
|||||
то центр тяжести |
класса |
с номером і = min |
(t0, /0) |
пересчитывается |
||||
по формуле |
|
|
|
|
|
|
|
|
■ |
„ |
I 1 \ |
V, ( ѵ + 1)Х ; ( ѵ + 1 ) + ѵ , ( ѵ + 1 ) Х ( ѵ + 1) |
|||||
|
у * / ѵ |
_ ‘о 4 |
1 ' |
<»' |
' 1 /о v |
1 ' |
Іо 4 1 ' |
|
|
КК |
^ |
|
|
ѵ/о(ѵ+1) + ѵ/в(ѵ+1) |
|
||
а для і Ф і0 и і Ф /о X* (ѵ + |
1) = |
Х і (ѵ + |
1) причем классам с по |
|||||
рядковыми номерами шах (г0, /о) + |
1, ..., k (ѵ) присваиваются номера |
на единицу меньшие (за счет «исчезновения» класса с порядковым номе ром, равным max (г0, /0)). Далее повторяется процедура А с заменой
і0 на і и Х і на X * до тех пор, пока не окажется выполненным соотно шение (1.13), либо не останется всего лишь один класс.
Последним (п + 1)-м шагом процедуры является реализация мини мального дистанционного разбиения S kt‘n)(Z^n'> относительно k (п) — точки Z(n>, полученной на предыдущем шаге.
З а м е ч а н и е 1. При сравнительно небольших объемах иссле дуемых выборок п можно использовать один из двух, или оба сразу вспомогательных приема:
циклическое продолжение выборки, т. е. реализация описанной процедуры на искусственно удлиненных последовательностях вида
X], Х2, ..., Х п, Хі, Х2, ..., Х п, Хх, Х 2, ..., Х п;
многократное повторение процедуры на различных вариантах последовательностей Х і{, Хг-2, ..., Х іп из случайно перетасованных
Хі с целью выбора наиболее воспроизводимых результатов разбиения. З а м е ч а н и е 2. В целях ускорения сходимости описанной про цедуры целесообразно воспользоваться частичными обучающими выборками для образования «нулевого приближения» Z<°> центров тя
жести классов по правилу
Z(°) = (Z10, Z20, ...,ZSi0),
где
Zio = X, = - L У Х н (/ 1, 2...... s) m
54
средние арифметические, построенные по наблюдениям 1-й частичной обучающей выборки. Соответственно k (0) = s. После этого проводят
ся все |
необходимые |
циклы этапа А и подсчет Сгі (0) і, j |
= 1,2, |
.... s |
до тех |
пор, пока не |
окажется выполненным соотношение |
(1.13), |
либо |
не останется всего лишь один класс. Затем извлекается наблюдение
Х 1 и выполняются все |
необходимые вычисления (ѵ + 1)-го шага про |
цедуры при V = 0 и т. |
д. |
2. О некоторых свойствах, используемых в процедуре статистик
Следующие результаты поясняют смысл описанной процедуры клас сификации и использованных в ней статистик и процентных точек.
Л е м м а 1. Оценкой максимального правдоподобия (с устранен ным смещением) для S по совокупности квазиобучающих выборок яв ляется матрица вида
|
|
s |
т I |
|
|
|
|
|
|
|
2 |
|
|
и , , - * , ) - |
|
|
|
I = 1/ = 1 |
|
|
|
||
|
|
у _ |
1 |
V 1 |
у |
|
|
|
|
Л1— |
---- |
/Г , |
ЛЛ> |
|
|
|
|
|
|
пц |
|
|
|
где т = 2 |
Щ- |
|
|
|
|
|
|
і= і |
2, Статистика |
(т—s )2 |
может быть представлена в виде |
||||
Л ем м а |
|||||||
|
|
|
|
т — s |
|
|
|
|
(/71 -5)2= |
2 |
YkY'k, |
|
|||
|
|
|
|
k = |
\ |
|
|
где Yh независимы и Yk £ N (0, |
2 ) |
Для |
&= 1. 2, ..., |
т —s. |
|||
Л е м м а |
3. Пусть Y —(Хг — Xj), где |
|
|||||
причем |
Уі |
I = і |
|
|
|
k= 1 |
|
Xri 6 N (аГ[, |
2), |
X„h 6 N (a.qh, 2)- |
|
||||
|
|
||||||
Тогда — |
— И' 2 - 1F подчинено |
нецентральному |
/•’-распределе- |
||||
Ѵі + Vj |
|
|
|
|
нецентральности |
||
нию Fx (p, т —s —p~h 1), где параметр |
|||||||
|
Vi+Vj |
/= 1 |
|
|
Ч |
X |
|
|
|
|
|
||||
|
|
'k=l |
|
||||
|
|
V ; |
|
|
|
|
|
|
X |
I = I |
|
|
*4 |
|
|
|
|
|
J k=i |
|
55
В частности, когда все аГ[ и аЧк равны между собой, то распределение центральное, т. е. X = 0.
Для доказательства сформулированных лемм достаточно восполь зоваться приемами и результатами работы [1], и в частности: в лемме 1 составить функцию правдоподобия и воспользоваться леммами 3.2.1— 3.2.3 [ 1, с. 66—691; в лемме 2 при анализе блочно-диагональной матрицы ортогонального преобразования, переводящего X jt в Уг, воспользо ваться теоремой 3.3.1 и леммой 3.3.1 [1, с. 74—75]; в леммеЗ восполь зоваться нашей леммой 2 и теоремой 5.2.2 из [1, с. 148].
В конечном счете исследователя, естественно, интересуют характе ристики качества описанной процедуры и в частности:
насколько точно число классов k («), полученное в результате нашего алгоритма, характеризует истинное число классов kn, представ ленных в последовательности {Xj}?
какова доля неправильно расклассифицированных объектов, а точнее — вероятность неправильной классификации в данном алго ритме?
Ответы на поставленные вопросы можно было бы получить с по мощь ю анализа вероятностей
k (и) |
1 < е |
|
I |
||
|
||
где е — некоторое фиксированное положительное число и |
||
Р (i I І) — |
і ^ 1, 2, ..., hn. |
а и — вероятность того, что наблюдение, принадлежащее к і-му клас су, будет отнесено, в результате применения нашей процедуры, имен но к этому, г-му классу. Сформулированные выше свойства использу емых в данной процедуре статистик должны помочь нам в этом анали зе. В частности, интересно было бы получить описание функции Ал,е (а, ß, К) в оценке вида
Р k (п) j
где а — введенный ранее уровень используемой в процедуре процент ной точки ^’-распределения, К — максимальное число классов, из которых извлекаются наблюдения {Х;}, п — общее число наблю дений, подлежащих классификации,
ß = P{Fupo) (р, m — s— p + l ) < F a(p, т —s —р-\- 1)},
р0= min р (öj, |
aj), |
I«Гг, / </С |
f -распределенной случай |
а К (ро) — параметр нецентральности |
ной величины, — некоторая известная монотонно возрастающая функ
ция аргумента р0.
При этом, очевидно, ß = ß (р0)-монотонно убывающая (до нуля)
функция ро, |
а А„, 8 (а, |
ß, К) — монотонно возрастающая |
функция |
|
по а, |
ß и К, |
и монотонно убывающая функция по е и п. Если |
Ап, е (а, |
|
ß, К) |
0 при л -+ оо и при любых фиксированных е, а, ß |
и К, то |
||
естественно |
называть |
соответствующую процедуру классификации |
||
/^-состоятельной. |
|
|