Файл: Айвазян, С. А. Классификация многомерных наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 21.10.2024

Просмотров: 83

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

методе классификации и наличии обучения. Например, при классифи­ кации нормальных наблюдений с помощью линейной разделяющей поверхности достаточно знать лишь р + 1 чисел, а при локальном ме­ тоде классификации требуется помнить все р (т1 + /л2) чисел.

Локальный метод, устраняя одну трудность — наличие сведений об общем виде распределения наблюдений,—сразу же заменяет ее дру­ гой — трудностью выбора расстояния между точками-наблюдателя- ми. Эту трудность можно преодолеть, как будет показано ниже, заме­ нив ее другой неопределенностью.

Остановимся коротко на некоторой модификации правила клас­ сификации (1), описанного выше. Эта модификация для двух классов описана, например, в работе [13] и состоит в том, что можно для точки Z принимать, как описано в § 2, п. 4, три решения:

di — отнести точку к классу і (г= 1, 2) и d0 — воздержаться от приня­ тия решения.

Предлагается следующая процедура:

в зависимости от т1 и тг -—числа точек обучающих последователь­ ностей выбираются числа к и к ' ^ [к/2] + 1;

выбираются к ближайших к точке Z точек из множества т1 + т2 точек обучающих выборок;

точка Z относится к классу і (і = 1,2), если в числе к ближайших точек имеется более к' точек из обучающей выборки класса і. Если же

этого не происходит, то принимается решение d0. Это означает,

что

в числе ближайших к Z точек примерно поровну точек классов 1

и 2.

В работе [13] показано, что при априорных

вероятностях классов

n it Ші =

(тг + m2) jt; и mt -»- сю,

k ->- оо,

предлагаемая процедура

сходится к байесовской, описанной

в §

2,

п.

4,

т. е. является L (с)

состоятельной.

 

[к/2]

+

1 эта процедура сов­

Очевидно, что при к нечетном и к' =

падает с описанной в работах [11] и [12].

 

 

 

 

 

б)

Методы, использующие понятия весовой функции. В пространстве

выборочных точек можно отказаться от введения расстояния, не из­ меняя при этом качества алгоритмов классификации (состоятельность и т. д.). Но в этом случае приходится вводить произвольную функцию

веса К (х(1), х<2>, ...,

которая

должна удовлетворять следующим

условиям [26].

 

 

 

 

 

 

Функция К должна быть неотрицательна, симметрична, монотон-

но-мажорируема и интегрируема, т. е.

 

 

 

 

 

 

К (* (1),

х (2>,

х (р> )> 0 ;

 

 

К (*(1),

х<2>, ..., х(р>) =

К ( ± х (1),

± * < 2>, .... ±*< р >);

где

 

 

 

К (х(!>, х<2>,

..., х(р>)

Q(х(1>,

х(2), ..., х(р>),

 

 

 

 

 

 

 

 

 

ПП,г

Х\

"-

Х$> ?

 

 

 

 

 

При

 

 

 

 

 

 

 

 

-J-оо

 

оо

оо

 

 

 

 

 

—оо

—оо

—оо

 

 

 

 

48


Вполне естественно, что в качестве весовой функции К(лД), х(2\ . . . , х (р'>} можно взять любую интегрируемую в области от 0 до оо и неотрица­ тельную функцию ер (г) одномерного параметра, где вместо аргумен­ та г стоит норма ||Х||. Если ф (г) еще и монотонно убывающая функция,

то последние условия автоматически выполняются. Условие j

Q { Z ) d Z < i

<

оо без ограничения общности можно заменить условием j' Q ( Z ) d Z =

=

1 и взять вместо функции веса К (X) мажоранту Q ( X ) ,

если ма­

жоранта

симметрична. Если выбрать ещер последовательностей Д1т,

В 2т, ...,

1 р

Bjm -> 0 при

ВРт, таких, что В1т-+оо при т -> оо, а — П

m -> оо,

то можно получить оценку плотности в

точке

Z = (z(IC

z<2>, .... z <p >)

тр

где Xi =

(х\ \ х\ \ ..., х\р)) (і — 1, 2, ...,

т) —точки обучающей вы­

борки из

какого-либо класса.

условиях можно доказать

В этом случае при вышеприведенных

[16], что оценка fm (zC), z(2), ... , z <p >) состоятельна в точках непрерыв­ ности Z плотности / (Z), а величина

(7) / (Z)

асимптотически оо) нормальна с математическим ожиданием О и единичной дисперсией.

Легко проверить, что последовательности B j m = ш4+р удовлетво­ ряют всем необходимым условиям. Для таких последовательностей

сходимость оценки fm (Z) к плотности / (Z) определяется скоростью убывания дисперсии, равной

Следовательно, скорости сближения оценок в методах, описанных в работе [7] и в работе [16], совпадают для этого частного случая и рав­

ны /п<2 + р/2). Очевидно, что функции

Ф (z) = e~czZ (с > 0), ( a + b z 2) - 1, ( ^ ^ ) 2 и т - д -’

на которых основаны методы классификации с помощью так называе­ мых потенциальных функций (см. главу III), удовлетворяют всем не­ обходимым условиям построения локальных оценок плотностей.

49


В работе [5] доказано, что оценка плотности с весовой функцией

К.(х(1), л'<2>, ...,х(р>) =

П

- обладает всеми приведенными выше свой-

-ствами,

 

 

г= 1

 

х<2),..., х<р>) может принимать и отрица­

хотя функция К(х(1>,

тельные

значения.

Поэтому

от условия

неотрицательности

можно

отказаться.

 

 

 

 

 

 

в) Эвристический метод классификации1.

ягг; I =

 

Пусть

имеется

обучающая выборка

{Хгг} = 1, 2, ...,

=

1, 2,

...,

 

k

 

и эта выборка разбита на& классов Su

k) объема яг = 2 т .,

5 г,

...,

 

 

г= 1

1

 

 

 

S k. Предъявляется

элемент Z £ X, подлежащий классифика­

ции, и производится подсчет числа голосов Г (Z, Sz) за I-й класс следу­

ющим образом. Выбирается р' <

р,

где р — размерность

простран­

ства X и рассматриваются любые р'

координат ^-мерного вектора X.

Пусть этот набор координат обозначен через П, а через

|| Z — X ||п

для любого Z £ X обозначается величина

 

і /

2

 

 

 

г

/еп

 

 

 

Введем функцию

 

 

 

 

 

1,

при IIZ —Х ||< 8 ,

 

/?n(Z, Х) =

при IZ —X II (Д е.

 

 

О,

 

Возьмем любой вектор Х ц

£ Si.

Определим величину

 

Г (Z, X „ )= 2 /? n (Z , x tl).

II

Суммирование здесь ведется по всевозможным наборам р' координат из р (число таких наборов равно Ср).,Тогда величина T(Z, Si) равна

ті

T (Z ,St) = 2 r ( Z , X u). і = 1

Пусть задано некоторое число ц ^ 1. Вектор Z £ X относится к тому классу I, при котором

Г (Z, Sj)

для всех j Ф I. Если такого I не существует, то вектор Z не может быть классифицирован.

В целях проверки качества классификации описанный выше алго­ ритм применяется для классификации элементов обучающей выборки. Затем подсчитывается некоторая величина Е, характеризующая ка­ чество алгоритма, которая выражается через число неправильно клас­ сифицированных объектов и через число объектов не классифициро­ ванных в процессе работы алгоритма. Очевидно, что значение Е зави­ сит от (k, е, ц). Выбираются те значения k, е, м, при которых Е дости­ гает экстремума.

1 Этот метод разработан Ю. И. Журавлевым (ВЦ АН СССР).

50


§ 4. КЛАССИФИКАЦИЯ С ЧАСТИЧНЫМ ОБУЧЕНИЕМ. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ

В области социально-экономических исследований сравнительно распространены ситуации, в которых исследователю неизвестно зара­ нее сколько типов (классов, объектов) представлено в изучаемой вы­ борке

{Хі) = Хь Х2, ..., Х п,

однако, предварительные сведения или специальные экспертные оцен­ ки помогают выделить определенные, как правило, небольшие «пор­ ции» данных вида {Хгг} из выборки {Ху} или помимо нее, о каждой из которых известно, что эта порция представляет лишь один какой-то класс.

Учитывая определение частичной обучающей выборки, данное в § 1 настоящей главы, естественно назвать подобные задачи классифи­ кацией при наличии частичного обучения. В этом параграфе мы рас­ смотрим процедуру классификации на неизвестное число классов при наличии частичного обучения и ее свойства применительно к одной частной схеме.

Предположим, что каждый из векторов наблюдений Ху исследуемой выборки извлечен из какой-то нормальной генеральной совокупности, принадлежащей семейству

{N(ah 2)}, /= 1, 2, ..., К,

где

'ö j 1»''

 

\

п{р)

/

 

 

 

\ и/

 

вектор средних значений,

а 2 =

(схгу) — матрица ковариаций компо­

нент исследуемых случайных величин X,-, общая для

всех рассма­

триваемых генеральных

совокупностей. Предположим

также, что

(.т—s) >. (р—1), где, как и прежде, т —общее число наблюдений, сос­ тавляющих s частичных обучающих выборок.

Введем в рассмотрение априорные вероятности я г (I = 1,2, ..., К) появления объекта /-го класса, или иначе л г — это удельный вес /-го класса среди всех исследуемых классов. При этом, вообще говоря, аи 2, К и я г (/ = 1, 2, ..., К) нам неизвестны, а К может быть и + оо. Будем для определенности предполагать, что наблюдения, участвую­ щие в частичных обучающих выборках, не входят в состав исследуемой выборки {Ху}. Этого всегда можно добиться с помощью предваритель­ ного исключения этих наблюдений из состава выборки {Ху}.

1. Описание процедуры классификации

Следуя [9] и [15], определим понятие минимального дистанционного разбиения

Sft(2) = {S!(Z), S2(Z), ...,Sk(Z)j

51


относительно заданных центров

Z = - (Zb Z2,

Zh)

и заданного числа классов k. Выше и далее Z* — вектор в рассматри­ ваемом намир-мерном пространстве/?^) с заданной в нем метрикой р./ В соответствии с этим разбиением класс 5 г (Z) состоит из точек про­ странства /?(р>, ближайших в смысле метрики р к Zг, причем точки, рав­ ноотстоящие от нескольких центров Z;, относятся к классу с наимень­ шим индексом. Так что, если ввести множества1

SHZ) = {Z:X €«((-), р(Х, Z;)< p (X ,Z ;-), / —1, 2,

/г},

то

S1(Z) = St(Z),

Sa(Z)= S;(Z)flSi(Z),

Sh(Z)==SS(Z) n

f n ‘ s,(Z)

 

V/ = 1

Пусть V — номер шага процедуры

классификации, что в нашем

случае совпадает с текущим номером последовательно извлекаемых из {Ху} наблюдений Хѵ.

Сущность описываемой процедуры в предварительном (по ѵ) уточ­

нении «центров тяжести» классов

 

Z(v) — ( Z iv, Z2v.

Z k ( у ) v)

и их числа k (ѵ), а затем использование получаемой на последнем п-м шаге последовательности центров Z(n) для образования классов

<Si(Z(n))> S2(Z(*>), .... S*(n)(Z<»>)

с помощью определенного выше минимального дистанционного раз­

биения 5

)(Z(n>).

Введем

в рассмотрение р (X, Y) — расстояние махаланобисского

типа между случайными векторами X и Y в исследуемом р-мерном про­ странстве /?(р)

р2(Х, F) = (X ~ F )'S - 1(X -F ),

где 2 — ковариационная матрица и для X и для У.

Пусть 2 — оценка максимального правдоподобия с устраненным смещением для 2 , построенная по совокупности частичных обучающих

выборок, р~2 (X, Y) = (X — Y)' 2 - 1 (X — Y ),

V ; (V)

Хі(у)

2

Хн

 

Ѵі (V)

 

 

; = 1

 

1 Черта сверху используется как знак теоретико-множественного дополне­

ния, т. е. множество S=- Р <р>\ S

состоит из

всех точек пространства Р (р), не

принадлежащих к множеству S.

 

 

52