Файл: Журавлёв, Ю. И. Алгоритмы вычисления оценок и их применение [монография].pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.10.2024

Просмотров: 96

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

построению с их помощью определенного набора весовых коэф­ фициентов [3, , Р2 , ... , Зл^ , позволяющего достигать удовлетво­

рительного распознавания.

Большое развитие получил подход к решению /1-задачи, назван­ ный методом потенциальных функций и использующий гипотезу компактности. Мы не будем специально останавливаться на этом методе, так как он полно освещен в периодической и даже моно­ графической литературе [2, 3]. Заметим лишь, что исследованиями авторов метода потенциальных функций доказана глубокая анало­ гия между работой персептрона, предложенного Ф. Розенблаттом [61], и алгоритмом потенциалов в пространстве рецепторов.

Из алгоритмов, решающих задачу классификации объектов с помощью заданных эталонов, на практике применяются еще два— алгоритм построения «обобщенного портрета» [11] и алгоритм «Кора» [8]. Первый заключается в построении разделяющей ги­ перплоскости, минимизирующей число ошибок на эталонном мате­ риале (при этом используются некоторые эвристические приемы), второй основан на выделении достаточных признаков (например, если классов эталонных объектов два, то достаточным признаком для первого называется признак, который на всех объектах второго

класса принимает

значение 0,

а

на

некоторых

объектах

перво-

)ятностная

иостановкаув

A-задаче возникает тогда,

когда

^ признаки Gtj , сг2 , ... , яд с учетом

их

измерения

в условиях по­

мех рассматриваются как случайные величины, и учитель опре­ деляет принадлежность эталонного объекта к классу с некоторой объективно существующей вероятностью.

Пусть для каждого класса Ки, и — 1, 2, ... , I известны функ­ ция плотности вероятности р (S/Ka ) и вероятность Р( Ки) появ­ ления Ки.[ Задача классификации объектов может быть сформу­

лирована в виде задачи статистических

решений с помощью оп­

ределения решающей функции М (S),

где R (S) — Ru означает,

что принимается гипотеза S e K u..

 

Обозначим через L[KU,R„) потери,

связанные с принятием

гипотезы R , в то время как верна гипотеза Rlt. Условный риск

для

гипотезы S e K u равен

 

 

 

Л ) « I i( * r .. R)P{S/K„ )dS.

 

 

ма

 

Для

заданного

множества

априорных вероятностей

R = [р ), р {К2

(АТ,)]

средний риск будет

(1.3)

классов

r ( P , R ) = 2 Р{Ки)

(1.4)

12


Подета вив (1.3) в (1.4)

и положив

 

 

 

 

i

 

 

 

 

 

^ ^ ( K u.R)p{Ktt)P(SjKtt)

 

 

 

«=i

 

 

 

 

rs (P,R) =

Р (S)

 

 

получим для

(1.4)

 

 

 

 

 

(Р,

Я) = j

Р (S) rs (Р , R) dS,

(1.5)

 

_

ма

 

 

где величина

rs (Р, Я) — есть

апостериорный

условный средний

риск решения Я при данном

5.

решение R

, q =

Следовательно, необходимо выбрать такое

= 1 ,2 , ... ,/, которое минимизирует средний риск r(P, R). Опти­ мальным (в этом смысле) является решение, получаемое на ос­ нове байесова правила [69]. Если положить

то байесово решающее правило дает

 

 

Я* = ЯН, т. е.

S e K u ,

 

(1.6)

если p( K u)p( S/K„)> p ( K q )р [S!Kq) д л я

всех

q = 1, 2,..., /.

Из формулы (1.6) видно, что

в байесовом

классификаторе

разделяющая функция

 

 

 

R A S ) = p { K u) p ( S / k u), и = \,

2 ,...,/,

а решающая граница между областями в

М а ,

относящимися к

Кп и К , задается уравнением

 

 

 

P ( ^ ) P { S / K u) - p ( K Q)p(S/Kq)= 0 .

Обучение системы распознавания

при вероятностной

поста­

новке A-задачи заключается в использовании эталонов классов

для получения неизвестных статистических характеристик

обра­

зов, таких, как р(Ки у и ,р (S/KnJ>>

 

 

2.

Задача выбора систеИБГттризнаков, участвующих в опи

сании объектов распознавания." Как

отмечается в [21],

выбор

совокупности признаков объектов представляет собой серьезную

научную проблему,

предваряющую разработку самих методов

распознавания образов.

’ Если известно

разбиение множества M R^ D эталонных

объектов на классы

Кх, К2, ... , АГг, выбрано решающее правило

или алгоритм А, то

требуется

с учетом ограничений на затраты

Q0 выбрать такую совокупность

множеств

М х , М 2,..., М п (т. е.

организовать пространство признаков уИи),

которая обеспечива­

13


ла бы извлечение достаточного количества информации для удов­ летворительного различения классов в M R и распознавания нового

объекта S e D с помощью имеющихся эталонов.

Вопрос отбора признаков связан в первую очередь с качеством классификации. Особую важность он приобретает в системах по­ следовательного распознавания [69], в которых на протяжении всего последовательного процесса классификации необходимо вы­ бирать для измерения наиболее «информативный» признак с тем, чтобы процесс мог быть завершен как можно раньше. Для решения задачи так или иначе нужно привлечь понятие и меру информа­ тивности признака или набора с точки зрения различения классов. Поэтому эту задачу в последующем будем условно называть I-за­ дачей.

Имеется ряд подходов к решению /-задачи [7, 14, 16, 51, 70—71, 76, 77]. Упомянем лишь некоторые из них.

Льюис [76] в качестве критерия отбора и упорядочения признаков предложил использовать некоторую функцию в виде энтропии. Мерой информативности („добротности11) признака яв­ ляется число G. , выбираемое как среднее значение этой функ­

ции. G. трактуется также в виде взаимной информации признака o.j и классов Кл , ... , Кг

Мерилл и Грин [77] для отбора признаков применили критерий расхождения классов, соответствующий мощности различия меж­ ду ними.

В работе [14] предложен другой подход к решению задачи, не требующий полного знания вероятностных описаний образов и ос­ нованный на использовании разложения Карунена—Лоэва.

Интересный подход к получению эффективного пространства признаков М а разработан Г. С. Лбовым [51]. Этот метод, назван­

ный методом СПА, использует случайный поиск с адаптацией для нахождения требуемого набора признаков. Адаптация связана с необходимостью увеличения на очередном шаге поиска вероятности выбора благоприятных (с точки зрения различения классов) при­ знаков.

3. Задача классификации объектов без эталонов. В этой зада­

че даны множество D объектов Si, S2,

..., Sm, решающее правило

(алгоритм А) и допустимые затраты

Qo. Требуется, основываясь

только на информации, заложенной в

описаниях

объектов

из

D,

по определенному критерию «близости» разбить

множество

D

на

некоторое количество подмножеств — классов.

 

таксо­

Задачи такого типа в литературе называются задачами

номии (Г-задачи). Особое развитие методы таксономии

получили

в исследованиях Н. Г. Загоруйко, результаты которых,

а

также

анализ некоторых других методов таксономии с исчерпывающей полнотой приведены в книге [34].

4. Задача определения затрат Q (Q-задача). Задача связана с определением суммарных затрат на систему распознавания. Если

14


система распознавания создана или разработан алгоритм, имити­ рующий ее работу на ЭВМ, то подсчет Q не представляет особого труда. Так же нетрудно определить Q и для проектируемой систе­ мы или вновь разрабатываемого алгоритма. Поэтому задача имеет вспомогательный смысл и носит разовый характер. Некоторые ме­ тоды ее решения можно найти в уже упоминавшейся работе [34].

5. Задача вычисления меры важности признака или набора при­ знаков. С необходимостью знать меру важности признака как оценку его существенности при решении классификационных задач мы уже столкнулись при рассмотрении /-задачи. Если бы удалось каким-то образом просто вычислять эту меру, то, по-видимому, намного проще решалась бы и задача отбора признаков. Оказы­ вается (см. главы III и V), количественная мера p(i), характери­ зующая важность признака аг, /=1, 2, ..., п, полезна не только для

решения /-задачи, но активно участвует и при решении других. Учитывая это, а также принимая во внимание то, что понятие

меры важности признака, введенное для систем распознавания, может быть распространено на объекты других, сложных систем, мы считаем возможным придать задаче вычисления меры важно­ сти признаков самостоятельный смысл и вынести ее как отдельную задачу в проблеме распознавания образов (Р-задача).

При рассмотрении перечисленных задач мы умышленно не упо­ минали об алгоритмах вычисления оценок, хотя с их помощью можно решать все данные задачи. Последующий основной мате­ риал полностью отведен этим алгоритмам.

Г л а в а II

АЛГОРИТМЫ РАСПОЗНАВАНИЯ, ОСНОВАННЫЕ НА ВЫЧИСЛЕНИИ ОЦЕНОК

§1. Необходимые определения

1.Алфавит признака. Пусть задана совокупность множеств

M t , i = 1, 2

,

Множества M t будем называть в дальнейшем

признаками,

а элементы множеств Жг — значениями соответствую­

щих

признаков.

Совокупность

элементов

M t (значений призна­

ков)

рассмотрим

как некоторый

алфавит

признаков.

В качестве алфавитов могут выступать, например, следующие множества М.:

а) множество из двух элементов (0,1), при этом 1 — означает наличие какого-то свойства, 0 — его отсутствие;

б) множество из трех элементов (0,1, — ), при этом прочерк показывает отсутствие информации о наличии какого-то свойства, отображаемого Mt;

в) конечное, множество целых чисел {1, 2 , ... ,/г}, Содержатель­ ное значение такого признака часто отражает степень выражен­ ности соответствующего свойства;

г) множество точек интервала (а, Ь) с той же содержатель­ ной трактовкой; безусловно, содержательная интерпретация зна­ чений признаков может быть проведена и по-другому;

д) множество вероятностных мер {р.}г, определенных на фик­

сированном множестве еЖ (например, на отрезке (а, b)).

2. Объект распознавания. Под объектом будем понимать много­ мерный вектор, компонентами которого являются конкретные зна­

чения признаков из некоторых алфавитов.

признаки которого

 

Допустимым объектом называется объект,

принимают значения из заданного алфавита.

через

S. , а призна­

 

Так, если некоторый объект обозначить

ки

соответственно

через <х^., i = 1,

2 ,...,

п, то

объект Sj —

=

(«ij, а2/.,..., i aj )

будет допустимым,

если

 

 

3. Допустимая таблица. Совокупность т допустимых объек­ тов, каждый из которых характеризуется набором и признаков, можно свести в таблицу Тпт, где строками являются объекты,

16


а столбцами — значения признаков. Такую таблицу Тпт будем называть допустимой таблицей.

4.ш-часть таблицы. Рассмотрим совокупность булевых векто­

ров ш длины п. Выделим все

единичные

координаты

ш. Пусть

номера этих координат

есть ix ,

i2 , ...

, ik .

Удалим

из

таблицы

Т все столбцы, за

исключением

, i2 , . . . , i k .

Полученную

часть таблицы Татназовем ш-частью таблицы 7лш. Строки новой

таблицы обозначим через ojSj , wS2 , ... , wSm. В дальнейшем бу­ дем рассматривать как совокупность допустимых таблиц, так и

совокупность их ш-часТей.

разбиение

всех допу­

Предположим теперь, что существует

стимых строк на классы К1, К%, ... , Kv причем Kuf\Kj = 0

при

и == у. Это разбиение

индуцирует разбиение

строк таблицы

Тпт

на I непересекающихся классов Кх , К2,...

, К{,

здесь /Сц с /С н, и =

= 1, 2, ... , I. Будем считать, что последнее разбиение

задано.

Обозначим число

элементов класса

Ки через ти — ти1

и

разбиение строк по классам представим следующим образом:

Таблицу Т , строки которой разбиты на I классов, обозна­ чим через Тпт[ .

§ 2. Этапы задания алгоритмов вычисления оценок

Алгоритмы вычисления оценок определяются заданием шести основных этапов.

1.Система опорных множеств. Рассмотрим всевозможные

подмножества /И- множества II, 2, ... , /г!. Обозначим совокуп-

со

ность всех таких подмножеств через 9. Первым этапом опреде­ ления алгоритма А вычисления оценок является задание семей­ ства множеств 9Д СЙ, которое мы назовем системой опорных

множеств алгоритма А. Примерами таких систем могут быть: а) совокупность .всех элементов 9 одинаковой мощности; б) само множество 9; в) совокупность тестов таблицы Тпт1\

г) совокупность всех тупиковых тестов таблицы Тпт1.

2 -6 0