Файл: Галушкин, А. И. Синтез многослойных систем распознавания образов.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.10.2024

Просмотров: 108

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ное правило минимизации числа ЛПЭ в многослойной СР, настраивающихся по замкнутому циклу при фиксирован­ ной структуре.

Отдельно необходимо остановиться на вопросе миними­ зации числа ЛПЭ в слое при независимом обучении ЛПЭ с выбором для каждого ЛПЭ случайных начальных усло­ вий (см. гл. 8 и 9). После получения результатов независи­ мого обучения Н г ЛПЭ первого слоя, обеспечивающих ло-

кальный экстремум функ­ ционала оптимизации, за­ дача выбора по результатам настройки одного из Н 1 ЛПЭ, обеспечивающего

Рис. 10-4. Пример минимизации

Рис. 10-5. Иллюстрация

числа ЛПЭ первого слоя много­

к свойству локальной опти­

слойной СР.

мальности процедуры

вы­

1 — первый класс; 2 — второй класс.

бора информативных

при­

 

знаков.

 

1 — первый класс; 2 — второй класс.

экстремальное значение функционала оптимизации, явля­ ется тривиальной. Задача выбора Н°<^Н1 из Я х ЛПЭ, обеспечивающих экстремальное значение функционала оптимизации, является трудной задачей, возможно не­ разрешимой в такой постановке (за исключением пути, связанного с очевидной процедурой полного перебора). Это достаточно легко иллюстрируется на примере рис. 10-4, в котором для каждого варианта выбора порогов (парамет­ ров и структуры первого слоя ЛПЭ) указана в процентах величина вероятности ошибки. На рисунке цифры около' стрелок указывают номер класса.

Сравним на качественном уровне два подхода к решению задачи выбора информативных признаков: подход, описан­ ный выше и связанный с оценкой информативности при­

304

/


знаков только по параметрам и структуре настроенной СР, и подход, описанный Е. С. Енюковым, связанный с оцен­ кой информативности признаков по параметрам настроен­ ной СР и некоторым характеристикам входного сигнала.

Второй подход является отступлением от аксиоматики структурного подхода и менее перспективен, так как не позволяет обобщить результаты на случай сложных и не известных в общем виде распределений /' (х/г). При обоб­ щении на указанный случай первый подход также демон­ стрирует в некоторой степени свою ограниченность, однако эта ограниченность полностью объясняется с позиций те­ зиса о невозможности выбора информативных признаков до окончания этапа настройки (10-1). Поясним это на кон­ кретном примере. На рис. 10-5 представлены линии равных значений /' (х/е) в многомодальном случае и показаны че­ тыре положения линейной разделяющей поверхности, обес­ печивающие локальный экстремум Рправ. Отсюда следует, что при фиксированной структуре разомкнутой СР любая оценка информативности будет не только субъективной, но и локальной, так как настроенная СР с фиксированной структурой обеспечивает лишь локальный экстремум функ­ ционала оптимизации. Эти рассуждения справедливы и для режима самообучения.

10-5. Выбор информативных признаков исходного пространства с помощью многослойных СР с последовательными алгоритмами настройки ЛПЭ первого слоя

Основной вопрос состоит в том, как можно оценить от­ носительную величину вероятности правильного распозна­

вания

по структуре обученной СР и результатам обучения.

Сравниваются в плане информативности две группы при­

знаков. В данном случае можно привести несколько мето­

дов оценки информативности признаков.

 

1.

 

При использовании СР с последовательными алго­

ритмами обучения ЛПЭ первого слоя на некоторой конеч­

ной обучающей выборке обеспечивается заданная величина

Р прав = const, в частности

Р прав =

1- Тогда, если первая

СР с

характеристиками

N

Р 1прав имеет больше

ЛПЭ

в первом

слое, чем вторая

СР с

характеристиками

N 2,

Р 2 прав

=

Р 1 пРав> группа

из N x признаков менее информа­

тивна,

чем группа из N 2 признаков. Это следует из объек­

тивной необходимости большего числа ЛПЭ в первом слое

305


многослойной СР при большем пересечении классов. По­ добный способ оценки информативности признаков исход­ ного пространства верен только при определенных огра­ ничениях, рассмотренных ниже.

2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распоз­ навания. В результате настройки СР имеем кривые изме­ нения Р прав от Н 1 (числа ЛПЭ первого слоя) на совокуп­ ностях признаков N х (СРХ) и N 2 (СР2) (рис. 10-6, а). Рас-

Рис. 10-6. Выбор информативных признаков с помощью СР с переменной структурой.

смотрение кривых показывает, что в данном случае группа признаков N х менее информативна, чем группа признаков

N 2.

Здесь рассматривается

случай, когда превышение ин­

формативности для N 2 п о

сравнению с АД наблюдается

при

любой структуре ( # х)

СР. Данная методика выбора

информативных признаков

включает в себя изложенную

в п.

1 как частную.

 

3.При наличии достаточно большой обучающей выборки

зависимость

Р прав (Д х) имеет

характер, изображенный

на

рис.

10-6, б. Достаточное

приближение

кривой

Рправ

( Я i) К асимптоте (точки 1 и 2) на рис. 10-6,

б озна­

чает переход от статистического режима обучения к детер­ минированному, когда СР заключает в отдельные подобла­ сти совокупности образов с малым числом членов. В данном случае оценка информативности групп признаков должна

306


производиться путем сравнения установившихся значений зависимостей Лправ (Я ^.

4. В случае неоптимального алгоритма настройки на каждом шаге первого слоя многослойной СР в общем слу­ чае имеет место картина, изображенная на рис. 10-6 , 6. В данном случае (более общем, чем предыдущие) оценка информативности производится либо, как ранее в п. 3, либо при любом Я х с оговоркой, что оценка информатив­ ности производится при данном алгоритме настройки и данном числе ЛПЭ в первом слое.

5. Выше принималось, что вся исходная выборка ис­ пользуется на этапе, обучения и оценки информативности, и не учитывалась возможная непредставительность обу­ чающей выборки. Для учета представительности обучаю­ щей выборки необходимо произвести обучение на части АМ х всей исходной выборки. Зачастую для проверки пред­ ставительности необходимо выбирать несколько интерва­ лов ЛУИ,- и помещать их в различных участках исходной выборки. Распознавание обученной СР производится на полном объеме обучающей выборки. Анализ результатов обучения Робуч (Я 1; ЛУИ,-) и распознавания Р расп (Ях) (рис. 10-6 , г) позволяет оценить стационарность и предста­ вительность обучающей выборки, а также информативность отдельных групп признаков.

Минимизация числа ЛПЭ

Процесс последовательности настройки (гл. 9) ЛПЭ первого слоя многослойной СР характеризуется графом, являющимся прадеревом, каждой вершине которого со­ ответствует ЛПЭ с некоторой величиной приращения Р прав> имеющей место при введении данного ЛПЭ. Данный граф является исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из следующих постановок: при заданной величине Р прав минимизировать число вершин графа, при заданном числе вершин с ветвлениями выбором структуры прадерева обеспечить максимальную величину Р прав.

На рис. 10-7 представлена иллюстрация исходной ин­ формации для минимизации прадерева. Слева в кружке указывается номер вершины ЛПЭ в исходном графе. Справа в кружке указан номер ЛПЭ в результирующем оптимизи­ рованном графе. Номер каждого ребра графа совпадает с номером делимой области, причем нумерация областей производится следующим образом (гл. 9). Область с номе­

307


ром у делится на две подобласти с номерами и + 1,

где подобласть с номером

относится к первому

классу,

а подобласть с номером +

1 — ко второму. В

качестве

правила выбора очередной подобласти для деления зача­ стую наиболее целесообразно взять правило выбора той подобласти, которая содержит наибольшее число векторов первого и второго класса. Пунктиром в графе показаны те подобласти, в которых имеется сравнительно незначи­ тельное число векторов. Около каждой вершины графа

Рис. 10-7. Минимизация числа ЛПЭ первого слоя СР

спеременной структурой.

вквадратных скобках указывается приращение Р прав, сбес печиваемое введением соответствующего ЛПЭ. Это прира­ щение может быть и отрицательным из-за неоптимальности (по Р прав) метода настройки отдельного ЛПЭ.

Оптимизация прадерева происходит следующим обра­ зом:

1)в случае первого ветвления (ЛПЭ 3 и ЛПЭ 8 в исход­ ном графе) сравниваются приращения Р прав. К оптимизи­ рованному графу относится ЛПЭ с максимальным прира­

щением Р прав (на графе ЛПЭ

3);

2) далее сравниваются по

величине Д.Рправ ЛПЭ дан­

ного и последующих ветвлений (ЛПЭ 8 и ЛПЭ 4) и также выбирается ЛПЭ с максимальным значением ДРправ и включается в оптимизированный граф;

308

3) данный процесс продолжается до тех пор, пока сумма приращений вероятностей правильного распознавания не достигнет заданной величины Р прав или пока число вершин графа не достигнет заданной величины.

На рис. 10-7, а данная процедура приводит к оптималь­ ному обходу вершин графа так, как обозначено в кружках

(вершинах) справа. На рис. 10-7,

б представлен результат

оптимизации

графа рис.

10-7, а

для двух критериев:

Рправ>0,7 и

Р ПраВ> 0,73 .

В оптимальном графе порядок

обхода вершин не совпадает с обходом вершин на этапе обучения.

Исходными данными для обучения ЛГ1Э второго слоя многослойной СР, как указывалось в гл. 9, являются ло­ гическая функция, дополненная определенным образом и составляющая обучающую выборку и значение вероятно­ сти ошибки, соответствующее каждой подобласти (т. е. каждой реализации логической функции).

Идея применения последовательных алгоритмов для обучения ЛПЭ второго слоя заключается в использовании последовательных алгоритмов с учетом для каждого обу­ чающего вектора веса, определяемого Рош в подобласти, соответствующей данному вектору. При обучении ошибка в подобласти подсчитывается как сумма ошибок для всех векторов, неправильно отнесенных к тому или иному классу. Идея минимизации числа ЛПЭ второго и последую­ щих слоев многослойной СР в данном случае остается той же, что и для ЛПЭ первого слоя. Необходимо лишь отме­ тить, что чем больше номер слоя, тем менее актуальной становится задача минимизации числа ЛПЭ в слое ввиду специфики структуры разомкнутой многослойной СР, свя­ занной с уменьшением числа ЛПЭ от первого слоя к выходу вследствие сжатия информации.

10-6. О выборе информативных признаков

вмногослойных СР в режиме самообучения

Врежиме самообучения справедливы все постановки

задачи выбора информативных признаков, описанные в в § 10-1. Меняются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием яв­ ляется значение средней функции риска (в частном случае, вероятности правильного распознавания), то в режиме самообучения критерием информативности признаков яв-'. ляется значение специальной средней функции риска. С дан­

309