ное правило минимизации числа ЛПЭ в многослойной СР, настраивающихся по замкнутому циклу при фиксирован ной структуре.
Отдельно необходимо остановиться на вопросе миними зации числа ЛПЭ в слое при независимом обучении ЛПЭ с выбором для каждого ЛПЭ случайных начальных усло вий (см. гл. 8 и 9). После получения результатов независи мого обучения Н г ЛПЭ первого слоя, обеспечивающих ло-
кальный экстремум функ ционала оптимизации, за дача выбора по результатам настройки одного из Н 1 ЛПЭ, обеспечивающего
Рис. 10-4. Пример минимизации |
Рис. 10-5. Иллюстрация |
числа ЛПЭ первого слоя много |
к свойству локальной опти |
слойной СР. |
мальности процедуры |
вы |
1 — первый класс; 2 — второй класс. |
бора информативных |
при |
|
знаков. |
|
1 — первый класс; 2 — второй класс.
экстремальное значение функционала оптимизации, явля ется тривиальной. Задача выбора Н°<^Н1 из Я х ЛПЭ, обеспечивающих экстремальное значение функционала оптимизации, является трудной задачей, возможно не разрешимой в такой постановке (за исключением пути, связанного с очевидной процедурой полного перебора). Это достаточно легко иллюстрируется на примере рис. 10-4, в котором для каждого варианта выбора порогов (парамет ров и структуры первого слоя ЛПЭ) указана в процентах величина вероятности ошибки. На рисунке цифры около' стрелок указывают номер класса.
Сравним на качественном уровне два подхода к решению задачи выбора информативных признаков: подход, описан ный выше и связанный с оценкой информативности при
304
знаков только по параметрам и структуре настроенной СР, и подход, описанный Е. С. Енюковым, связанный с оцен кой информативности признаков по параметрам настроен ной СР и некоторым характеристикам входного сигнала.
Второй подход является отступлением от аксиоматики структурного подхода и менее перспективен, так как не позволяет обобщить результаты на случай сложных и не известных в общем виде распределений /' (х/г). При обоб щении на указанный случай первый подход также демон стрирует в некоторой степени свою ограниченность, однако эта ограниченность полностью объясняется с позиций те зиса о невозможности выбора информативных признаков до окончания этапа настройки (10-1). Поясним это на кон кретном примере. На рис. 10-5 представлены линии равных значений /' (х/е) в многомодальном случае и показаны че тыре положения линейной разделяющей поверхности, обес печивающие локальный экстремум Рправ. Отсюда следует, что при фиксированной структуре разомкнутой СР любая оценка информативности будет не только субъективной, но и локальной, так как настроенная СР с фиксированной структурой обеспечивает лишь локальный экстремум функ ционала оптимизации. Эти рассуждения справедливы и для режима самообучения.
10-5. Выбор информативных признаков исходного пространства с помощью многослойных СР с последовательными алгоритмами настройки ЛПЭ первого слоя
Основной вопрос состоит в том, как можно оценить от носительную величину вероятности правильного распозна
вания |
по структуре обученной СР и результатам обучения. |
Сравниваются в плане информативности две группы при |
знаков. В данном случае можно привести несколько мето |
дов оценки информативности признаков. |
|
1. |
|
При использовании СР с последовательными алго |
ритмами обучения ЛПЭ первого слоя на некоторой конеч |
ной обучающей выборке обеспечивается заданная величина |
Р прав = const, в частности |
Р прав = |
1- Тогда, если первая |
СР с |
характеристиками |
N |
Р 1прав имеет больше |
ЛПЭ |
в первом |
слое, чем вторая |
СР с |
характеристиками |
N 2, |
Р 2 прав |
= |
Р 1 пРав> группа |
из N x признаков менее информа |
тивна, |
чем группа из N 2 признаков. Это следует из объек |
тивной необходимости большего числа ЛПЭ в первом слое
многослойной СР при большем пересечении классов. По добный способ оценки информативности признаков исход ного пространства верен только при определенных огра ничениях, рассмотренных ниже.
2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распоз навания. В результате настройки СР имеем кривые изме нения Р прав от Н 1 (числа ЛПЭ первого слоя) на совокуп ностях признаков N х (СРХ) и N 2 (СР2) (рис. 10-6, а). Рас-
Рис. 10-6. Выбор информативных признаков с помощью СР с переменной структурой.
смотрение кривых показывает, что в данном случае группа признаков N х менее информативна, чем группа признаков
N 2. |
Здесь рассматривается |
случай, когда превышение ин |
формативности для N 2 п о |
сравнению с АД наблюдается |
при |
любой структуре ( # х) |
СР. Данная методика выбора |
информативных признаков |
включает в себя изложенную |
в п. |
1 как частную. |
|
3.При наличии достаточно большой обучающей выборки
зависимость |
Р прав (Д х) имеет |
характер, изображенный |
на |
рис. |
10-6, б. Достаточное |
приближение |
кривой |
Рправ |
( Я i) К асимптоте (точки 1 и 2) на рис. 10-6, |
б озна |
чает переход от статистического режима обучения к детер минированному, когда СР заключает в отдельные подобла сти совокупности образов с малым числом членов. В данном случае оценка информативности групп признаков должна
производиться путем сравнения установившихся значений зависимостей Лправ (Я ^.
4. В случае неоптимального алгоритма настройки на каждом шаге первого слоя многослойной СР в общем слу чае имеет место картина, изображенная на рис. 10-6 , 6. В данном случае (более общем, чем предыдущие) оценка информативности производится либо, как ранее в п. 3, либо при любом Я х с оговоркой, что оценка информатив ности производится при данном алгоритме настройки и данном числе ЛПЭ в первом слое.
5. Выше принималось, что вся исходная выборка ис пользуется на этапе, обучения и оценки информативности, и не учитывалась возможная непредставительность обу чающей выборки. Для учета представительности обучаю щей выборки необходимо произвести обучение на части АМ х всей исходной выборки. Зачастую для проверки пред ставительности необходимо выбирать несколько интерва лов ЛУИ,- и помещать их в различных участках исходной выборки. Распознавание обученной СР производится на полном объеме обучающей выборки. Анализ результатов обучения Робуч (Я 1; ЛУИ,-) и распознавания Р расп (Ях) (рис. 10-6 , г) позволяет оценить стационарность и предста вительность обучающей выборки, а также информативность отдельных групп признаков.
Минимизация числа ЛПЭ
Процесс последовательности настройки (гл. 9) ЛПЭ первого слоя многослойной СР характеризуется графом, являющимся прадеревом, каждой вершине которого со ответствует ЛПЭ с некоторой величиной приращения Р прав> имеющей место при введении данного ЛПЭ. Данный граф является исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из следующих постановок: при заданной величине Р прав минимизировать число вершин графа, при заданном числе вершин с ветвлениями выбором структуры прадерева обеспечить максимальную величину Р прав.
На рис. 10-7 представлена иллюстрация исходной ин формации для минимизации прадерева. Слева в кружке указывается номер вершины ЛПЭ в исходном графе. Справа в кружке указан номер ЛПЭ в результирующем оптимизи рованном графе. Номер каждого ребра графа совпадает с номером делимой области, причем нумерация областей производится следующим образом (гл. 9). Область с номе
ром у делится на две подобласти с номерами 2у и 2у + 1,
где подобласть с номером 2у |
относится к первому |
классу, |
а подобласть с номером 2у + |
1 — ко второму. В |
качестве |
правила выбора очередной подобласти для деления зача стую наиболее целесообразно взять правило выбора той подобласти, которая содержит наибольшее число векторов первого и второго класса. Пунктиром в графе показаны те подобласти, в которых имеется сравнительно незначи тельное число векторов. Около каждой вершины графа
Рис. 10-7. Минимизация числа ЛПЭ первого слоя СР
спеременной структурой.
вквадратных скобках указывается приращение Р прав, сбес печиваемое введением соответствующего ЛПЭ. Это прира щение может быть и отрицательным из-за неоптимальности (по Р прав) метода настройки отдельного ЛПЭ.
Оптимизация прадерева происходит следующим обра зом:
1)в случае первого ветвления (ЛПЭ 3 и ЛПЭ 8 в исход ном графе) сравниваются приращения Р прав. К оптимизи рованному графу относится ЛПЭ с максимальным прира
щением Р прав (на графе ЛПЭ |
3); |
2) далее сравниваются по |
величине Д.Рправ ЛПЭ дан |
ного и последующих ветвлений (ЛПЭ 8 и ЛПЭ 4) и также выбирается ЛПЭ с максимальным значением ДРправ и включается в оптимизированный граф;
3) данный процесс продолжается до тех пор, пока сумма приращений вероятностей правильного распознавания не достигнет заданной величины Р прав или пока число вершин графа не достигнет заданной величины.
На рис. 10-7, а данная процедура приводит к оптималь ному обходу вершин графа так, как обозначено в кружках
(вершинах) справа. На рис. 10-7, |
б представлен результат |
оптимизации |
графа рис. |
10-7, а |
для двух критериев: |
Рправ>0,7 и |
Р ПраВ> 0,73 . |
В оптимальном графе порядок |
обхода вершин не совпадает с обходом вершин на этапе обучения.
Исходными данными для обучения ЛГ1Э второго слоя многослойной СР, как указывалось в гл. 9, являются ло гическая функция, дополненная определенным образом и составляющая обучающую выборку и значение вероятно сти ошибки, соответствующее каждой подобласти (т. е. каждой реализации логической функции).
Идея применения последовательных алгоритмов для обучения ЛПЭ второго слоя заключается в использовании последовательных алгоритмов с учетом для каждого обу чающего вектора веса, определяемого Рош в подобласти, соответствующей данному вектору. При обучении ошибка в подобласти подсчитывается как сумма ошибок для всех векторов, неправильно отнесенных к тому или иному классу. Идея минимизации числа ЛПЭ второго и последую щих слоев многослойной СР в данном случае остается той же, что и для ЛПЭ первого слоя. Необходимо лишь отме тить, что чем больше номер слоя, тем менее актуальной становится задача минимизации числа ЛПЭ в слое ввиду специфики структуры разомкнутой многослойной СР, свя занной с уменьшением числа ЛПЭ от первого слоя к выходу вследствие сжатия информации.
10-6. О выборе информативных признаков
вмногослойных СР в режиме самообучения
Врежиме самообучения справедливы все постановки
задачи выбора информативных признаков, описанные в в § 10-1. Меняются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием яв ляется значение средней функции риска (в частном случае, вероятности правильного распознавания), то в режиме самообучения критерием информативности признаков яв-'. ляется значение специальной средней функции риска. С дан