Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 170
Скачиваний: 4
|
§ ІО. О РАБОТЕ С АЛГОРИТМАМИ |
371 |
метр |
кодируется только одной градацией, то этот |
пара |
метр |
исключается). |
|
Алгоритм ОП-9 включает в себя как составную часть |
||
алгоритм ОГІ-8. |
|
|
Алгоритм ОП-Ю аналогичен алгоритму ОП-7. |
С его |
помощью, так яге как и с помощью ОП-7, строится экстре мальная кусочно-линейная разделяющая гиперповерх ность. Отличие заключается лишь в том, что в этих алго ритмах по-разному оценивается качество отыскиваемой гиперплоскости: в алгоритме ОП-7 используется оценка сверху, с помощью формулы, в то время как в алгоритме ОП-Ю качество оценивается методом скользящего конт роля.
Алгоритм ОП-Ю реализует такую последовательность операций:
1)упорядочиваются элементы обучающей последова тельности по расстоянию до вектора х, подлежащего клас сификации;
2)для обучающей последовательности строится экст ремальная гиперплоскость и оценивается методом сколь зящего контроля ее качество;
3)определяется гиперплоскость, построенная по та кому объему выборки, для которого оценка качества най денного решающего правила наилучшая;
4)с помощью найденного правила классифицируется вектор.
Алгоритм ОП-Ю включает в себя как составную часть алгоритм ОП-9.
§ 10. О работе с алгоритмами
Выше была рассмотрена группа алгоритмов, реализую щих метод обобщенного портрета. Среди алгоритмов группы есть алгоритмы, учитывающие достаточно тонкие критерии построения разделяющих поверхностей, и алго ритмы, использующие простые критерии. Естественно, что первые требуют для своей реализации больших вычисли тельных мощностей, чем вторые.
Самым простым в реализации |
является алгоритм ОП-1, |
||
строящий обобщенный портрет |
для заданного фиксиро |
||
ванного к (к — параметр |
алгоритма). Наиболее |
слож |
|
ным является алгоритм |
ОП-Ю, |
который строит |
экстре- |
372 ГЛ. XV. АЛГОРИТМЫ МЕТОДА ОБОБЩЕННОГО ПОРТРЕТА
малыше кусочно-линейные разделяющие поверхности, используя оценку «скользящий контроль».
Какой же алгоритм выбрать для решения конкретной задачи? Выбор того или иного алгоритма зависит от раз ных причин. Если заранее известен весь материал экзаме национной последовательности и имеются достаточно мощ ные вычислительные средства, то, вероятно, разумней всего использовать алгоритм ОП-Ю. Этот алгоритм строит экстремальные кусочно-линейные решающие прави ла, пытаясь полностью учесть особенности данной кон кретной задачи. При этом теоретически не исключена возможность, что рекомендация, полученная с помощью ОП-Ю, полностью совпадет с рекомендацией, получен ной с помощью ОП-1.
Менее трудоемким является алгоритм построения эк стремальной кусочно-линейной разделяющей поверхно сти ОП-7. Реализация этого алгоритма упрощается тем, что вместо процедуры скользящий контроль в нем исполь зуется оценка качества решающего правила с помощью формул.
В том случае, когда заранее не дана экзаменационная последовательность и необходимо построить решающее правило, которое будет в дальнейшем использоваться для классификации различных векторов, следует применять алгоритмы построения экстремальной разделяющей гипер плоскости, а в том случае, когда гиперплоскость разделяет векторы обучающей последовательности, совершая доста точно много ошибок, строить кусочно-линейную разде ляющую поверхность. Среди алгоритмов метода «обобщен ный портрет» есть такие, которые строят разделяющую гиперплоскость в пространстве минимальной размерно сти. Часто возникает необходимость строить такие решаю щие правила, однако при этом следует иметь в виду, что, вообще говоря, критерий минимизации размерности про странства является более грубым, чем критерий (15.9).
Как и всякие алгоритмы, система алгоритмов ОП имеет свои константы, которые необходимо задать при использовании той или иной программы. Величины этих констант следует задавать, исходя из класса вычисли тельных машин.
Г л а в а XVI
МЕ Т О Д С О П Р Я Ж Е Н Н Ы Х
НА П Р А В Л Е Н И Й
§1. Идея метода
Рассмотрим задачу о нахождении максимума квадра тичной функции
|
F (х) = ---- (ж, ^4ж) ф- Ъх, |
|
||
где |
X ж Ъ — и-мерные векторы |
евклидова |
пространства |
|
Е п, |
(х, Ах) — положительно определенная |
квадратичная |
||
форма, задаваемая матрицей А. |
|
VF (ж) |
функции F (х) |
|
Сначала заметим, что градиент |
||||
равен b — Ах и точка максимума |
функции может быть |
|||
найдена из уравнения |
|
|
|
|
|
Ъ — Ах = 0. |
|
|
|
Выводимые ниже алгоритмы |
позволяют отыскивать |
максимум, минуя решение системы линейных уравнений или получение обратной матрицы. Напротив, эти алгорит мы могут быть использованы для решения систем урав нений.
1. Рассмотрим сначала процесс, отнюдь не являющий ся алгоритмом для нахождения минимума квадратичной функции, но из которого легко следуют весьма эффек тивные алгоритмы — метод сопряженных градиентов и метод параллельных касательных.
Пусть х 0 — произвольная точка пространства Е п. Обо
значим g'1 — градиент функции F (х) |
в точке х0. Пусть |
Е г — одномерное гиперпространство, |
прямая, прохо |
дящая через ж0 в направлении gu т. е. иными словами, множество векторов вида х0 + Kg (— оо <; + оо).
374 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ
Найдем точку хъ в которой достигается условный мак симум функции F (х) на прямой Е ѵ Продолжим это по строение по индукции. Пусть уже построено /с-мерное гиперпространство E k и в нем найдена точка х к, в которой функция F (X) достигает условного максимума.
Обозначим gk+1 = Ъ —■A x k градиент функции F (х)
в точке x h. |
Примем, далее, за гиперпространство Е к+1 про |
странство, |
натянутое на E h и прямую, проходящую через |
х к в направлении gft+1. Пространство Е к+1 состоит из век |
|
торов вида |
|
|
У — х + |
|
|
(16.1) |
|
где X ЕЕ Е к, |
а скаляр |
Я пробегает |
значения |
от |
— оо до |
-ф оо. |
х к+1 — это точка, в которой F (х) |
|
|||
Наконец, |
достигает |
||||
условного максимума на пространстве Е к+1. |
Таким обра |
||||
зом, получаем такие последовательности: |
|
|
|||
|
g l |
§ 2 • g k |
g k +Ъ |
|
|
|
Et |
E t . : E k |
E k+и |
|
|
|
X i |
x 2 .. • Xk |
|
|
|
По индукции легко показывается, что гиперпростран ство E k может рассматриваться как множество векторов вида
|
|
|
к |
|
|
|
|
У = х0 + 2 |
hSi, |
|
|
|
|
|
і=1 |
|
|
где |
gi |
— градиенты |
функции |
F |
в точках х 0, . . . |
..., |
х к-г, |
а Я,г принимают любые действительные значения. |
|||
Отсюда, |
очевидно, следует, что E t CI Ej при i < / • |
||||
|
2. Из анализа известно, что если гладкая функция |
||||
достигает условного |
экстремума |
на |
некотором гиперпро |
||
странстве в точке X , |
то градиент функции в этой точке |
ортогонален гиперпространству. Применительно к наше му построению отсюда следует, что gk+1 ортогонален вся кому вектору вида х — у, где х жу принадлежат E k, т. е.
(gk+i, (%— У)) = 0 при J |
J E E h. |
(16.2) |
|
В частности, векторы |
х0 и х0 -f- gt |
при і |
к принадле |
жат E k в силу (16.1), |
откуда |
|
|
(**+і. gi) = 0 (i < |
к), |
|
§ 1. ИДЕЯ МЕТОДА |
375 |
|
а следовательно, и вообще |
|
|
(Si, Si) = |
0 при і Ф j. |
(16.3) |
Отсюда следует, что если gh+x ф 0, то вектор gk+1 невыра зим линейно через gx, . . ., gh и поэтому пространство E k+1 имеет размерность на 1 большую, чем E h.
Таким образом, размерность пространства Е к последо вательно нарастает с ростом к до тех пор, пока gh+x не обратится в нуль. Но последнее означает, что в точке x h достигнут уже абсолютный максимум F (х). Действитель но, поскольку F (X) — выпуклая гладкая функция, то обращение в нуль ее градиента является необходимым и достаточным условием максимума.
После обращения в нуль gh+x процесс зацикливается,
потому что при этом Е к+1 |
совпадает с Ек, соответственно |
|||||||||||
хк+х — с |
х к и |
т. д. |
Поэтому |
в |
дальнейшем |
будем |
||||||
считать, |
что процесс |
обрывается, |
как |
только |
gk+t об |
|||||||
ратится |
в |
нуль, |
и |
тем |
самым |
будет |
установлено, |
что |
||||
точка х к, найденная |
на предыдущем шаге, доставляет |
|||||||||||
абсолютный |
максимум |
F (х) во |
всем |
пространстве |
Е п. |
|||||||
В |
то же |
время |
это |
обязательно |
должно произойти |
при |
||||||
к |
п, так как если при к < п градиент gh не обращается |
|||||||||||
в нуль, |
то |
размерность |
гиперпространства Е к, увеличи |
ваясь каждый раз на 1, на п-м шаге достигнет размерно сти всего пространства Е п, т. е. Е к совпадает с Е п, и тем самым условный максимум на Е к, естественно, совпадет
с абсолютным.
Рассмотренный процесс, конечно, не является удоб ным алгоритмом, для нахождения максимума, так как формально на каждом шаге требуется находить условный максимум F (х) в пространствах последовательно нара стающей размерности вплоть до полной размерности всего пространства. Однако оказывается, что в действительно сти можно искать условный максимум на каждом шаге в гиперпространстве размерности 2, т. е. на обыкновенных двумерных гиперплоскостях, или даже в гиперпростран стве размерности 1, т. е. на прямой.
3.Для обоснования этого положения установим сле
дующие факты. Обозначим |
через у к (к |
1) вектор |
||
х к _ |
x h_u т. е. смещение от условного максимума в E h-X, |
|||
к условному максимуму в Е к. |
|
(16.4) |
||
а) |
Уи Ф |
О- |
||
|
376 ГЛ. XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЯ
В самом деле, процесс продолжается лишь до тех пор, пока gh не обратится в нуль. Поэтому достаточно показать
что при |
gk Ф 0 x h ф Xk-V Поскольку градиент |
функции |
|||
F (X) в точке не равен нулю, функция возрастает при дви |
|||||
жении вдоль прямой |
+ Kgh из точки |
j по крайней |
|||
мере при малых А,)>0. Следовательно, на этой прямой есть |
|||||
точки, в которых F (х) больше, |
чем F (хкф . Но эта прямая |
||||
принадлежит E k и, |
следовательно, max F (х) и |
подавно |
|||
больше, |
чем F {хкф , |
т. е. |
|
|
|
|
|
Е(хк) ф Е ( х кф . |
|
(16.5) |
|
Отсюда ясно, что х к Ф x h^x и (16.4) верно. Из (16.5) также |
|||||
следует, |
что x k ф E h_v |
|
|
|
|
б) |
Векторы Уі Т&Уі при і Ф j ортогональны относитель |
||||
но матрицы А, г. е. |
|
|
|
|
|
|
(Уи АУі) = 0 при г ф j |
|
(16.6) |
||
Поскольку матрица А симметрична, |
|
|
|||
|
{Уі, Ayj) = |
{уj, Ayi). |
|
|
|
Поэтому |
для определенности |
будем считать, что j ф і. |
|||
По определению |
|
|
|
|
{Уи Ayj) = (г/г, A (xj — х3ф).
После очевидного преобразования получим
(Уі, Ayj) = (Уі , (Axj — Ъ)) — (Уі, (Axj-j — b)),
но для любого к
Sh+l ^ AXfc,
поэтому
(Уі, Ayj) = (Уі, gj) — (Уі, gj+1).
Далее, вектор yt = Xi — жг_х есть разность двух векторов из Е і, и так как при г < /' Е { а Е ^ г, можно применить соотношение (16.2)
{Уи gj) = (fa - Xi-i), gj) = О
и
ІУі>g}+1) ~ {{xi |
Xi-j), gj+i) = 0. |
Окончательно,
(Уi, Ayj) = 0 при i Ф j.