Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 172
Скачиваний: 4
70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ
Обозначим
|
тдо = 2 |
|
|
|
+ (х —;о2- |
|
|
|
'■у. |
|
|
|||
|
|
г= 1 |
|
|
|
|
|
|
|
|
|
|
||
Тогда |
интеграл (3.22) перепишется в виде |
|
|
|
||||||||||
1 |
|
00 00 |
|
,_і |
|
|
|
|
|
|
|
|
|
|
|
С С |
|
у 1 1 |
• |
ехр |
|
|
|
йг/йр = |
|
|
|
||
*+і |
3 3 7 + 2 /и |
|
|
|
|
|
|
|||||||
(2я) |
|
|
^ Д О |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
у |
|
|
|
|
|
|
|
|
|
1 |
|
|
Ф' |
00 |
1 |
||
|
|
|
|
|
|
|
|
|
С |
2 |
||||
|
|
|
|
|
|
|
|
1+1 |
|
7+2(1,) J |
У |
Ч у . |
||
Обозначим |
|
|
|
|
|
(2я) |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
оо |
у |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
. Г л |
Я(і- 1 |
|
|
|
|
||
|
|
с ^ |
|
— |
|
Ч-і |
|
|
У1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
(2я) |
2 |
|
|
|
|
|
|
|
|
|
где С (I) не зависит ни от |
р, ни от о. |
|
в виде |
|
|
|||||||||
Итак, |
интеграл |
может |
быть представлен |
|
|
|||||||||
|
|
|
|
|
= „,!> |
$ |
dp |
|
|
|
|
|
(3.23) |
|
|
|
|
|
|
|
j L |
^ (Ю ■ |
|
|
|
|
|||
Преобразуем |
теперь |
выражение |
Т (р). |
Для |
этого |
заметим, |
что |
|||||||
|
|
I |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
(xi ~ fO2 = |
lst + 1(Д - |
хъ?. |
|
|
|
|||||
|
|
I |
|
|
|
I |
|
|
|
|
|
|
|
|
где х в = - ^ |
- |
2 x i ’ |
al = |
- J - |
2 ( ж г |
~ ж э ) 2 - |
Соответственно |
|
||||||
|
|
і—1 |
|
|
|
г—I |
|
|
|
|
|
|
|
|
|
Т (p) = |
|
h l |
+ |
I (p |
— xaf |
+ |
(X — p)2. |
|
|
||||
Положим |
теперь |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
XrJ+X |
|
|
|
|
|
|
||
|
|
|
|
|
|
l + l |
|
|
|
|
|
|
||
Тогда T (p) |
может |
|
быть |
представлено в виде |
|
|
|
Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).
s 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 71
Запишем теперь интеграл I в виде
ф |
|
|
Г(*) = с(9 § |
-L |
“ |
[ к + т р г ( * - *8)3 + (* - |
и)*(I +1)] 2 |
|
|
оо |
|
|
dz |
|
1 (х —хаУ |
Е Г $ |
*2) ' |
2 — оо (1 + |
||
V |
|
|
! + 1 аэ •+• (1 + 1)»
Заметим, что подынтегральное выражение не зависит от парамет
ров. Таким образом, оказывается, |
что |
|
|
с' (I) |
с" (Z, сэ) |
(—1 |
(3.24) |
І(х) |
|
||
1(х — х9)г 1 i-2i |
(х — хэ)2 |
|
|
LT+T+ (z+ D2J |
|
|
|
Нам остается нормировать к единице выражение (3.24):
1 (х)
Р(х)
(3.25)
j I (х) dx
Известно [57], что интеграл в знаменателе (3.25) равен следующему выражению:
Г |
? |
|
o"(l,ea)dx |
|
|
\ J { x ) d x = \ |
Г |
(* — ха? 1 |
г- i |
|
|
|
|
|
|||
|
|
L1+ ( ■ + « < |
2 |
|
|
|
|
|
|
||
|
|
|
с"(1,в9 ) Ѵ 1 + 1о8Г (4-) Г (4-1 |
||
|
|
|
|
г— 1 |
|
Обозначим |
|
|
|
|
|
Е(1) |
/1 + 1 г ^ М - у - 1) /я У і+ і г (4- і |
||||
|
г -1 ) |
г— 1 |
|||
|
Т [ |
^ |
) |
Г і ~ 2 |
“ |
Таким |
образом, |
окончательно |
находим |
|
|
|
Р(*) |
1 |
1 |
• |
|
|
£(0 + |
(Ж—Жэ)2 |
|||
|
|
|
|
1 |
2 |
(1 + 1)8
Г л а в а IV
Р Е К У Р Р Е Н Т Н Ы Е А Л Г О Р И Т М Ы О Б У Ч Е Н И Я Р А С П О З Н А В А Н И Ю О Б Р А З О В
§ 1. Метод стохастической аппроксимации
Метод стохастической аппроксимации применительно к задаче о минимизации среднего риска состоит в том, что для отыскания минимума по а функционала
R (а) = J Q (z, а) dP (z)
используется |
рекуррентная |
процедура |
|
||
а (і) = |
а (і — 1) — у (і)д (ztJTa (і — 1)). |
(4.1) |
|||
Теория этого метода устанавливает, когда (при каких |
|||||
Q (z, а), q (z, а), |
у (і)) рекуррентная процедура приводит |
||||
к успеху. Оказывается, итерационный процесс (4.1) |
при |
||||
водит к успеху (см. главу IX), если: |
по а |
||||
вектор-функция q (z, а) |
является градиентом |
||||
функции Q (z, |
а) |
при фиксированном z (или обобщенным |
|||
градиентом *) этой^функции); |
|
||||
последовательность |
положительных чисел у (1), . . . |
||||
. . ., ѵ*(0, • • • |
такова, |
что |
|
|
|
|
2 |
Т (*) = |
°°» |
2 т2(і) < ° ° |
|
|
І=1 |
|
|
і=1 |
|
*) Обобщенным градиентом функции F (х) называется векторфункция / (х), которая определяет некоторый вектор, совпадающий с градиентом функции F (х) в тех точках, где градиент существует, и которая специально определяется в тех точках, где градиент не существует. Обобщенный градиент может быть определен нетдля всех функций F (х). Точное определение см. в главе IX.
$ 1. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ |
73 |
(примером такой последовательности может служить гар-
моническии ряд |
1 |
1 |
1 |
\ |
и |
, -г-, |
П |
I |
|
|
О |
Если при любом фиксированном z функция Q (z, а) одноэкстремальна по а, то с помощью процедуры (4.1) может быть достигнут минимум функционала R (а). Если же функция не одноэкстремальна, то можно га рантировать лишь достижение локального минимума (под робнее см. главу IX).
ф
1I I I I
I
а |
а* |
â |
|
Рис. 6. |
|
Попытка применить метод стохастической аппрокси мации непосредственно для решения задачи обучения распознаванию образов к успеху не приводит. Функция потерь этой задачи
Ф = (о) — F (х, а))2 |
(4.2) |
такова, что поиск нужного значения а этим методом не возможен. На рис. 6 приведена функция потерь при фик сированных значениях со и ж. Во всех точках прямой, кроме точки а = а*, градиент этой функции равен нулю, а в точке а = а* его не существует. Отыскание решения для такой функции потерь должно проходить согласно процедуре (4.1). В нашем случае вектор q (z, а) либо равен нулю, либо не определен. Таким образом, проце дура (4.1) оказывается невозможной.
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
Идея применения метода стохастической аппроксима ции для решения задачи обучения распознаванию обра зов связана с заменой функции потерь (4.2) другой функци ей, такой, чтобы по ней была возможна организация рѳ-
74 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ
куррентной процедуры. Замена функции потерь, по суще ству, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других — непри емлема, так как дает результаты, значительно отличаю щиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обу чения распознаванию образов — детерминистскую поста новку и стохастическую *). В детерминистской постанов ке предполагается, что среди характеристических функ ций F (X, а) есть такая, которая идеально решает задачу классификации, т. е. существует такое а = а 0, что Р (а0) = 0- Стохастическая постановка предусма тривает случай, когда идеальное решение задачи не возможно.
Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции F (X, а 0), которая обеспечивает безошибочное разделение классов, а с другой стороны, для введенной функции потерь может быть организована рекуррентная процедура поиска.
В качестве примера вновь обратимся к классу решаю щих правил персептрона. Вспомним, что для перспептрона Розенблатта может быть выписан функционал, миними зация которого составляет суть задачи обучения. В коор динатах спрямляющего пространства функционал имеет вид
|
ТП |
Р ( Ь ) = |
ХіУ^ dP (<и, у). |
Предположим, что существует точное решение задачи распознавания, т. е. существует такое X = Х°, что Р (Х°) = 0, и, кроме того, для всех векторов у первого класса справедливо
(Ь°, у ) > б > О,
а для векторов второго класса
______________ |
(Ь°, У) < - в . |
*) Термины здесь выбраны неудачно, так как и в той и в другой постановке задача остается статистической. Однако эти термины широко распространены и поэтому будем их придерживаться.