Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 172

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

70 ГЛ. III. МЕТОДЫ ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ

Обозначим

 

тдо = 2

 

 

 

+ ;о2-

 

 

 

'■у.

 

 

 

 

г= 1

 

 

 

 

 

 

 

 

 

 

Тогда

интеграл (3.22) перепишется в виде

 

 

 

1

 

00 00

 

,_і

 

 

 

 

 

 

 

 

 

 

 

С С

 

у 1 1

ехр

 

 

 

йг/йр =

 

 

 

*+і

3 3 7 + 2

 

 

 

 

 

 

(2я)

 

 

^ Д О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у

 

 

 

 

 

 

 

 

1

 

 

Ф'

00

1

 

 

 

 

 

 

 

 

 

С

2

 

 

 

 

 

 

 

 

1+1

 

7+2(1,) J

У

Ч у .

Обозначим

 

 

 

 

 

(2я)

2

 

 

 

 

 

 

 

 

 

 

 

 

оо

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. Г л

Я(і- 1

 

 

 

 

 

 

с ^

 

 

Ч-і

 

 

У1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2я)

2

 

 

 

 

 

 

 

 

где С (I) не зависит ни от

р, ни от о.

 

в виде

 

 

Итак,

интеграл

может

быть представлен

 

 

 

 

 

 

 

= „,!>

$

dp

 

 

 

 

 

(3.23)

 

 

 

 

 

 

j L

^ (Ю ■

 

 

 

 

Преобразуем

теперь

выражение

Т (р).

Для

этого

заметим,

что

 

 

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

(xi ~ fO2 =

lst + 1(Д -

хъ?.

 

 

 

 

 

I

 

 

 

I

 

 

 

 

 

 

 

 

где х в = - ^

-

2 x i ’

al =

- J -

2 ( ж г

~ ж э ) 2 -

Соответственно

 

 

 

і—1

 

 

 

г—I

 

 

 

 

 

 

 

 

 

Т (p) =

 

h l

+

I (p

xaf

+

(X — p)2.

 

 

Положим

теперь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XrJ+X

 

 

 

 

 

 

 

 

 

 

 

 

l + l

 

 

 

 

 

 

Тогда T (p)

может

 

быть

представлено в виде

 

 

 

Т (Р) = К + - Щ Г Г (* - *а)2 + (* = Ю2 (* + 1).



s 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 71

Запишем теперь интеграл I в виде

ф

 

 

Г(*) = с(9 §

-L

[ к + т р г ( * - *8)3 + (* -

и)*(I +1)] 2

 

 

оо

 

 

dz

1 (х —хаУ

Е Г $

*2) '

2 — оо (1 +

V

 

 

! + 1 аэ •+• (1 + 1)»

Заметим, что подынтегральное выражение не зависит от парамет­

ров. Таким образом, оказывается,

что

 

 

с' (I)

с" (Z, сэ)

(—1

(3.24)

І(х)

 

1(х — х9)г 1 i-2i

(х — хэ)2

 

LT+T+ (z+ D2J

 

 

 

Нам остается нормировать к единице выражение (3.24):

1 (х)

Р(х)

(3.25)

j I (х) dx

Известно [57], что интеграл в знаменателе (3.25) равен следующему выражению:

Г

?

 

o"(l,ea)dx

 

 

\ J { x ) d x = \

Г

(* — ха? 1

г- i

 

 

 

 

 

 

L1+ ( ■ + « <

2

 

 

 

 

 

 

 

 

с"(1,в9 ) Ѵ 1 + 1о8Г (4-) Г (4-1

 

 

 

 

г— 1

 

Обозначим

 

 

 

 

Е(1)

/1 + 1 г ^ М - у - 1) /я У і+ і г (4- і

 

г -1 )

г— 1

 

Т [

^

)

Г і ~ 2

Таким

образом,

окончательно

находим

 

 

Р(*)

1

1

 

£(0 +

(Ж—Жэ)2

 

 

 

 

1

2

(1 + 1)8


Г л а в а IV

Р Е К У Р Р Е Н Т Н Ы Е А Л Г О Р И Т М Ы О Б У Ч Е Н И Я Р А С П О З Н А В А Н И Ю О Б Р А З О В

§ 1. Метод стохастической аппроксимации

Метод стохастической аппроксимации применительно к задаче о минимизации среднего риска состоит в том, что для отыскания минимума по а функционала

R (а) = J Q (z, а) dP (z)

используется

рекуррентная

процедура

 

а (і) =

а (і — 1) — у (і)д (ztJTa (і — 1)).

(4.1)

Теория этого метода устанавливает, когда (при каких

Q (z, а), q (z, а),

у (і)) рекуррентная процедура приводит

к успеху. Оказывается, итерационный процесс (4.1)

при­

водит к успеху (см. главу IX), если:

по а

вектор-функция q (z, а)

является градиентом

функции Q (z,

а)

при фиксированном z (или обобщенным

градиентом *) этой^функции);

 

последовательность

положительных чисел у (1), . . .

. . ., ѵ*(0, • • •

такова,

что

 

 

 

2

Т (*) =

°°»

2 т2(і) < ° °

 

 

І=1

 

 

і=1

 

*) Обобщенным градиентом функции F (х) называется векторфункция / (х), которая определяет некоторый вектор, совпадающий с градиентом функции F (х) в тех точках, где градиент существует, и которая специально определяется в тех точках, где градиент не существует. Обобщенный градиент может быть определен нетдля всех функций F (х). Точное определение см. в главе IX.


$ 1. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ

73

(примером такой последовательности может служить гар-

моническии ряд

1

1

1

\

и

, -г-,

П

I

 

О

Если при любом фиксированном z функция Q (z, а) одноэкстремальна по а, то с помощью процедуры (4.1) может быть достигнут минимум функционала R (а). Если же функция не одноэкстремальна, то можно га­ рантировать лишь достижение локального минимума (под­ робнее см. главу IX).

ф

1I I I I

I

а

а*

â

 

Рис. 6.

 

Попытка применить метод стохастической аппрокси­ мации непосредственно для решения задачи обучения распознаванию образов к успеху не приводит. Функция потерь этой задачи

Ф = (о) — F (х, а))2

(4.2)

такова, что поиск нужного значения а этим методом не­ возможен. На рис. 6 приведена функция потерь при фик­ сированных значениях со и ж. Во всех точках прямой, кроме точки а = а*, градиент этой функции равен нулю, а в точке а = а* его не существует. Отыскание решения для такой функции потерь должно проходить согласно процедуре (4.1). В нашем случае вектор q (z, а) либо равен нулю, либо не определен. Таким образом, проце­ дура (4.1) оказывается невозможной.

§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов

Идея применения метода стохастической аппроксима­ ции для решения задачи обучения распознаванию обра­ зов связана с заменой функции потерь (4.2) другой функци­ ей, такой, чтобы по ней была возможна организация рѳ-

74 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

куррентной процедуры. Замена функции потерь, по суще­ ству, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других — непри­ емлема, так как дает результаты, значительно отличаю­ щиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обу­ чения распознаванию образов — детерминистскую поста­ новку и стохастическую *). В детерминистской постанов­ ке предполагается, что среди характеристических функ­ ций F (X, а) есть такая, которая идеально решает задачу классификации, т. е. существует такое а = а 0, что Р (а0) = 0- Стохастическая постановка предусма­ тривает случай, когда идеальное решение задачи не­ возможно.

Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции F (X, а 0), которая обеспечивает безошибочное разделение классов, а с другой стороны, для введенной функции потерь может быть организована рекуррентная процедура поиска.

В качестве примера вновь обратимся к классу решаю­ щих правил персептрона. Вспомним, что для перспептрона Розенблатта может быть выписан функционал, миними­ зация которого составляет суть задачи обучения. В коор­ динатах спрямляющего пространства функционал имеет вид

 

ТП

Р ( Ь ) =

ХіУ^ dP (<и, у).

Предположим, что существует точное решение задачи распознавания, т. е. существует такое X = Х°, что Р (Х°) = 0, и, кроме того, для всех векторов у первого класса справедливо

(Ь°, у ) > б > О,

а для векторов второго класса

______________

(Ь°, У) < - в .

*) Термины здесь выбраны неудачно, так как и в той и в другой постановке задача остается статистической. Однако эти термины широко распространены и поэтому будем их придерживаться.