Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 188

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

І26 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

§ 4. Критерий Байеса

Пусть априорные сведения о природе задач, на кото­ рые рассчитывается алгоритм обучения, задаются как ап­ риорная вероятность тех или иных задач. В этом случае теория статистических решений предлагает метод построе­ ния оптимального алгоритма обучения в смысле средне­ го качества по ансамблю задач, т. е. метод минимизации критерия Байеса

ДвміесаИ) = 2 Рапр(Г)'Я/(А Т ) .

т

Следующая схема реализует оптимальную по критерию

Байеса процедуру обучения.

 

 

 

. .

1.

Пусть дана обучающая последовательность

. . . ,

х ь

Wj. По этой

последовательности

для

каждой

задачи Т

вычисляется апостериорная вероятность Р аП0ст (Т )

того,

что алгоритм

столкнулся именно с этой задачей:

 

 

 

 

 

г

 

 

 

 

 

 

 

^ ап р ('О

П

Р Т (х і> toi)

 

 

 

 

Р а п о с т ( Г )

=

---------------- Щ ------------------

,

 

 

 

 

 

21 -^апр Н )

П

(жі> ыг)

 

 

 

 

 

 

Т

г=1

 

 

 

где Рапр ( Т ) — априорная вероятность задачи Т .

Здесь Рт {х, о) — распределение, соответствующее за­

даче

Т .

 

2. Для каждой ситуации х вычисляется апостериор­

ная

вероятность того,

что она будет отнесена (учителем)

к классу со:

 

 

Р апост ( Ь) \ х)

S Рт (® |ж) Р апост ( Т).

 

 

Т

3. Наконец, строится решающее правило F (х), ра­ ботающее следующим образом:

Ж-, /V _ /4» если Рапост (1 W >

0,5,

t

\0, если Р ап ост (1И <

0,5.

Несмотря на всю привлекательность байесовой стра­ тегии обучения, она оказывается практически неосущест­ вимой, так как, за исключением простейших случаев, приводит к чрезвычайно громоздким вычислениям. Кроме


§ 5. УПОРЯДОЧЕНИЕ КЛАССОВ РЕШАЮЩИХ ПРАВИЛ 127

того, сведения об априорной вероятности различных за­ дач весьма расплывчаты, поэтому точное следование оп­ тимальной по Байесу процедуре'может оказаться нецелесо­ образным. Представляют интерес «квазибайесовы» про­ цедуры, которые сохраняют ее ценные свойства и не столь громоздки.

Необходимо отметить, что, в отличие от других приме­ нений байесовой процедуры, в задачах распознавания об­ разов априорные сведения о задачах, которые предстоит решать, существенны и от них сильно зависит выбираемое решающее правило. В частности, можно показать, что эффективно могут работать лишь алгоритмы, рассчитан­ ные на достаточно узкий класс задач по сравнению со все­ ми возможными. Поэтому, для того чтобы байесова стра­ тегия была эффективной, необходимы такие априорные вероятности задач, чтобы огромное большинство задач было в совокупности маловероятно, а ничтожное мень­ шинство образовывало множество, вероятность которого близка к единице.

§ 5. Упорядочение классов решающих правил

Последнее замечание предыдущего параграфа можно записать следующим образом. Пусть Q — множество всех возможных задач. Тогда из этого множества может быть выделена система вложенных подмножеств

<?і С <?2 С ... С Qn С Q

( 6 . 1 )

такая, что вероятность Р (Qt) встретить задачу из Qt об­ разует систему неравенств

р (Ql) < Р т < ~ . < Р (Qn) < 1.

(6 .2 )

Суть замечания состоит в том, что при переходе от Qt к Qi+i количество задач должно резко возрастать, в то вре­ мя как величины

АРі = Р (Qi+1) - Р (Qt)

монотонно уменьшаются.

Задание системы вложенных множеств (6.1) и вероят­ ностей (6 .2 ) составляют априорные сведения о тех зада­ чах, которые предстоит решать.

128 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Огрубление байесовой стратегии обучения мы начнем с того, что будем использовать априорную информацию, заданную не двумя условиями (6 .1 ) и (6 .2 ), а одним усло­ вием (6 .1 ), полагая, что АP t уменьшаются. Особенностью байесовой стратегии является то, что она с большим весом

учитывает

гипотезы, априори

более вероятные. Поэтому,

учитывая,

что АP t монотонно

уменьшаются, следующую

стратегию можно понимать как некоторую квазибайесо­ ву стратегию.

К обучающей последовательности применяется сна­ чала алгоритм, рассчитанный на задачи из класса Qx. Только в том случае, если он дает неудовлетворительные результаты, применяется алгоритм, рассчитанный на задачи из класса Q2, и т. д.

Назовем такую стратегию методом упорядоченной ми­

нимизации

риска.

этого метода такова. В классе ре­

Схема

реализации

шающих правил S вводится упорядочение, т. е. строится

система вложенных множеств

 

 

S x С

S 2d ...

С SN = S.

Затем в классе S x ищется

правило, минимизирующее

эмпирический риск. Если найденное решающее правило оценивается как неудовлетворительное, то ищется пра­ вило, минимизирующее эмпирический риск в классе S 2, и т. д. Процедура поиска оканчивается, когда будет най­ дено удовлетворительное решающее правило.

Заметим, что решения, полученные методом упорядо­ ченной минимизации риска, вообще говоря, отличаются от решений, полученных методом минимизации эмпири­ ческого риска.

В первом случае выбирается правило, минимизирую­ щее эмпирический риск лишь в классе функций S t d S, в то время как во втором случае правило минимизирует эмпирический риск в S.

Метод упорядоченной минимизации риска удобно рас­ сматривать как двухуровневую процедуру обучения. На первом уровне к обучающей последовательности приме­ няется N алгоритмов А г, . . ., Ajy, каждый из которых выбирает решающее правило, минимизирующее эмпи­ рический риск в классах S t. На втором уровне из N ото­



§ 6. О К РИ ТЕРИ Я Х ВЫ БОРА

129

бранных решающих правил выбирается то, которое ми­ нимизирует заданный критерий выбора*).

Для конструктивного задания алгоритмов метода упо­ рядоченной минимизации риска необходимо определить:

1.Каков критерий выбора решающего правила (т. е. задать алгоритм второго уровня).

2.Как вводить упорядочение класса решающих пра­ вил S.

Теория метода упорядоченной минимизации риска должна ответить на вопрос, какова эффективность мето­ да (например, по сравнению с методом минимизации эм­ пирического риска).

§ 6 . О критериях выбора

Известны две процедуры второго уровня. Обе они существенно используют то, что на втором уровне выбор решающего правила производится из небольшого числа правил (порядка десятков или сотен) и поэтому пробле­ ма равномерной сходимости здесь пе стоит остро. Первая идея связана с использованием оценки качества, полу­ ченной в главе V, (5.11)

^*(0 ^ Рэмп (і) 4" 2

ni (ln 21 ln и{ + 1) — ln т)/5

 

(6 .3 )

Г2Г1

 

где Рэмп (г) — величина

минимума эмпирического

рис­

ка в классе S t, nt — показатель емкости класса £ г.

 

Величина

 

 

 

 

 

ni (ln 21 — ln а. 4~ 1) — ln т|/5

 

 

 

е (г) = 2

 

 

 

 

задает

доверительный интервал для

класса S г

и

моно­

тонно

растет с номером

і. Напротив,

величина

Р 8МП(і)

не возрастает с ростом і, поскольку эмпирически опти­

мальное правило из Si содеряштся

во всех Sj

(/ )> і).

В качестве критерия выбора может

быть взята

правая

*) Разумеется, в практических реализациях метода упорядо­ ченной минимизации риска эти два этапа могут сливаться, что, однако, не меняет существа дела.

5 В. Н. Вапник, А. Я. Червонешшс


130 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

часть оценки, т. е.

 

к (а) -

(а) + 2

. (6.4)

Правило, минимизирующее (6.4), обеспечивает мини­ мальную гарантированную величину вероятности оши­ бочной классификации.

Второй способ выбора решающего правила основан на использовании следующего приема оценивания, кото­ рый получил название скользящий контроль*). Идея этого приема такова: для того чтобы оценить качество работы каждого алгоритма низшего уровня, процедура второго уровня выделяет из обучающей последователь­ ности один элемент и предлагает каждому из алгоритмов обучиться на оставшейся части последовательности и классифицировать выделенный элемент, затем выде­ ляется другой элемент (а первый возвращается) и снова проводится обучение и экзамен на этом одном элементе; и так поочередно перебираются все элементы обучающей последовательности. После этого подсчитывается, сколь­ ко раз каждый алгоритм ошибался при классификации выделенных элементов. Отношение числа ошибочных классификаций к числу примеров, выделенных для обу­ чения, и оценивает качество решающего правила, вы­ бранного каждым из N алгоритмов.

§ 7. Несмещенность оценки скользящего контроля

Покажем, что оценки скользящего контроля являют­ ся несмещенными, т. е. математическое ожидание ре­ зультата контроля равно истинной величине качества. Для удобства обозначим через

F (X; хъ (ох; . . . ; х и сог)

решающее правило, найденное по выборке длины I, через

Р ( ^ і і а>1, • • • ) (üi)

= § (сі ”- Fl(*г, *^1»eij, . . • , Xj, сог))а dP (x, со)

*) Процедура скользящего контроля, вероятно, впервые была предложена М. Н. Вайнцвайгом.

I 1. НЕСМЕЩЕННОСТЬ ОЦЕНКИ СКОЛЬЗЯЩЕГО КОНТРОЛЯ 131

качество

решающего

правила,

найденного

по

выборке

 

CÉ>1> • • • > ®Z* (Bz-

 

 

 

 

 

 

 

 

 

Кроме того, введем обозначения

 

 

 

Рі

= И ••• I Р («1, <йі; •

• •;

х и

(oz) d P (arlf

(Bi)...

 

 

 

 

I

 

 

 

 

 

 

...

oz),

 

 

 

 

 

 

 

 

 

 

 

 

 

p =

4

" 2

К — P(*w *i.

 

• • •; хц « 6

• • •; *ii «г))2-

 

 

 

i=l

 

 

 

 

 

 

 

 

 

Здесь

a:lf

а>ц . .;

i,,

со,;

. . . ;

x h o ,

выборка, по­

лученная

из

хг, свх;

. . .;

ат|,

со,

исключением

элемента

Х і ,

(Of -

 

 

показать,

что

 

 

 

 

 

 

Нам надо

 

 

 

 

 

Мр = Рі-ь

где М — символ математического ожидания. Доказатель­ ством этого утверждения является следующая цепочка преобразований:

Мр =

ÜÜ • • • ÜТ" 2

К — F (*iJ хъ «К . . .

 

 

 

г—1

 

 

..

.; xit сві; ...;

x lt со,))2dP (xlt cox) . . . dP (xh со,) =

 

 

г

 

 

 

= ^

J -

2

Р (* ІІ *1»

®1» • • м Х і , (В$, . . . , X i , CB,)) X

 

X dP (Xi, со,)dP (zcj, (Bx). .. dP (xt, св,) =

 

z

 

 

 

= ^

7 - 2

P (жі> ®і» • • •;

• • •; */> ®z)

1 »®i) • • •

 

 

 

 

 

z

•. • dp (*,_1, CBj_i)dP (xi+1, CBi+x)... d.P(7 , CB,) =

J- 2Pi-i=*Pi-i*

Однако свойство несмещенности оценки недостаточно пол­ но характеризует оценку. Необходимо знать еще и дис­ персию оценки р. В случае, когда известна дисперсия оценки скользящего контроля, можно оценить сверху качество решающего правила:

р < ѵ с + 8 (rj),

(6.5)

5*