Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 188
Скачиваний: 4
І26 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА
§ 4. Критерий Байеса
Пусть априорные сведения о природе задач, на кото рые рассчитывается алгоритм обучения, задаются как ап риорная вероятность тех или иных задач. В этом случае теория статистических решений предлагает метод построе ния оптимального алгоритма обучения в смысле средне го качества по ансамблю задач, т. е. метод минимизации критерия Байеса
ДвміесаИ) = 2 Рапр(Г)'Я/(А Т ) .
т
Следующая схема реализует оптимальную по критерию
Байеса процедуру обучения. |
|
|
|
. . |
||||
1. |
Пусть дана обучающая последовательность |
|||||||
. . . , |
х ь |
Wj. По этой |
последовательности |
для |
каждой |
|||
задачи Т |
вычисляется апостериорная вероятность Р аП0ст (Т ) |
|||||||
того, |
что алгоритм |
столкнулся именно с этой задачей: |
||||||
|
|
|
|
|
г |
|
|
|
|
|
|
|
^ ап р ('О |
П |
Р Т (х і> toi) |
|
|
|
|
Р а п о с т ( Г ) |
= |
---------------- Щ ------------------ |
, |
|
||
|
|
|
|
21 -^апр Н ) |
П |
(жі> ыг) |
|
|
|
|
|
|
Т |
г=1 |
|
|
|
где Рапр ( Т ) — априорная вероятность задачи Т .
Здесь Рт {х, о) — распределение, соответствующее за
даче |
Т . |
|
2. Для каждой ситуации х вычисляется апостериор |
||
ная |
вероятность того, |
что она будет отнесена (учителем) |
к классу со: |
|
|
|
Р апост ( Ь) \ х) |
— S Рт (® |ж) Р апост ( Т). |
|
|
Т |
3. Наконец, строится решающее правило F (х), ра ботающее следующим образом:
Ж-, /V _ /4» если Рапост (1 W > |
0,5, |
|
t |
\0, если Р ап ост (1И < |
0,5. |
Несмотря на всю привлекательность байесовой стра тегии обучения, она оказывается практически неосущест вимой, так как, за исключением простейших случаев, приводит к чрезвычайно громоздким вычислениям. Кроме
§ 5. УПОРЯДОЧЕНИЕ КЛАССОВ РЕШАЮЩИХ ПРАВИЛ 127
того, сведения об априорной вероятности различных за дач весьма расплывчаты, поэтому точное следование оп тимальной по Байесу процедуре'может оказаться нецелесо образным. Представляют интерес «квазибайесовы» про цедуры, которые сохраняют ее ценные свойства и не столь громоздки.
Необходимо отметить, что, в отличие от других приме нений байесовой процедуры, в задачах распознавания об разов априорные сведения о задачах, которые предстоит решать, существенны и от них сильно зависит выбираемое решающее правило. В частности, можно показать, что эффективно могут работать лишь алгоритмы, рассчитан ные на достаточно узкий класс задач по сравнению со все ми возможными. Поэтому, для того чтобы байесова стра тегия была эффективной, необходимы такие априорные вероятности задач, чтобы огромное большинство задач было в совокупности маловероятно, а ничтожное мень шинство образовывало множество, вероятность которого близка к единице.
§ 5. Упорядочение классов решающих правил
Последнее замечание предыдущего параграфа можно записать следующим образом. Пусть Q — множество всех возможных задач. Тогда из этого множества может быть выделена система вложенных подмножеств
<?і С <?2 С ... С Qn С Q |
( 6 . 1 ) |
такая, что вероятность Р (Qt) встретить задачу из Qt об разует систему неравенств
р (Ql) < Р т < ~ . < Р (Qn) < 1. |
(6 .2 ) |
Суть замечания состоит в том, что при переходе от Qt к Qi+i количество задач должно резко возрастать, в то вре мя как величины
АРі = Р (Qi+1) - Р (Qt)
монотонно уменьшаются.
Задание системы вложенных множеств (6.1) и вероят ностей (6 .2 ) составляют априорные сведения о тех зада чах, которые предстоит решать.
128 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА
Огрубление байесовой стратегии обучения мы начнем с того, что будем использовать априорную информацию, заданную не двумя условиями (6 .1 ) и (6 .2 ), а одним усло вием (6 .1 ), полагая, что АP t уменьшаются. Особенностью байесовой стратегии является то, что она с большим весом
учитывает |
гипотезы, априори |
более вероятные. Поэтому, |
учитывая, |
что АP t монотонно |
уменьшаются, следующую |
стратегию можно понимать как некоторую квазибайесо ву стратегию.
К обучающей последовательности применяется сна чала алгоритм, рассчитанный на задачи из класса Qx. Только в том случае, если он дает неудовлетворительные результаты, применяется алгоритм, рассчитанный на задачи из класса Q2, и т. д.
Назовем такую стратегию методом упорядоченной ми
нимизации |
риска. |
этого метода такова. В классе ре |
|
Схема |
реализации |
||
шающих правил S вводится упорядочение, т. е. строится |
|||
система вложенных множеств |
|
||
|
S x С |
S 2d ... |
С SN = S. |
Затем в классе S x ищется |
правило, минимизирующее |
эмпирический риск. Если найденное решающее правило оценивается как неудовлетворительное, то ищется пра вило, минимизирующее эмпирический риск в классе S 2, и т. д. Процедура поиска оканчивается, когда будет най дено удовлетворительное решающее правило.
Заметим, что решения, полученные методом упорядо ченной минимизации риска, вообще говоря, отличаются от решений, полученных методом минимизации эмпири ческого риска.
В первом случае выбирается правило, минимизирую щее эмпирический риск лишь в классе функций S t d S, в то время как во втором случае правило минимизирует эмпирический риск в S.
Метод упорядоченной минимизации риска удобно рас сматривать как двухуровневую процедуру обучения. На первом уровне к обучающей последовательности приме няется N алгоритмов А г, . . ., Ajy, каждый из которых выбирает решающее правило, минимизирующее эмпи рический риск в классах S t. На втором уровне из N ото
§ 6. О К РИ ТЕРИ Я Х ВЫ БОРА |
129 |
бранных решающих правил выбирается то, которое ми нимизирует заданный критерий выбора*).
Для конструктивного задания алгоритмов метода упо рядоченной минимизации риска необходимо определить:
1.Каков критерий выбора решающего правила (т. е. задать алгоритм второго уровня).
2.Как вводить упорядочение класса решающих пра вил S.
Теория метода упорядоченной минимизации риска должна ответить на вопрос, какова эффективность мето да (например, по сравнению с методом минимизации эм пирического риска).
§ 6 . О критериях выбора
Известны две процедуры второго уровня. Обе они существенно используют то, что на втором уровне выбор решающего правила производится из небольшого числа правил (порядка десятков или сотен) и поэтому пробле ма равномерной сходимости здесь пе стоит остро. Первая идея связана с использованием оценки качества, полу ченной в главе V, (5.11)
^*(0 ^ Рэмп (і) 4" 2 |
ni (ln 21 — ln и{ + 1) — ln т)/5 |
|
(6 .3 ) |
||
Г2Г1 |
|
||||
где Рэмп (г) — величина |
минимума эмпирического |
рис |
|||
ка в классе S t, nt — показатель емкости класса £ г. |
|
||||
Величина |
|
|
|
|
|
|
ni (ln 21 — ln а. 4~ 1) — ln т|/5 |
|
|
||
|
е (г) = 2 |
|
|
|
|
задает |
доверительный интервал для |
класса S г |
и |
моно |
|
тонно |
растет с номером |
і. Напротив, |
величина |
Р 8МП(і) |
не возрастает с ростом і, поскольку эмпирически опти
мальное правило из Si содеряштся |
во всех Sj |
(/ )> і). |
В качестве критерия выбора может |
быть взята |
правая |
*) Разумеется, в практических реализациях метода упорядо ченной минимизации риска эти два этапа могут сливаться, что, однако, не меняет существа дела.
5 В. Н. Вапник, А. Я. Червонешшс
130 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА
часть оценки, т. е. |
|
|
к (а) - |
(а) + 2 |
. (6.4) |
Правило, минимизирующее (6.4), обеспечивает мини мальную гарантированную величину вероятности оши бочной классификации.
Второй способ выбора решающего правила основан на использовании следующего приема оценивания, кото рый получил название скользящий контроль*). Идея этого приема такова: для того чтобы оценить качество работы каждого алгоритма низшего уровня, процедура второго уровня выделяет из обучающей последователь ности один элемент и предлагает каждому из алгоритмов обучиться на оставшейся части последовательности и классифицировать выделенный элемент, затем выде ляется другой элемент (а первый возвращается) и снова проводится обучение и экзамен на этом одном элементе; и так поочередно перебираются все элементы обучающей последовательности. После этого подсчитывается, сколь ко раз каждый алгоритм ошибался при классификации выделенных элементов. Отношение числа ошибочных классификаций к числу примеров, выделенных для обу чения, и оценивает качество решающего правила, вы бранного каждым из N алгоритмов.
§ 7. Несмещенность оценки скользящего контроля
Покажем, что оценки скользящего контроля являют ся несмещенными, т. е. математическое ожидание ре зультата контроля равно истинной величине качества. Для удобства обозначим через
F (X; хъ (ох; . . . ; х и сог)
решающее правило, найденное по выборке длины I, через
Р ( ^ і і а>1, • • • ) (üi) —
= § (сі ”- Fl(*г, *^1»eij, . . • , Xj, сог))а dP (x, со)
*) Процедура скользящего контроля, вероятно, впервые была предложена М. Н. Вайнцвайгом.
I 1. НЕСМЕЩЕННОСТЬ ОЦЕНКИ СКОЛЬЗЯЩЕГО КОНТРОЛЯ 131
качество |
решающего |
правила, |
найденного |
по |
выборке |
|||||||
|
CÉ>1> • • • > ®Z* (Bz- |
|
|
|
|
|
|
|
|
|||
|
Кроме того, введем обозначения |
|
|
|
||||||||
Рі |
= И ••• I Р («1, <йі; • |
• •; |
х и |
(oz) d P (arlf |
(Bi)... |
|
||||||
|
|
|
I |
|
|
|
|
|
|
... |
oz), |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
p = |
4 |
" 2 |
К — P(*w *i. |
|
• • •; хц « 6 |
• • •; *ii «г))2- |
|||||
|
|
|
i=l |
|
|
|
|
|
|
|
|
|
Здесь |
a:lf |
а>ц . ■.; |
i,, |
со,; |
. . . ; |
x h o , |
— |
выборка, по |
||||
лученная |
из |
хг, свх; |
. . .; |
ат|, |
со, |
исключением |
элемента |
|||||
Х і , |
(Of - |
|
|
показать, |
что |
|
|
|
|
|
||
|
Нам надо |
|
|
|
|
|
Мр = Рі-ь
где М — символ математического ожидания. Доказатель ством этого утверждения является следующая цепочка преобразований:
Мр = |
ÜÜ • • • ÜТ" 2 |
К — F (*iJ хъ «К . . . |
|
||
|
|
г—1 |
|
|
|
.. |
.; xit сві; ...; |
x lt со,))2dP (xlt cox) . . . dP (xh со,) = |
|||
|
|
г |
|
|
|
= ^ |
J - |
2 |
Р (* ІІ *1» |
®1» • • м Х і , (В$, . . . , X i , CB,)) X |
|
|
X dP (Xi, со,)dP (zcj, (Bx). .. dP (xt, св,) = |
||||
|
z |
|
|
|
|
= ^ |
7 - 2 |
P (жі> ®і» • • •; |
• • •; */> ®z) |
(«1 »®i) • • • |
|
|
|
|
|
|
z |
•. • dp (*,_1, CBj_i)dP (xi+1, CBi+x)... d.P(7 , CB,) = |
J- 2Pi-i=*Pi-i* |
Однако свойство несмещенности оценки недостаточно пол но характеризует оценку. Необходимо знать еще и дис персию оценки р. В случае, когда известна дисперсия оценки скользящего контроля, можно оценить сверху качество решающего правила:
р < ѵ с + 8 (rj), |
(6.5) |
5*