Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 187

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

132 гл. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

где ѵс — оценка скользящего контроля, е (ц) = у (ц) Y А D — дисперсия оценки, у (rj) — константа, зависящая от надежности, с которой требуется выполнение (6.5).

Есть основания полагать (и многочисленные экспери­ менты это подтверждают), что для большинства практи­ чески важных случаев дисперсия оценки «скользящий контроль» стремится к нулю с ростом I примерно так же быстро, как дисперсия «экзамена», но строгого доказа­ тельства этого утверждения не известно. Любопытно, что существуют примеры алгоритмов обучения, когда оно не­ верно [45], хотя, видимо, для всех «разумных» алгорит­ мов обучения это утверждение справедливо.

Таким образом, алгоритмы выбора лучшего решающе­ го правила по критерию «скользящего контроля» в настоя­ щее время являются эвристическими и будут оставаться таковыми до тех пор, пока не удастся получить оценку дисперсии «скользящего контроля». Отыскание диспер­ сии оценки метода «скользящего контроля» является од­ ной из наиболее актуальных задач не только теории обу­ чения распознаванию образов, но и теоретической ста­ тистики. Знание этой оценки позволит выбрать на­ стоящее правило, минимизирующее верхнюю оценку ве­ личины р, и тем самым позволит гарантировать опре­ деленное качество выбранному решающему правилу. В дальнейшем будут рассмотрены алгоритмы второго уровня, использующие лишь оценки типа (6.4).

Для того чтобы задать алгоритмы упорядоченной минимизации риска, нам осталось определить способы упорядочения классов решающих правил. Ограничимся исследованием принципов упорядочения линейных ре­ шающих правил.

§ 8 . Упорядочение по размерностям

Наиболее простым принципом упорядочения класса линейных решающих правил является принцип упоря­ дочения по размерностям.

Рассмотрим класс линейных решающих правил

§ 8. УПОРЯДОЧЕНИЕ ПО РАЗМЕРНОСТЯМ

133

Выстроим признаки ф* (х) в порядке уменьшения ап­ риорной вероятности того, что этот признак понадобится при классификации. Упорядоченная система линейных решающих правил

 

 

... с snс

s

строится

так:

в класс S x попадут

решающие правила,

где все

А,г =

0 , за исключением

в

класс S 2 — такие,

что только к‘ 1 и К2 могут быть отличны от нуля, и т. д. Такое упорядочение имеет следующий смысл. В первый класс попадают решающие правила, которые при распоз­ навании используют только первый признак, во второй класс те, что используют первый и второй признаки и т. д. Показатель емкости каждого из этих классов, как было установлено в предыдущей главе, равен т + 1 ,

где т — число используемых признаков.

Процедура высшего уровня в алгоритме упорядочен­ ной минимизации риска в данном случае будет выбирать решающее правило, минимизирующее критерий

К(т) = Р « Ы + 2 y ^ + O W a - y + O + D - l.l/S

(6.6).

Рассмотренный выше способ упорядочения класса линейных решающих правил страдает одним недостат­ ком — он требует априорной ранжировки признаков.

В том случае, когда такой ранжировки нет, можно ввести другой принцип упорядочения по размерностям: в класс включать все линейные решающие правила, ис­ пользующие не более т признаков. Функция роста та­ кого класса решающих правил, как нетрудно убедиться,

оценивается величиной

jim+1)

т 8» ( і ) < і , 5 - С О»+ 1)1 j

где п — размерность исходного пространства, откуда следует, что процедура высшего уровня должна мини­

мизировать

критерий

 

 

К (т) = Рэма (а,„) +

 

 

+ 2 ] /

-f 1) (In 21 ln + 1) + 1) — ln т]/5

- ь С

(6.7)

I

 


134 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Трудность реализации такого алгоритма состоит в том, что при больших т не известно эффективных мето­ дов минимизации риска в S m.

Как уже указывалось в главе V, оценка доверитель­ ного интервала (5.11) является пессимистической и до­ стигается лишь в случае, когда вероятность ошибок близка к Ѵ2. Для решающих правил, оценки вероятно­ стей ошибок которых малы (—0 ,1 , 0 ,2 ), лучше пользо­ ваться более тонким критерием (5.23):

 

( тп + 1 ) (ln - 2{ і "+

1) — ІиійГ

К ( т ) - 2

--------- L _ £ L ±li-----

1------

f L X

^^эмп (am) ^

X 1 + 1/ 1 +

(to+ 1)1 In m + i + 1 J — In 24

~ Ь P Э М П ( d m )

вместо оценки (6 .6 ) и аналогичным критерием

" Ь Р Э М П ( ® і п )

вместо (6.7). Эти критерии не столь наглядны, но зато более точны.

§ 9. Упорядочение по относительным расстояниям

Приведенные выше метод упорядочения по размерно­ стям и вытекающие из него рекомендации для построе­ ния оптимального алгоритма представляются достаточно грубыми: они учитывают только внешнюю характерис­ тику задачи — размерность и никак не принимают во внимание более тонкие ее характеристики, например геометрию расположения разделяемых множеств. О су­

i 9. УПОРЯДОЧЕНИЕ ПО 0ТН0СИТЕЛЬНЫМ2.РАССТ0ЯНИЯМ 135

ществовании иных и, возможно, более эффективных ме­ тодов упорядочения свидетельствуют также и оценки качества решающего правила, которые могут быть по­ лучены для персептрона, использующего многократно обучающую последовательность. Рассмотрим такие оцен­ ки качества.

В главе I была доказана теорема Новикова, утверж­ дающая, что если в спрямляющем пространстве два мно­ жества векторов разделимы гиперплоскостью, расстоя­ ние от начала координат до выпуклой оболочки множеств {х}, {Ж} больше р = ро 0, а максимальная длина век­ тора не превосходит D, то персептрон разделит обучаю­ щую последовательность (при циклическом ее повторе­ нии), сделав не более (D/р)2 исправлений. При этом он реализует один из алгоритмов минимизации эмпиричес­ кого риска. Оценим качество персептронного алгоритма с многократным просмотром последовательности, иду­ щим до полного разделения, для задач с известными величинами р и D. Качество R (А, Т) алгоритма А для данной задачи Т было определено как математическое ожидание относительного числа ошибок на экзамене после обучения на обучающей последовательности дли­ ны I. Справедлива следующая теорема.

Теорема 6.1. Качество персептронного алгоритма А с многократным повторением обучающей последователь­ ности для задачи Т с фиксированными D u р0 оценивается неравенством

л ^ К - ігЬ у

Д о к а з а т е л ь с т в о . Доказательство этой теоре­ мы основывается на доказанном в § 7 утверждении о не­ смещенности оценок, полученных с помощью процедуры «скользящий контроль». Поэтому вместо оценки качест­ ва нам достаточно оценить математическое ожидание частоты ошибок при скользящем контроле. При сколь­ зящем контроле из обучающей последовательности вы­ деляется один элемент, на оставшейся части проводится обучение, строится решающее правило и затем прове­ ряется классификация выделенного элемента этим ре­ шающим правилом. Эта операция проделывается с каж­ дым элементом.!


136 гл . VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Если при использовании полной обучающей после­ довательности в ходе обучения персептрон всегда пра­

вильно опознает элемент x h , т.

е.

ни

одно исправление

не

происходит при просмотре

x h ,

то

работа

алгоритма

на

последовательности, из которой

элемент

x h выделен,

ничем не отличается от обучения по полной последова­ тельности. Следовательно, этот элемент будет правильно опознан при контроле. Таким образом, число ошибочно опознанных элементов при скользящем контроле не пре­ восходит число 10 таких элементов, на которых проис­ ходит хоть одно исправление при обучении по полной последовательности. В свою очередь общее число ис­ правлений, согласно теореме Новикова, не превосходит

величины

іг- л

а значит, и

Іо< D2

LP?

Итак, для любой обучающей последовательности число

Г D2 1

ошибок при скользящем контроле не превосходит —+

L Po J

Следовательно, математическое ожидание частоты оши­ бок в этом случае оценивается

D2 R (И, 7’) < т + 1 LPJ

Теорема доказана.' Теорема может быть несколько усилена. Рассмотрим

выпуклые оболочки К 1 и К 2 точек из обучающей] после­ довательности длины I, принадлежащих соответственно первому и второму классам. Обозначим через

М

L Р? J

математическое

ожидание] отношения

т

, где D,—диа-

метр множеств

 

Рг

К\ и К 2, а р , — расстояние между ними.

По существу, не меняя доказательства,

убеждаемся, что

R ( A , T ) < - ± —

1+ 1


§ 9. УПОРЯДОЧЕНИЕ

ПО ОТНОСИТЕЛЬНЫМ РАССТОЯНИЯМ

13^

Аналогичные

утверждения справедливы и для

не­

которых других (но не для любых!) алгоритмов построе­ ния разделяющей гиперплоскости, основанных на ми­ нимизации эмпирического риска, в частности, для ме­ тода обобщенного портрета (см. главу XIV).

Доказанное здесь утверждение показывает, что эф­ фективность обучения тем выше, чем больше относитель­

ное расстояние между классами.

и Е 2 ис­

Рассмотрим теперь два подпространства E t

ходного пространства Е. Пусть

в этих подпространствах

обучающая последовательность

может быть

разделена

 

D (ЕЛ

гиперплоскостью и, кроме того, отношения

^^,у под­

чинены следующему неравенству:

 

 

ГД2(Ді)1 ^

\ Е Ш Л

 

L Р(£і) J ^

І р Ц Е г) J •

Согласно теореме2, качество решения задачи в первом

подпространстве

оценивается

величиной

 

1

' £>2( Е і ) -

Я(АЕі, Г )< l + l

Lr2(£2) ..

в то время как

качество решения во втором — вели­

чиной

 

 

Ц(ЛЕ„ г Х щ

Поскольку никаких иных сведений о качестве решаю­ щих правил нет, то, очевидно, следует предпочесть то

правило,

для которого отношение

Р ( Е ) меньше 1

Таким

образом, критерий

Р ( Е )

р ( Е )

позволяет оцени­

Р( Е )

 

 

 

вать качество подпространств при построении линейных решающих правил. На практике же пользоваться этим критерием трудно: как правило, нам не известны вели­ чины D (Е) и р (Е).

Конечно, можно их оценить по выборке и с помощью соответствующих оценок вычислять качество 'подпрост­ ранств. Однако такой прием будет уже эвристическим.

Теорема

6.1 справедлива

не для оценок величин D (Е)

и р (Е),

а для точных их

значений.


158 ГЛVT. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИЙ РИСКА

Хотелось бы построить метод, который позволял бы оценивать качества подпространств не по величинам D (Е) и р (Е), а по их оценкам.

Такому методу будут посвящены следующие параг­ рафы. В них будет приведен метод, позволяющий эф­ фективно выделять экстремальные подпространства. Однако подобные алгоритмы решения задачи обучения распознаванию образов возможны лишь в постановке, отличной от той, которую мы рассматривали до сих пор.

В заключение этого параграфа обратим внимание читателя на интересную аналогию, которая может быть проведена между рассматриваемым здесь] критерием упорядочения и хорошо изученным в классическом диск­ риминантном анализе понятием — расстоянием Махаланобиса [62].

Пусть требуется построить гиперплоскость, разде­ ляющую два множества векторов {х} и {£}, каждое из которых подчиняется нормальному распределению с па­ раметрами рх, 2 и р2, 2 (ковариационные матрицы рав­ ны). Тогда, как указывалось в главе III, оптимальным решающим правилом (т. е. правилом, минимизирующим вероятность ошибки) является линейная дискриминант­ ная функция.

Расстояние Махаланобиса

 

Д2 = (|хх — р2)т 2 - 1 (рх — р2)

(6.8)

позволяет вычислить вероятность правильной класси­ фикации оптимального решающего правила

2

—со

Геометрически расстояние Махаланобиса выражает от­ ношение расстояния между математическими ожидания­ ми векторов двух различных классов к дисперсии ве­ личины проекции векторов каждого класса на направ­ ляющий вектор разделяющей гиперплоскости:

Д2 _ (М — Мі)2

(6.9)