Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 155

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

ОГЛАВЛЕНИЕ

7

§

3.

Оценка равномерного относительного уклонения

 

 

 

 

частот от вероятностей.................................................

272

Г л а в а

 

 

XIII. Применение теории равномерной сходимости

 

 

 

 

к методам минимизации эмпирического риска

276

§

 

1.

Оценка достаточной длины обучающей последова­

 

 

 

 

тельности в задачах обучения распознаванию . .

276

§

2.

Равномерная сходимость средних к математиче­

 

 

 

 

ским ожиданиям.............................................................

285

 

 

 

ЧА СТЬ Т Р Е Т Ь Я

 

М Е Т О Д Ы П О С Т Р О Е Н И Я Р А З Д Е Л Я Ю Щ И Х

 

 

 

 

П О В Е Р Х Н О С Т Е Й

 

Г л а в а

 

XIV. Построение разделяющей гиперплоскости

 

 

 

 

(метод обобщенного портрета).....................

292

§

 

1. Оптимальная разделяющая гиперплоскость . .

292

§2. Однопараметрическое семейство разделяющих

 

 

гиперплоскостей.........................................................

295

§

3.

Некоторые свойства обобщенного портрета . .

299

§

4.

Двойственная задача..................................................

302

§

5.

Алгоритмы персептронного типа..............................

306

§6. Градиентные методы построения разделяющей гиперплоскости (вычисление обобщенного пор­

трета) ................................................................................

310

§7. Теория оптимальной разделяющей гиперплос­

кости ................................................................................

316

§ 8. Двойственная задач а.................................................

318

§9. Методы вычисления оптимальной разделяющей

гиперплоскости...........................................................

322

§10. Построение оптимальной разделяющей гипер­ плоскости модифицированным методом Гаусса—

 

 

 

З а й д е л я .........................................................................

 

 

 

324

§

И .

Применение метода обобщенного портрета для

 

 

 

нахождения

оптимальной

разделяющей

гипер­

 

 

 

плоскости ......................................................................

 

 

 

326

§

12.

Некоторые статистические

особенности метода

 

 

 

обобщенного

п ор тр ета ..............................................

 

328

§

 

13.

Приложение

к

главе X I V ......................................

335

Г л а в а

XV. Алгоритмы

обучения

распознаванию

обра­

 

 

 

зов, реализующие метод обобщенного портрета 344

§

 

1.

Способы представления информации.....................

344

§2. Алгоритм построения разделяющей гиперплос­

кости ...................................

349


8

ОГЛАВЛЕНИЕ

§3. Алгоритм построения разделяющей гиперплос­

кости, минимизирующей число

ошибочно клас­

сифицируемых векторов ..........................................

359

§4. Алгоритм построения кусочно-линейной разде­

ляющей поверхности.................................................

360

§5. Алгоритмы построения разделяющей гиперплос­ кости в пространстве минимального числа приз­

наков ...............................................................................

362

§6. Алгоритм построения экстремальной линейной

разделяющей поверхности........................................

365

§7. Алгоритм построения экстремальной кусочно­

линейной разделяющей поверхности.................

367

§8. Алгоритм построения разделяющей гиперплос­ кости с оценкой ее качества методом скользяще­

го к он т р ол я ................................................................

368

§9. Алгоритмы построения экстремальных разделя­ ющих гиперповерхностей с помощью процедуры

 

 

скользящий контроль................................................

370

§ 10. О работе с алгоритмами............................................

371

Г л а в а

XVI. Метод сопряженных направлений.................

373

§

1.

Идея

метода.........................................

373

§

2.

Метод

сопряженных градиентов.............................

380

§

3.

Метод параллельных касательных(партан) . .

387

§

4.

Анализ погрешностей м ет о д а .................................

391

Комментарии........................................................................................

 

397

Литература..........................................................................................

 

410


Мир выглядит молодой красавицей или Брокенской ведьмой в зависимости от того, через какие очки на него смотришь.

Г. Гейне

П Р Е Д И С Л О В И Е

Задаче обучения машин распознаванию образов уже более пятнадцати лет.

За это время иные идеи-оформились в самостоятельное научное направление, а задача обучения распознаванию образов все еще не обрела формальной постановки, которая удовлетворила бы всех исследователей. И не потому, что ей уделялось мало внимания.

Содержательная (а не формальная) постановка задачи появилась в конце 50-х годов и заключалась в том, чтобы построить машину, способную обучаться классификации ситуаций так же, как это делают живые существа. Такое широкое понимание проблемы привело к возникновению различных направлений исследования. Одни ученые счи­ тали главным построение модели процесса восприятия, другие видели основное содержание проблемы в ее утили­ тарном проявлении — создании алгоритмов обучения рас­ познаванию образов для решения конкретных задач прак­ тики, третьи искали в этой задаче постановки новых мате­ матических проблем.

Сначала исследование задачи обучения распознаванию образов шло чрезвычайно успешно. Сразу же по всем на­ правлениям удалось сделать значительный шаг: были по­ строены модели, которые на первых порах вполне удовлет­ воряли исследователей, решено несколько практических задач, которые никак не удавалось решить другими мето-

10 ПРЕДИСЛОВИЕ

дами, наконец, были доказаны первые теоремы об алгоритмах обучения.

Начало 60-х годов казалось весьма обнадеживающим. Однако время шло, а второй шаг так и не был сделан: усложнение моделей ничего не добавило к объяснению тон­ ких эффектов восприятия, не удалось построить более эффективных алгоритмов распознавания.

С этого момента, пожалуй, впервые стал серьезно про­ являться интерес к теории. Теория призвана была выяс­ нить, существуют ли общие принципы обучения, которым должен был бы следовать любой алгоритм, или любая мо­ дель процесса восприятия. Словом, как это всегда бывает, к теории обратились тогда, когда выяснилось, что никакие изобретения не позволяют улучшить существующие ал­ горитмы. От теории ожидали новых принципов, которые позволили бы строить более эффективные алгоритмы обуче­ ния. Для построения теории прежде всего надо найти фор­ мальную схему, в которую можно было бы вложить задачу обучения распознаванию образов. Это-то и оказалось труд­ но сделать.

Одни специалисты видели проблему в том, чтобы, ис­ пользуя априорные сведения о свойствах образов, найти такое их описание, при котором отыскание принципа клас­ сификации не составляло бы труда. Другие, напротив, счи­ тали выбор системы описания внешним моментом в поста­ новке задачи и видели основную проблему в отыскании правила классификации среди заданного множества воз­ можных правил.

Эти две точки зрения являются диаметрально противо­ положными. В первом случае постановка должна быть на­ целена на выявление общих принципов использования априорной информации при составлении адекватного опи­ сания образов. При этом важно, что априорные сведения об образах различной природы разные, а принцип их учета один и тот же.


ПРЕДИСЛОВИЕ

11

Во втором случае проблема получения описания выно­ сится за рамки общей постановки и теория обучения машин распознаванию образов сводится к проблеме минимизации риска в специальном классе решающих правил.

По существу, различные точки зрения на постановку задачи распознавания образов определяются ответом на вопрос: возможны ли единые принципы построения адек­ ватного описания образов различной природы или же кон­ струирование языка описания есть каждый раз задача специалистов конкретных областей знаний?

Если да, то выявление этих принципов должно соста­ вить основное направление исследования задачи распозна­ вания образов. Основное потому, что такое направление исследований явилось бы и общим и принципиально новым.

Если же нет, то задача обучения распознаванию обра­ зов приводится к задаче минимизации среднего риска в специальном классе решающих правил и может рассматри­ ваться как одно из направлений прикладной статистики.

Ответа на этот вопрос до сих пор нет и потому выбор постановки задачи является пока вопросом веры. Боль­ шинство исследователей, однако, приняли вторую точку зрения, и под теорией распознавания образов принято сейчас понимать теорию минимизации риска в специальном классе решающих правил.

В этой книге мы также будем придерживаться того, что теория обучения машин распознаванию образов сводится к проблеме минимизации среднего риска *).

Методы минимизации среднего риска являются тради­ ционным предметом исследования теории статистических решений, и поэтому проблема заключается в том, чтобы суметь применить их для соответствующего класса решаю­ щих функций. На этом пути существовали известные труд­

*) Чтобы подчеркнуть это, мы дали книге второе название — «Статистические проблемы обучения», а соответствующую теорию назвали статистической теорией.

12 ПРЕДИСЛОВИЕ

ности, но довольно быстро их удалось преодолеть и к сере­ дине 60-х годов появилась общая теория обучения распоз­ наванию образов. Эта теория одновременно с удовлетворе­ нием принесла и некоторое разочарование. Общий прин­ цип построения алгоритма был чересчур широким: ему удовлетворяло очень много алгоритмов обучения; кроме то­ го, можно было найти регулярным способом (и было пока­ зано каким именно) огромное количество конкретных алго­ ритмов обучения распознаванию образов, которые на прак­ тике оказывались ничуть не лучше существующих.

Таким образом, сложилась кризисная ситуация: каза­ лось, что задача обучения распознаванию образов в статис­ тической постановке себя исчерпала.

Вероятно, это было бы действительно так, если бы не од_ но обстоятельство. Дело в том, что конструктивные методы минимизации среднего риска, разработанные в теории ста­ тистических решений, восновном носят асимптотический ха­ рактер, т. е. метод, минимизирующий величину среднего ри­ ска на основе выборки, считается состоятельным, если с рос­ том объема выборки с помощью этого метода можно как уго­ дно близко подойти к оптимальному решению. Вот эти-то асимптотически-оптимальные методы минимизации риска и применялись для решения задачи обучения распознава­ нию образов. На практике же всегда используются вы­ борки ограниченного объема, которые никак нельзя счи­ тать настолько большими, чтобы применять асимптотичес­ кие методы.

Поэтому возникает надежда построить более содержа­ тельную теорию применением к нашей специальной задаче минимизации среднего риска, образующей статистическую задачу обучения распознаванию образов, методов миними­ зации риска на конечных выборках, т. е. построить не аси- мптотически-оптимальную теорию алгоритмов обучения, а конечно-оптимальную теорию. Но оказалось, что в тео­ рии статистических решений нет достаточно общих конст­


ПРЕДИСЛОВИЕ

13

руктивных конечно-оптимальных методов минимизации риска. И не потому, что математики не подозревали о суще­ ствовании такой проблемы; напротив, необходимость созда­ ния конструктивных конечно-оптимальных алгоритмов давно была известна, но все попытки построить теорию та­ ких алгоритмов наталкивались на значительные трудности.

Итак, исследование задачи обучения распознаванию образов вывело на нерешенную проблему. Но теперь эта проблема стоит не во всем объеме, а лишь для специаль­ ного класса задач. Конечно-оптимальная теория алгорит­ мов обучения распознаванию образов еще не построена. Однако вне зависимости от того, насколько удачными ока­ жутся попытки построить такую теорию, идея создания конечно-оптимальных методов минимизации риска для специального класса решающих правил уже принесла свои плоды: были найдены новые достаточно общие процедуры поиска оптимальных решений.

Что же сейчас составляет статистическую теорию обу­ чения распознаванию образов? Вероятно, правильно было бы видеть в задаче обучения распознаванию образов три линии развития.

Первая линия связана со становлением задачи. В ней можно проследить, как из физиологической модели вос­ приятия возникают алгоритмы опознания образов, как за­ дача обучения формулируется в четких математических терминах, как она вливается в традиционные задачи мате­ матической статистики, какие новые идеи она порождает, как способствует решению задач практики.

Вторая линия отражает влияние задачи обучения рас­ познаванию образов на развитие аппарата математической статистики. Здесь можно проследить, как сначала использовались известные методы статистики, как затем образовывались новые понятия, и, наконец, можно увидетэ влияние этих новых идей на развитие традиционных направлений исследований в статистике.

14 ПРЕДИСЛОВИЕ

Третья линия отражает развитие конструктивных идей построения алгоритмов. Сначала это были некоторые эв­ ристические процедуры, единственным обоснованием ко­ торых была ссылка на аналогию с физиологическими мо­ делями восприятия, затем это были различные методы по­ строения разделяющих поверхностей и, наконец, это — методы выбора экстремальных подпространств и построе­ ния на них различных решающих правил.

В монографии нашли отражение все три линии разви­ тия теории. Первая линия сконцентрирована в основном в первой части книги — «Элементарная теория», вторая — во второй части — «Статистические основы теории» и третья — в третьей части книги — «Методы построения разделяющих поверхностей».

Первая часть книги носит сравнительно элементарный характер. В ней основной упор сделан на изложение идей статистической теории обучения распознаванию образов. Для чтения этой части книги достаточно знания математи­ ки в объеме курса втуза.

Чтение второй части книги требует знания основ теории вероятностей в объеме университетского курса и предпо­ лагает известную математическую культуру.

Третья часть книги посвящена изложению группы ал­ горитмов, основанных на методе обобщенного портрета. Она написана так, чтобы ее могли использовать читатели, цель которых выбрать и запрограммировать нужный им алгоритм обучения.

Книга ни в коей мере не является обзором теории обу­ чения распознаванию образов. В ней, сильно сказывают­ ся научные интересы и пристрастия авторов. Тем не менее мы надеемся, что она оңащртся интересной и полезной читателю,

Авторы,