Файл: Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 156

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

КОММЕНТАРИИ

405

функций п переменных в зависимости от того, с помощью

какого

числа базисных (например, пороговых) элементов эти функции мо­ гут быть реализованы, то окажется, что из всех 22” возможных функ­

ций

подавляющее большинство составляют наиболее сложные,

т. е.

те, которые могут быть реализованы лишь с помощью

2п

элементов, и лишь ничтожная часть функций имеет малую слож­ ность (число функций, реализуемых одним пороговым элементом,

меньше 2™2). Но самое интересное заключается в том, что, хотя поч­ ти все функции сложные, построить (просто выписать в виде табли­ цы значения во всех 2п точках) сложную функцию чрезвычайно трудно. Во всяком случае, уже для п = 7 нет примеров сложной функции.

Еще пример. Можно ввести естественное определение сложно­ сти числа такое, что алгебраические числа будут проще трансцендент­ ных. И опять здесь оказывается, что трансцендентных чисел на чис­ ловой оси подавляющее большинство, и, несмотря на это, нам из­ вестно чрезвычайно мало трансцендентных чисел, а известные способы конструирования трансцендентных чисел позволяют по­ лучить лишь ничтожное меньшинство всех имеющихся трансцендент­ ных чисел.

Если при любом «разумном» определении сложности окажется, что сложные функции составляют подавляющее большинство всех функций, то гипотеза «мир. прост» становится чрезвычайно содержа­ тельной. Вопросы исследования сложности математических объек­ тов в настоящее время являются чрезвычайно актуальными [20, 37].

Кглаве IX

Внастоящее время существуют достаточно тонкие критерии, позволяющие судить о сходимости процессов, полученных с по­ мощью процедуры стохастической аппроксимации. В этой главе изложены условия, при которых процедура стохастической аппрок­

симации применена для минимизации функционала

с выпуклыми по а при любом фиксированном z функциями потерь Q (z, а). Результаты для этого частного случая могут быть полу­ чены из общих теорем о сходимости процессов процедуры стохасти­ ческой аппроксимации. Однако здесь приведены доказатель­ ства сходимости для этого частного процесса процедуры стохасти­ ческой аппроксимации непосредственно в том виде, в каком они были получены Б. М. Литваковым [44]. Аналогичные резуль­ таты получены и Ю. М. Ермольевым [27]. Вообще же для рас­ смотренного случая известно [26], что если Q (z, а) — одноэкстре­ мальная функция, то при определенных условиях процедура стоха­

стической

аппроксимации приведет к

глобальному

минимуму,

если же

Q (z, а) — многоэкстремальная

функция, то

процедура

стохастической аппроксимации гарантирует достижение лишь ло­ кального минимума.


406

КОММЕНТАРИИ

 

К главам X, X I, X II

Задача

восстановления вероятностной меры по эмпирическим

данным является одной из основных задач статистики. Известные методы решения этой задачи распадаются на два типа: параметри­ ческие и непараметрические методы.

Параметрические методы основаны на том, что предполагается вид распределения, зависящий от конечного числа параметров. В этом случае восстановление распределения эквивалентно оценке этих параметров по эмпирическим данным.

Непараметрические методы не связаны с предположением о виде функции распределения. Они основаны на реализации одной из двух идей:

1) восстановление плотности распределения вероятностей (в этом случае достаточна гипотеза о гладкости функции плотности распределения вероятностей);

2) восстановление вероятностей определенного множества со­ бытий.

Методы восстановления функции плотности распределения ве­ роятностей предлагались Е. Парзеном [88], Н. Н. Ченцовым [69], М. А. Айзерманом, Э. М. Браверманом, Л. И. Розоноэром [1]. По­ следние авторы рассматривали эту задачу в связи с проблемой обу­ чения распознаванию образов в вероятностной постановке. Однако восстановление плотности распределения вероятностей требует зна­ чительного объема выборки. Это особенно существенно в многомер­ ном случае, когда для восстановления плотности распределения часто необходима длина выборки во много раз большая, чем 2П, где п — размерность пространства.

Вторая идея связана с восстановлением вероятностей класса событий. Вероятностная мера будет восстановлена, если восстано­ вить сразу вероятности всех событий полной а-алгебры. Однако, как показано в книге, вообще говоря, это сделать невозможно. Этот метод применим в том случае, когда требуется определить ве­ роятности определенного, сравнительно узкого класса событий.

Если класс состоит всего из одного события, то вопрос стоит о сходимости частоты к вероятности для одного фиксированного со­ бытия. Ответ на этот вопрос был получен еще в XVIII веке Яковом Бернулли (сходимость почти наверное установлена Э. Борелем одно­ временно с введением этого понятия).

Случай конечного числа событий принципиального интереса не представляет, так как равномерная сходимость частот к вероятностям здесь легко следует из закона Бернулли.

В 30-е годы особое внимание уделялось равномерной сходимости эмпирических кривых распределения к функциям распределения. В 1933 году В. И. Гливенко доказал [79], что имеет место равномер­ ная сходимость эмпирических кривых к функциям распределения для произвольной функции распределения. В том же году А. Н. Кол­ могоров для непрерывной функции распределения F(x) установил следующую асимптотическую оценку [83]:


КОММЕНТАРИЙ

407

где ?і (х) = V1 {I: | < ж} — эмпирическая кривая распределения,

ОО

К ( в ) = 2

( - l ) m <T2£2m\

Дальнейшие уточнения были получены II. В. Смирновым [59]. Он исследовал также уклонение эмпирических кривых, построен­ ных по двум независимым выборкам, при неизменном распределе­ нии [59]. Как сказано в основном тексте, исследование близости эмпирических кривых к функциям распределения равносильно исследованию равномерной близости частот к вероятностям по классу событий вида

{£ : I < *}■

Разумеется, из равномерной близости эмпирических кривых к функциям распределения следует равномерная близость частот к вероятностям и в более широких классах событий (но не для всех событий!).

Таким образом, интерес исследований 30—40-х годов к равно­ мерной сходимости ограничивался одномерным случаем, что, види­ мо, связано с ограниченностью вычислительных возможностей того времени. После появления быстродействующих вычислительных машин стали возможными новые методы обработки статистических данных, например, такие, которые применяются в задачах обучения распознаванию. В связи с этим возникла необходимость предельно обобщить теорему Гливепко и выяснить, насколько широк может быть класс событий, чтобы еще имела место равномерная сходимость частот к вероятностям, и как изменяется скорость такой сходимо­ сти с расширением класса. Ответы на эти вопросы получены нами в работах [18, 19] и составляют предмет изложения глав X, XI и XII. Полученные оценки не так точны, как оценки Колмогоро­ ва — Смирнова для близости эмпирических кривых к функциям распределения. Вопрос получения асимптотически точных оце­ нок остается пока открытым.

Отметим, что необходимые и достаточные условия равномерной сходимости частот к вероятностям оказались связанными с опреде­ ленным образом введенной энтропией класса событий относительно выборок конечной длины. Эта энтропия во многом аналогична шенноновской энтропии, рассматриваемой в теории информации.

К главе XIII

Начиная с первых работ по распознаванию указывалось, что эффективное обучение возможно только в том случае, когда на класс задач наложено заранее достаточно жесткое ограничение (априор­ ная гипотеза). Однако оценки достаточной длины обучающей после­ довательности в зависимости от той или иной гипотезы были полу­ чены не сразу. К числу первых, безусловно, относится оценка Нови­ кова для персептрона, хотя в первоначальном варианте она оцени­ вала число исправлений, а не длину обучения. Длину обучения легко оценить, если теорему Новикова дополнить условием останова.


408

КОММЕНТАРИИ

Вряде работ оценивается достаточная длина выборки в случае гипотезы о нормальном распределении классов [55].

Вработе [16] мы исходим из предположения, что классы заведо­ мо безошибочно разделимы одним из N заданных решающих правил.

При этом оказалось, что достаточная длина обучающей выборки оце­ нивается сверху:

^ ln N — ln Г|

^дост ^ _ in (1 _ е) >

где е — точность, 1 — т] — надежность выбора решающего правила. Этот результат немедленно прилагается к задаче нахождения линей­ ного решающего правила для дискретных ограниченных множеств.

Случай, когда разделяемые множества могут быть заключены в параллелепипед с гранями, параллельными осям координат, рас­ сматривал Б. М. Курилов [39].

У. Хайлимен [81] предлагал для оценки достаточной длины обучения в классе линейных решающих правил вспользоваться обычным биномиальным распределением. Этот путь является лож­ ным, так как при этом не учитывается требование равномерной бли­ зости оценок риска к их истинному значению по всему классу решаю­ щих правил. Этим путем можно вывести конечные оценки длины обучения для сколь угодно емких классов решающих правил, что неверно.

В работе [17] мы ввели в рассмотрение функцию роста и получи­ ли оценки достаточной длины в детерминированной постановке зада­ чи обучения распознаванию, а в статье [18], уже опираясь на общие результаты по равномерной сходимости частот событий к их вероят­ ностям, получили оценки и в общем случае. В этой книге оценки несколько уточнены.

Отметим, что приводимые оценки достаточной длины обучения завышены, во-первых, потому, что они рассчитаны на наихудший случай, и, во-вторых, поскольку при их выводе был сделан ряд огрублений. Но существенно, что они позволяют увидеть качествен­ ную зависимость требуемой длины обучения от параметров класса решающих правил и устанавливают, что существуют не слишком «страшные» оценки, не зависящие от распределения.

Вопрос о равномерной по параметру сходимости средних к ма­ тематическим ожиданиям возник в связи с исследованием эффектив­ ности оценок максимального правдоподобия. Упомянутый резуль­ тат Л. Ле-Кама [85] получен им на основе идей А. Вальда [96]. Ре­ зультат, основанный на сведении к равномерной сходимости частот к вероятностям, получен в [19]. Оба условия являются лишь доста­ точными и не перекрывают друг друга. Необходимых и достаточных условий равномерной сходимости средних к математическим ожида­ ниям пока нет.

К главе XIV

Метод обобщенного портрета был предложен в 1963 году в ра­ ботах [13, 15]. Позже [17] было показано, что построение обобщенно­ го портрета эквивалентно отысканию максимума неположительно определенной квадратичной формы в положительном квадранте, а