Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 154

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

как на базе словаря словоформ, так и на базе словаря основ слов. Поэтому представляет интерес сравнение основных количественных показателей, характеризующих эти подходы, — объема словаря и времени работы алго­ ритма отождествления.

Объем машинного словаря, предназначенного для отождествления форм слов, зависит от многих факторов. Однако при сравнении вариантов структуры словаря не­ обходимо прежде всего учитывать соотношение количест­ ва словарных единиц при некоторых фиксированных условиях.

Известно, что в русском языке число различных сло­ воформ значительно больше числа различных основ слов. Так, существительные могут иметь 7—10 различ­ ных форм, полные прилагательные— 10—12 форм, гла­ голы настоящего и будущего времени — 6 форм, глаголы прошедшего времени и краткие прилагательные — 4 фор­ мы и т. д. Если фиксировать объем словаря основ и потребовать, чтобы словарь словоформ включал все формы слов, которые могут быть образованы на базе ■словаря основ, то отношение числа словоформ к числу основ слов определяется выражением

 

 

 

П

 

 

 

 

К = Лі М - і Р і ,

(7.1)

 

 

 

і=1

 

в

котором

п — количествофлективных классов

слов

в

русском

языке;

Л4, — количество попарно-различных

форм у слов /-го

флективного класса; Рі — вероятность

появления /-го флективного класса в слозаре. По дан­ ным табл. 7.1 и таблицы, приведенной в приложении 1, находим, что К ~ 8.

Однако в речевой практике не все формы слов ис­ пользуются в равной степени. Это приводит к тому, что при фиксированном тексте достаточно большой протя­ женности объем словаря словоформ оказывается при­ мерно в два раза больше объема словаря основ (мы на­ блюдали это явление на текстах протяженностью от 20 до 500 тыс. слов). Если в словарь включаются не все, а только наиболее часто встречающиеся словарные еди­ ницы, то при изменении коэффициента заполнения тек­ стов в пределах 0,5—0,95 отношение объема словаря словоформ к объему словаря основ колеблется в преде­ лах 3—3,8, причем максимум величины этого отношения соответствует коэффициенту заполнения, равному 0,8.

135


Время работы алгоритмов автоматического отождест­ вления слов зависит от типа ЭВМ, которая используется для обработки текстовой информации, и от конкретной программной реализации этих алгоритмов. Имеет значе­ ние іи объем словаря. Однако при прочих равных усло­ виях программа морфологического анализа работает в несколько раз медленнее, чем программа отождествле­ ния слов с помощью словаря словоформ. Это обусловле­ но большей сложностью алгоритмов морфологического анализа и необходимостью многократного . поиска по словарю при выделении основы из состава изменяемого слова.

Дополнительное сокращение объема словаря может быть получено путем использования закономерностей словообразования и изменений основ слов при измене­ нии их формы. Так, за счет исключения повторений оди­ наковых основ после отсечения суффиксов «ть», «ти», «чь» у инфинитива, суффикса «л» у глаголов прошедше­ го времени, суффиксов «а», «я», ^в», «вши» и т. п. у деепричастия можно уменьшить объем словаря основ на 7,7%; за счет исключения сложных слов без внутрен­ ней флексии, компоненты которых содержатся в слова­

ре,— на 2,3%';

за счет исключения вариантных

форм

основ глаголов

с чередованием согласных — на

0,26%;

за счет исключения основ прилагательных, которые мо­ гут быть образованы от основ существительных, — на 6,3%. В целом, если учесть все возможные регулярные способы преобразования основ слов при словоизменении и при трансформациях словосочетаний, объем словаря

можно сократить

на 23% (приведенные данные

получе-

К оличест венны е

характ ерист ики изм ен яем ы х

Т а б л и ц а 7.15

 

 

 

 

 

 

 

основ сл овар я

п/п,

 

 

 

 

 

 

Длина (количество

Типы изменяемых основ слов

Частота

букв в основе)

 

максималь­

 

 

 

 

 

 

средняя

 

 

 

 

 

 

ная

1

Основы

типа

II

(чередование

0,04

6,9

15

2

гласных)

типа

III (чередование

0,02

5,5

9

Основы

3

согласных)

типа

IV

(нерегуляр­

0,0!

3,9

10

Основы

 

ные основы)

1 3 6


ны itо словарю об.ъемом около 8000 наиболее ynofpeбительных основ слов).

Таким образом, наиболее существенное сокращение необходимого объема памяти (в 2—3 раза) достигается при переходе от словаря словоформ к словарю основ слов в том виде, каким он принят в настоящей главе. Дальнейшие шаги в этом направлении малоэффектив­ ны и связаны с существенным усложнением алгоритмов морфологического анализа и синтеза.

Более того, как следует из табл. 7.15, доля изменяе­ мых основ в словаре невелика и составляет примерно 7%. Поэтому при практической реализации процедур морфологического анализа и синтеза с целью упрощения алгоритмов допустимо хранить в словаре все формы из­ меняемых основ слов и относить их к типу IV (нерегу­ лярные основы).

Интересно отметить, что в словаре изменяемые осно­ вы в среднем имеют меньшую длину, чем неизменяемые: 6,1 буквы против 8,5 букв у неизменяемых основ (более дифференцировано распределение длин изменяемых основ приведено в табл. 7.15).

Глава 8 ПРИБЛИЖЕННЫЕ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ

Определение обобщенных грамматических классов слов по их конечным буквосочетаниям. Выделение основ слов

Процедуры морфологического анализа и синтеза слов могут быть точными и приближенными. Точные процеду­ ры морфологического анализа и синтеза основаны на использовании словарей, в которых для каждого слова указано правило изменения его формы (см. гл. 7). Эти процедуры .могут применяться только к словам, основы которых включены в словарь. Между тем в реальных текстах всегда будут встречаться «новые» слова — слова, не содержащиеся в словаре. Такие слова либо должны исключаться из текста как «неинформативные», либо их

необходимо включать в словарь.

выявляться

«Новые»

слова

могут автоматически

в процессе

точного морфологического анализа и выда­

ваться на печать

для ручной обработки

и включения

137

в словарь. Но такая организация работы не позволит полностью автоматизировать процессы обработки тексто­ вой информации. Необходима процедура автоматическо­ го пополнения словарей. А это, в свою очередь, связано с необходимостью автоматического выделения основ слов и получения к ним грамматической информации.

Т а б л и ц а 8.1

Распределения частот появления грамматических классов, ассоциированны х с конечными буквосочетаниями слов

( фрагмент таблицы распределений)

Появление «новых» слов в тексте может помешать правильному выполнению его синтаксического анализа. Между тем для выявления синтаксической структуры фразы в большинстве случаев достаточно получить ин­ формацию о принадлежности «незнакомого» слова толь­ ко к определенному грамматическому классу и не тре­ буется более подробных сведений о форме слова. .Возни­ кает вопрос, нельзя ли, не прибегая к помощи словаря, определять грамматический класс слова по его буквен­ ному составу? Задача подобного рода была поставлена и решена автором совместно с И. М. Давыдовой. В про­ цессе исследования был проанализирован обратный сло­ варь словоформ объемом около 30 000 единиц, состав­ ленный по деловым текстам протяженностью 500 000 слов (см. приложение 3). В результате были построены рас­ пределения частот появления грамматических классов, ассоциированных с различными буквами и буквосоче­ таниями, стоящими в конце слова. Фрагмент перечня распределений частот появления грамматических клас­ сов приведен в табл. 8.1.

138


Буква или буквосочетание считались отличительным признаком, того класса, который имел максимальную ча­ стоту. При этом использовался следующий перечень

грамматических классов слов:

 

С

— существительное,

количественное числительное;

П

— прилагательное,

порядковое

числительное, пол­

 

ная

форма причастия;

 

Гл — личная форма глагола;

краткое прилага­

Гп — глагол

прошедшего времени,

 

тельное, краткое причастие;

 

Ги — инфинитив; -

 

 

Н— наречие, деепричастие, сравнительная степень прилагательного;

Сл — служебные слова (предлоги, союзы, частицы). Выяснилось, что по некоторым конечным буквам и

буквосочетаниям слова можно практически однозначно, определять его грамматический класс, по другим — это можно делать с меньшей определенностью. Так, если

слова

оканчиваются

на буквы

б, г, ж,

п, р, с, ф, ц, ч,

ш, э,

то можно с

большой

степенью

достоверности

утверждать, что это существительные, тогда как по бук­ вам е, и, й, м, о, у, X , ы, ю, я, стоящим в конце слов; нельзя сказать что-либо определенное относительно при­ надлежности этих слов к грамматическим классам. Ана­ логично, конечные двухбуквенные сочетания ов, ке, ни, ам, ям, ку, ах, ях, ры, ию, ия можно считать признака­ ми существительных, сочетания букв ое, ые, ый, ым, го, их, ых, ую — признаками прилагательных, тогда как сочетания ла, на, ие, ми, ей, ий, ом, ен, ся непригодны в качестве надежных признаков для определения клас­ сов слов из-за их «многозначности».

В табл. 8.2 приведены вероятности однозначного определения классов слов в словаре словоформ по одной, двум, трем и т. д. последним буквам, а также объемы списков буквосочетаний, необходимые для достижения указанных значений вероятностей.

Определение грамматических классов слов по одной и по дзум последним буквам производилось с помощью полных перечней однобуквенных и двухбуквенных при­ знаков, объемы которых указаны в табл. 8.2. Для более

точного определения

грамматических

классов

прежде

всего использовался

список двухбуквенных признаков,

а трехбуквенные и четырехбуквенные

признаки

привле­

кались только тогда,

когда количество словоформ сло-

139