Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 160

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ниц. При этом в 95,7% случаев основа слова выделялась правильно. Неправильное выделение основы происходи­ ло большей частью за счет иностранных слов и русских неизменяемых слов. Если иностранные слова не рассмат­ ривать, то вероятность правильного выделения основы повышается до 0,97. Интересно отметить, что если исклю­ чить из рассмотрения классы слов, не встречающиеся в именных словосочетаниях (все глаголы и большинство неизменяемых слов), то вероятность правильного выде­ ления основы слова повышается до величины 0,985.

Алгоритм определения классов слов по их буквенным кодам был проверен на текстах различного характера. При этом исследовался не только основной вариант ал­

горитма

(с использованием

табл.

8.3

и 8.4),

по

и

ряд

других

вариантов:

с использованием

только

табл.

8.3;

с использованием

табл.

8.3

в сочетании со

словарем,

включающим 100

наиболее

часто

встречающихся

слов;

с использованием

табл.

8.3 и 8.4

в сочетании

со

слова­

рем из 100 слов. Все тексты брались объемом в 1000 слов. Результаты исследований сведены в табл. 8.5.

Из данных табл. 8.5 видно, что по надежности одно­ значного определения классов слов варианты построе­ ния алгоритма, соответствующие столбцам 3 и 4, при­ мерно эквивалентны друг другу. А объем необходимых табличных данных во втором случае значительно мень­

ше,

чем

в

первом і(табл.

8.4 включает

1139

буквосоче-

 

 

 

 

 

 

 

Т а б л и ц а 8.5

В ер оя т н ост ь

правильного оп р ед ел ен и я

граммат ических

классов

 

слов

в т екст ах

п р и р а зл и ч н ы х вариан т ах

пост роения

 

 

 

 

алгорит мов

 

 

 

 

 

 

 

 

 

Вероятность

Вероятность

Вероятность

 

 

 

 

Вер< »ятность правильного

правильного

правильного

 

Характер текста

правильного определения

определения

определения

 

определе­

класса по

класса по

класса по

 

 

 

 

ны класса

табл. 8.3

табл.

8.3 и

табл. 8.3 и

 

 

 

 

но табл. 8.С

и 8.4

по списку из

8.4 и по списку

Научно-технические

0,773

0,880

103 слов

из

100 слов

0,922

 

0,963

тексты

словосоче­

0,976

0,989

0,984

 

0,990

Именные

 

тания,

являющиеся

 

 

 

 

 

 

наименованиями объек­

 

 

 

 

 

 

тов

или их характе­

 

 

 

 

 

 

ристик

 

 

 

 

 

 

 

 

151


таний). Максимальная надежность в определении грам­ матических классов слов получается в случае именных словосочетаний.

В автоматизированных информационно-поисковых си­ стемах алгоритм определения классов слоз по их буквен­ ным кодам может применяться как самостоятельно, так и в сочетании с алгоритмом «точйого» морфологического анализа. Его можно реализовать в различных вариан­ тах. Если ставить целью только однозначное определе­ ние класса слова, то, как показывают расчеты, для хра­ нения признаков классов в памяти машины типа М-20 требуется: для варианта алгоритма, указанного в столб­

це 3 табл.

8.5, — 470 ячеек, для варианта алгоритма,

указанного

в столбце 4 этой таблицы,— 184 ячейки.

Количество признаков, хранимых в памяти машины при использовании первого варианта алгоритма, можно существенно уменьшить, если из табл. 8.4 исключить все буквосочетания, которые определяют тот же класс, что и табл. 8.3. Тогда для хранения признаков классов по­ требуется не 470, а только 250 ячеек памяти.

Первый вариант алгоритма определения классов слоз был реализован в 1966 г. на машине типа М-20 совмест­ но с алгоритмом выделения основ. При этом программа ояределёния классов слов содержала 367 приказов, а программа выделения основ — 371 приказ.

Таблицы признаков для определения грамматических классов слов (аналоги таблиц 8.3 и 8.4) могут быть вы­ полнены сменными, так что одна и та же программа мо­ жет быть настроена для работы с неформализованными текстами и с именными словосочетаниями. Таблицы для именных словосочетаний могут быть получены по табл. 8.3 и 8.4 путем замены указанных в них символов наиболее вероятных грамматических классов слов на символы наиболее вероятных классов, встречающихся только в именных словосочетаниях. Если такая замена оказывается невозможной, то для соответствующего бук­ восочетания указывался грамматический класс «С» (су­ ществительное) .

Определение флективных классов слов по их конечным буквосочетаниям. Анализ и синтез форм слов

В начале главы было указано, что при автоматиче­ ском синтаксическом анализе текстов обычно можно ограничиться сведениями о принадлежности «новых»

155

слов к обобщенным грамматичёским классам. Но для перевода сообщений с информационного языка на естест­ венный этих сведений недостаточно. Нужна процедура автоматического анализа буквенных кодов слов, которая позволила бы получить исходные данные для синтеза различных форм слов. Если отвлечься от такого сравни­

тельно редкого

явления, как

изменение основы слова

при изменении

его формы, то

задача анализа «новых»

слов сводится к задаче выделения ихоснов и определе­ ния флективных классов.

Флективные классы слов делятся на группы по. их принадлежности к обобщенным грамматическим клас­ сам, а класс существительных, кроме того, делится на подгруппы по признаку рода и одушевленности (см. табл. 7.1). Поэтому прежде всего представляет интерес возможность правильного определения признаков рода и одушевленности существительных. Для выяснения это­ го вопроса был проведен анализ обратного частотного словаря объемом 30000 единиц и обратного словаря основ наиболее часто встречающихся слов объемом 5 000 единиц (см. приложения 3 и 4). С конца каждой слово­ формы или основы слова последовательно отделялись буквы и сочетания букв и для каждого буквосочетания строилось распределение частот появления ассоцииро­ ванных с ним грамматических категорий. Буквосочета­ ние считалось отличительным признаком того значения грамматической категории, вместе с которым оно чаще всего встречалось. Формальные признаки флективных классов слов определялись по аналогичной методике.

Оказалось, что у существительных имеет место кор­ реляционная зависимость между значениями категории рода (мужской род, женский род, средний род) и гра­ фическим изображением слова (см. табл. 8.6). Выясни­ лось также, что выгоднее определять признак рода существительных по конечным буквосочетаниям их основ, чем по конечным буквосочетаниям словоформ. Так, с помощью списка двухбуквенных сочетаний объ­ емом 244 элемента можно определять грамматический род существительных с вероятностью 0,85. Если же ис­ пользовать для определения рода дополнительно 3-ю и 4-ю буквы от конца основы, то можно повысить веро­ ятность правильного определения рода до величины 0,98. При этом список сочетаний 3-й и 4-й букв включает 234 элемента.

156


Табл и'ца 8.6

В е р о я т н о ст ь

правильного о п р ед ел ен и я

рода

сущест вит ельных,

по конечны м буквосочет аниям словоф орм

 

 

Количество букв в признаке

1

2

3

4

5

Вероятность

правильного опреде-

0,62

0,76

0,85

0,92

0,93

ления рода

.

30

323

926

2-103^

2593

~~ Объем словаря признаков

 

 

 

 

 

В табл. 8.6 приведены полные объемы словарей одно­ буквенных и двухбуквенных признаков грамматического рода. Трехбуквенные и четырехбуквенные признаки при­ влекались для определения рода существительных толь­ ко тогда, когда количество словоформ словаря, непра­ вильно расклассифицированных по двухбуквенным при­ знакам, превосходило число девять. Количество отобран­ ных таким образом трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков приведено в четвертом и пятом столбцах табл. 8.6 (в нижней строке). Пятая буква привлекалась для уточнения грамматического рода слова только тог­ да, когда количество словоформ, неправильно расклас­ сифицированных по четырехбуквенному признаку, было больше двух. При этом использовались двухбуквенные, четырехбуквенные и пятибуквенные признаки. Суммар­ ный объем перечней этих признаков приведен в шестом столбце табл. 8.6.

При определении рода существительных по буквен­ ным кодам основ слов использовался полный перечень их конечных двухбуквенных сочетаний, а обращение к со­ четаниям 3-й и 4-й букв от конца основы происходило в тех случаях, когда хотя бы один из элементов словаря классифицировался неправильно. Следует также огово­ рить, что из состава перечня сочетаний 3-й и 4-й букв были исключены сочетания, которые не оказывали влия­ ния на результаты, получаемые по 1-й и 2-й буквам от конца основы слова.

Значения категории одушевленности существитель­ ных, как показали исследования, определяются по ко­ нечным двухбуквенным сочетаниям основ слов с вероят­ ностью 0,94, а с привлечением 3-й и 4-й букв от конца основы— с вероятностью 0,99. При этом список сочета­

157


ний 1-й и 2-й букв от конца основы включает 244 эле­ мента, а список сочетаний 3-й и 4-й букв — 424 элемента.

Необходимо заметить, что флективные классы оду­ шевленных существительных являются аналогами соот­ ветствующих флективных классов неодушевленных су­ ществительных мужского и женского рода (отличие про­ является только в винительном падеже), а встречаются они в текстах довольно редко <(с вероятностью 0,05). По­ этому при рассмотрении способов приближенного морфо­ логического анализа и синтеза слов категорию одушев­ ленности можно не учитывать.

 

Для определения флективных классов слов целесооб­

разно использовать следующие их признаки: а)

принад­

лежность к

обобщенному

грамматическому

классу;

б)

значение категории рода

(для существительных);

в)

грамматическое окончание; г) конечные

буквосоче­

тания основы.

Конечные буквосочетания

основ слов

(двухбуквепные и четырехбуквенные), необходимее-для определения флективных классов, выявлялись по обрат­ ному словарю словоформ раздельно для каждого соче­ тания обобщенного грамматического класса и окончания слова, а в случае существительных — раздельно для каждого сочетания значения категории рода и оконча­

ния слова.

Двухбуквепные сочетания использовались

в полном

объеме, а четырехбуквенные — лишь тогда,

когда по двум буквам флективный класс определялся

неоднозначно.

_

В соответствии с вышеизложенным

процедура при­

ближенного морфологического анализа слов, ориентиро­ ванная па их последующий синтез, должна состоять из следующих этапов:

1)определение обобщенного грамматического класса слова и членение слова на основу и окончание;

2)определение грамматического рода существитель­ ных (по буквенному коду основы слова);

3)определение номера флективного класса слова (по

его обобщенному грамматическому классу, признаку рода, окончанию и конечным буквосочетаниям основы); 4) определение номера набора переменной граммати­

ческой информации к слову (по табл. 7.4).

На этапах 1—3 морфологического анализа для полу­ чения грамматической информации о слове используют­ ся таблицы двухбуквенных и четырехбуквенных призна­ ков. Общий объем этих таблиц составляет 11 066 элемен­

158


тов*. Если изъять из них четырехбукзепные признаки, не несущие новойинформации по сравнению с двухбук­ венным признаками, то их общин объем может быть со­ кращен до 6 566 элементов. Этап 4 приближенного мор­ фологического анализа выполняется по тем же правилам, что и при точном морфологическом анализе: номер на­ бора переменной грамматической информации к слову определяется по номеру флективного класса и номеру окончания.

Процедура приближенного морфологического анали­ за была опробована на текстах двух типов: а) Неформа­ лизованный текст; б) список именных словосочетаний (наименования объектов и их характеристик). Оба тек­ ста имели объем 1000 слов. Оказалось, что на произ­ вольных текстах флективный класс слова определяется правильно с вероятностью 0,88, а в именных словосоче­ таниях— с вероятностью 0,95. При этом номера наборов грамматической информации определялись правильно с вероятностями соответственно 0,89 и 0,98.

Различие в уровнях вероятности правильного опреде­ ления флективных классов слов в неформализованных текстах я в именных словосочетаниях объясняется раз­ личием в уровнях вероятности правильного определения обобщенных грамматических классов слов в этих двух видах текстов. В именных словосочетаниях по сравне­ нию с неформализованным текстом более высокий уро­ вень вероятности правильного определения обобщенных грамматических классов достигается за счет уменьшения числа классов, подлежащих опознаванию.

Правильность определения флективных классов слов гарантирует правильность последующего синтеза их форм. Но слова могут синтезироваться правильно и'в тех случаях, когда их принадлежность к флективным клас­ сам определена неверно. Это возможно вследствяё того, что у разных флективных классов слов системы оконча­ ний могут частично совпадать.

С целью проверки эффективности процедуры прибли­ женного морфологического синтеза (точнее, процедуры морфологического синтеза, основанной па определении флективных классов слов по их конечным буквосочета­

ниям) был

проведен

следующий

эксперимент. -Для не-

*

Таблицы

признаков

флективных

классов были составлены

И . М

. Давыдовой.

 

 

159