Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 143

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Продолженае табл. 14.1

Сочетание классов Правило установления синтаксической связи и вид связи

слов

П е р в ы й и в т о р о й п р о х о д ы

чг

нг

1.

Проверка элементов сочетания

на контактное рас-

положение;

„да“— перейти к

п.2;

„нет“—установить

связь

вида

 

элемента

сочетания на

наличие

2.

Проверка первого

признака отрицательной

частицы

(„не“ или „ни“):

„да“—

установить связь вида

„нет“—установить связь ви­

даВо

всех

случаях установить

связь

вида

 

П е р в ы й п р о х о д

чн

положение:1. Проверка„да“элементов—перейти сочетанияк п.2; „нет“—на контактноесвязь не уста­рас-

 

навливать.

элемента

сочетания на наличие

 

2. Проверка первого

 

признака отрицательной

частицы

(„не“ или

„ни“):„ да“—

 

установить связь вида

„нет“—связь

не устанавли­

 

вать.

 

 

 

Синтаксический анализ предложения совершается за три прохода. П е р в ы й п р о х о д — предложение анали­ зируется начиная с его конца с постепенным продвиже­ нием к началу. При этом устанавливается большая часть связей между словами. Исходным положением является такое, когда анализу подвергаются два последних слова в предложении, заключительным — когда левым элемен­ том анализируемого сочетания слов оказывается первое слово предложения.

Переход от одного сочетания слов к другому осущест­ вляется по следующему правилу. Если левый элемент анализируемого сочетания является управляющим, то при переходе к следующему сочетанию слов он прини­ мается за правый элемент, а в качестве левого элемента нового сочетания берется соседнее слово, расположенное слева; аналогичным образом поступают, когда слова не связаны друг с другом. Если левый элемент анализируе­ мого сочетания является управляемым, то левый элемент следующего сочетания слов берется с номером, на еди­ ницу меньшим, а правый элемент оставляется неизмен­ ным. Исключение составляют сочинительные союзы и знаки препинания, которые при первом проходе служат

249



признаком разрыва цепочки связей в предложении, если слева от них не стоит прилагательное. Анализ предложе­ ния слева от места разрыва связей продолжается по тем же правилам, что и справа от него. При этом место раз­ рыва связей считается концом предложения. Прилага­ тельное слева от союза или запятой проверяется на воз­ можность установления связи со словами, расположен­ ными справа от них.

В т о р о й п р о х о д совершается слева направо (от начала предложения к его концу). При этом последова­ тельно устанавливаются связи для тех слов в предложе­ нии, для которых при первом проходе не были найдены подчиняющие слова (исключение составляют глаголы, которые могут не иметь подчиняющих слов).

Если слово без «хозяина» не является глаголом, при­ частием, сочинительным союзом или запятой, то сначала управляющее слово (глагол) ищется справа от него, а затем (при отрицательном результате поиска) — слева. Поиск управляющего слова прекращается на границах предложения. Если слово без «хозяина» является при­ частием, то справа и слева от него ищется существитель­ ное, согласованное е ним в роде, числе и падеже, а на­ правление связи между существительным и причастием устанавливается согласно табл. 14.1

В случае сочинительного союза сначала проверяется, не является ли слово, стоящее слева, прилагательным. Если да, то переходят к следующему слову без «хозя­ ина»; если нет, то справа от сочинительного союза ищет­ ся слово, не являющееся прилагательным, а слева — слово, однородное по грамматическому классу с найден­ ным правым элементом. Для существительных, кроме того, требуется, чтобы признаки числа и падежа совпа­ дали. Далее обоим элементам, соединенным сочинитель­ ным союзом, назначаются одни и те же связи с другими словами предложения (т. е. связи одного элемента рас­ пространяются и на другой элемент).

Если слово без «хозяина» является запятой, то обра­ ботке подвергается слово, стоящее справа от нее. При этом для существительного ищется слева от запятой дру­ гое существительное с такими же признаками числа и падежа и «правому» существительному назначается то же управляющее слово, что и «левому». Для причастия ищется слева от запятой существительное, согласующе­ еся с ним в роде, числе и падеже, а для деепричастия

250

управляющий им глагол ищется в левой и правой частях предложения. Второй проход при анализе предложения заканчивается, когда оказываются просмотренными все слова без «хозяина».

Т р е т и й проход, как и второй, совершается слева направо и служит для выявления дополнительных свя­ зей глаголов и отглагольных форм с предлогами, не вы­ явленных за первый и второй проходы. Работа алгорит­ ма на третьем этапе заключается в последовательном поиске (в направлении от начала предложения к его концу) глаголов, причастий и деепричастий и установ­ ления связей этих слов с предлогами, расположенными слева и справа от них. Новые связи глаголов и глаголь­ ных форм с предлогами устанавливаются в пределах фрагментов предложений, ограниченных слева и справа другими глаголами и глагольными формами, а также предлогами, подчиненными другим глаголам и глаголь­ ным формам.

Алгоритм автоматического построения дерева предло­ жения был запрограммирован А. К. Родионовой для ма­ шины БЭСМ-ЗМ и опробован совместно с программами точного и приближенного морфологического анализа. Программа точного морфологического анализа работала со словарем, включающим 4000 наиболее часто встре­ чающихся основ слов. В словаре кроме номеров морфо­ логических классов основам слов назначались следую­ щие дополнительные грамматические признаки: 1) при­ знак глагольного происхождения (отглагольные сущест­ вительные, причастия, деепричастия); 2) признак мо­ дальности (для модальных глаголов); 3) признак место­ именное™; 4) признак субстантивированного прилага­

тельного

(для прилагательных,

способных выступать

в роли

существительного); 5)

признак числительного.

Программа построения дерева предложения имела объ­ ем 1244 команды.

Кроме перечисленных выше программ в состав экспе­ риментальной модели синтаксического анализа предло­ жений входила программа ввода текстов с телеграфного аппарата и программа распечатки результатов анализа на АЦПУ. На АЦПУ выдавался текст исходного пред­ ложения вместе с присвоенными машиной порядковыми номерами слов, перечень новых слов (слов, не содержа­ щихся в словаре) с их грамматическими признаками и структура дерева предложения. Структура дерева пред­

251


ложения описывалась путем указания для каждого но­ мера слова перечня номеров слов, непосредственно ему подчиненных и его подчиняющих.

Всего было проанализировано более тысячи предло­ жений и именных словосочетаний. В табл. 14.2—14.4 приведены количественные данные, характеризующие результаты анализа 100 предложений.

Р езул ьт а т ы

авт омат ического синт

Т а б л и д а

14.2

 

 

 

 

 

аксического

ан ал иза

 

 

 

 

100

п р ед л о ж ен и й

 

 

 

 

 

 

 

Абсолютное

Относитель­

Наименование признака

 

ное

при­

 

значение при­

значение

Общее количество автоматически уста­

знака

знака, %

1808

100

 

новленных связей между словами

283

15,6

 

Количество

неправильно установленных

 

связей

потерянных связей

293

16

 

Количество

 

Общее количество слов в предложе­

2075

100

 

ниях

 

 

 

 

246

12

 

Количество новых слов

с

неправильно

 

Количество

новых слов

29

1,4

 

определенными грамматическими класса­

 

 

 

ми

новых

слов

с

неправильно

11

0,5

 

Количество

 

выделенной основой

Табл. 14.2 иллюстрирует качество работы алгоритма синтаксического анализа и алгоритма приближенного морфологического анализа. Из этой таблицы видно, что уровень «шумов» и «потерь» связей при синтаксическом анализе не превосходит 16%. Если учесть, что анализ предложений проводился только по формальным прави­ лам и без учета семантики слов и словосочетаний, го та­ кое качество работы алгоритма можно признать удов­ летворительным.

В табл. 14.3, 14.4 приведены статистические данные о причинах «шумов» и' «потерь» при синтаксическом ана­ лизе. При этом следует иметь в виду, что одно и то же явление (потеря связи или появления ложной связи) мо­ жет быть результатом одновременного действия ряда причин, а неправильное определение грамматического

252


 

Т а б л и ц а 14.3

П р а ч и н ы неправильного

уст ановления синт аксических

с в я з е й м еж ду словами

п р и авт омат ическом

ан ал изе

п редл ож ен и й

 

Причины появления ложных связей между словами

Количество ло ж-

пых связей

Новые слова

 

57

Местоименные слова

 

37

Омонимия словоформ

 

27

Предлоги

 

70

Границы между предложениями в составе слож-

3

ного предложения

 

122

Прочие причины

 

П р и чи н ы пот ерь синт аксических

св я з е й

Тма б

л

и ц а 14.4

 

 

еж ду

словами п р и автоматическом анализе п р едл ож ен и й

Причины потерь связей между словами

 

Количество по­

 

терянных связей

Новые слова

 

 

 

66

Омонимия словоформ

 

 

 

34

Местоименные слова

 

 

 

46

Предлоги

слож-

 

 

9

Границы между предложениями в составе

 

 

18

ного предложения

 

 

 

163

Прочие причины

 

 

 

класса одного нового слова может привести к искаже­ нию схемы синтаксических связей нескольких слов.

Г л а в а 15 АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

Предварительные замечания

Сущность процесса индексирования документов со­ стоит в переводе их содержания на язык Индексов — информационный язык, предназначенный для накопле­ ния, хранения, поиска и выдачи по запросам сведений

253