Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 143
Скачиваний: 3
Продолженае табл. 14.1
Сочетание классов Правило установления синтаксической связи и вид связи
слов
П е р в ы й и в т о р о й п р о х о д ы
чг
нг
1. |
Проверка элементов сочетания |
на контактное рас- |
|||||
положение; |
„да“— перейти к |
п.2; |
„нет“—установить |
||||
связь |
вида |
|
элемента |
сочетания на |
наличие |
||
2. |
Проверка первого |
||||||
признака отрицательной |
частицы |
(„не“ или „ни“): |
„да“— |
||||
установить связь вида |
„нет“—установить связь ви |
||||||
даВо |
всех |
случаях установить |
связь |
вида |
|
П е р в ы й п р о х о д
чн |
положение:1. Проверка„да“элементов—перейти сочетанияк п.2; „нет“—на контактноесвязь не устарас- |
|||
|
навливать. |
элемента |
сочетания на наличие |
|
|
2. Проверка первого |
|||
|
признака отрицательной |
частицы |
(„не“ или |
„ни“):„ да“— |
|
установить связь вида |
„нет“—связь |
не устанавли |
|
|
вать. |
|
|
|
Синтаксический анализ предложения совершается за три прохода. П е р в ы й п р о х о д — предложение анали зируется начиная с его конца с постепенным продвиже нием к началу. При этом устанавливается большая часть связей между словами. Исходным положением является такое, когда анализу подвергаются два последних слова в предложении, заключительным — когда левым элемен том анализируемого сочетания слов оказывается первое слово предложения.
Переход от одного сочетания слов к другому осущест вляется по следующему правилу. Если левый элемент анализируемого сочетания является управляющим, то при переходе к следующему сочетанию слов он прини мается за правый элемент, а в качестве левого элемента нового сочетания берется соседнее слово, расположенное слева; аналогичным образом поступают, когда слова не связаны друг с другом. Если левый элемент анализируе мого сочетания является управляемым, то левый элемент следующего сочетания слов берется с номером, на еди ницу меньшим, а правый элемент оставляется неизмен ным. Исключение составляют сочинительные союзы и знаки препинания, которые при первом проходе служат
249
признаком разрыва цепочки связей в предложении, если слева от них не стоит прилагательное. Анализ предложе ния слева от места разрыва связей продолжается по тем же правилам, что и справа от него. При этом место раз рыва связей считается концом предложения. Прилага тельное слева от союза или запятой проверяется на воз можность установления связи со словами, расположен ными справа от них.
В т о р о й п р о х о д совершается слева направо (от начала предложения к его концу). При этом последова тельно устанавливаются связи для тех слов в предложе нии, для которых при первом проходе не были найдены подчиняющие слова (исключение составляют глаголы, которые могут не иметь подчиняющих слов).
Если слово без «хозяина» не является глаголом, при частием, сочинительным союзом или запятой, то сначала управляющее слово (глагол) ищется справа от него, а затем (при отрицательном результате поиска) — слева. Поиск управляющего слова прекращается на границах предложения. Если слово без «хозяина» является при частием, то справа и слева от него ищется существитель ное, согласованное е ним в роде, числе и падеже, а на правление связи между существительным и причастием устанавливается согласно табл. 14.1
В случае сочинительного союза сначала проверяется, не является ли слово, стоящее слева, прилагательным. Если да, то переходят к следующему слову без «хозя ина»; если нет, то справа от сочинительного союза ищет ся слово, не являющееся прилагательным, а слева — слово, однородное по грамматическому классу с найден ным правым элементом. Для существительных, кроме того, требуется, чтобы признаки числа и падежа совпа дали. Далее обоим элементам, соединенным сочинитель ным союзом, назначаются одни и те же связи с другими словами предложения (т. е. связи одного элемента рас пространяются и на другой элемент).
Если слово без «хозяина» является запятой, то обра ботке подвергается слово, стоящее справа от нее. При этом для существительного ищется слева от запятой дру гое существительное с такими же признаками числа и падежа и «правому» существительному назначается то же управляющее слово, что и «левому». Для причастия ищется слева от запятой существительное, согласующе еся с ним в роде, числе и падеже, а для деепричастия
250
управляющий им глагол ищется в левой и правой частях предложения. Второй проход при анализе предложения заканчивается, когда оказываются просмотренными все слова без «хозяина».
Т р е т и й проход, как и второй, совершается слева направо и служит для выявления дополнительных свя зей глаголов и отглагольных форм с предлогами, не вы явленных за первый и второй проходы. Работа алгорит ма на третьем этапе заключается в последовательном поиске (в направлении от начала предложения к его концу) глаголов, причастий и деепричастий и установ ления связей этих слов с предлогами, расположенными слева и справа от них. Новые связи глаголов и глаголь ных форм с предлогами устанавливаются в пределах фрагментов предложений, ограниченных слева и справа другими глаголами и глагольными формами, а также предлогами, подчиненными другим глаголам и глаголь ным формам.
Алгоритм автоматического построения дерева предло жения был запрограммирован А. К. Родионовой для ма шины БЭСМ-ЗМ и опробован совместно с программами точного и приближенного морфологического анализа. Программа точного морфологического анализа работала со словарем, включающим 4000 наиболее часто встре чающихся основ слов. В словаре кроме номеров морфо логических классов основам слов назначались следую щие дополнительные грамматические признаки: 1) при знак глагольного происхождения (отглагольные сущест вительные, причастия, деепричастия); 2) признак мо дальности (для модальных глаголов); 3) признак место именное™; 4) признак субстантивированного прилага
тельного |
(для прилагательных, |
способных выступать |
в роли |
существительного); 5) |
признак числительного. |
Программа построения дерева предложения имела объ ем 1244 команды.
Кроме перечисленных выше программ в состав экспе риментальной модели синтаксического анализа предло жений входила программа ввода текстов с телеграфного аппарата и программа распечатки результатов анализа на АЦПУ. На АЦПУ выдавался текст исходного пред ложения вместе с присвоенными машиной порядковыми номерами слов, перечень новых слов (слов, не содержа щихся в словаре) с их грамматическими признаками и структура дерева предложения. Структура дерева пред
251
ложения описывалась путем указания для каждого но мера слова перечня номеров слов, непосредственно ему подчиненных и его подчиняющих.
Всего было проанализировано более тысячи предло жений и именных словосочетаний. В табл. 14.2—14.4 приведены количественные данные, характеризующие результаты анализа 100 предложений.
Р езул ьт а т ы |
авт омат ического синт |
Т а б л и д а |
14.2 |
||||
|
|
|
|
|
аксического |
ан ал иза |
|
|
|
|
100 |
п р ед л о ж ен и й |
|
|
|
|
|
|
|
|
Абсолютное |
Относитель |
|
Наименование признака |
|
ное |
при |
||||
|
значение при |
значение |
|||||
Общее количество автоматически уста |
знака |
знака, % |
|||||
1808 |
100 |
|
|||||
новленных связей между словами |
283 |
15,6 |
|
||||
Количество |
неправильно установленных |
|
|||||
связей |
потерянных связей |
293 |
16 |
|
|||
Количество |
|
||||||
Общее количество слов в предложе |
2075 |
100 |
|
||||
ниях |
|
|
|
|
246 |
12 |
|
Количество новых слов |
с |
неправильно |
|
||||
Количество |
новых слов |
29 |
1,4 |
|
|||
определенными грамматическими класса |
|
|
|
||||
ми |
новых |
слов |
с |
неправильно |
11 |
0,5 |
|
Количество |
|
выделенной основой
Табл. 14.2 иллюстрирует качество работы алгоритма синтаксического анализа и алгоритма приближенного морфологического анализа. Из этой таблицы видно, что уровень «шумов» и «потерь» связей при синтаксическом анализе не превосходит 16%. Если учесть, что анализ предложений проводился только по формальным прави лам и без учета семантики слов и словосочетаний, го та кое качество работы алгоритма можно признать удов летворительным.
В табл. 14.3, 14.4 приведены статистические данные о причинах «шумов» и' «потерь» при синтаксическом ана лизе. При этом следует иметь в виду, что одно и то же явление (потеря связи или появления ложной связи) мо жет быть результатом одновременного действия ряда причин, а неправильное определение грамматического
252
|
Т а б л и ц а 14.3 |
|
П р а ч и н ы неправильного |
уст ановления синт аксических |
|
с в я з е й м еж ду словами |
п р и авт омат ическом |
ан ал изе |
п редл ож ен и й |
|
|
Причины появления ложных связей между словами |
Количество ло ж- |
|
пых связей |
||
Новые слова |
|
57 |
Местоименные слова |
|
37 |
Омонимия словоформ |
|
27 |
Предлоги |
|
70 |
Границы между предложениями в составе слож- |
3 |
|
ного предложения |
|
122 |
Прочие причины |
|
П р и чи н ы пот ерь синт аксических |
св я з е й |
Тма б |
л |
и ц а 14.4 |
|
|
еж ду |
||
словами п р и автоматическом анализе п р едл ож ен и й |
||||
Причины потерь связей между словами |
|
Количество по |
||
|
терянных связей |
|||
Новые слова |
|
|
|
66 |
Омонимия словоформ |
|
|
|
34 |
Местоименные слова |
|
|
|
46 |
Предлоги |
слож- |
|
|
9 |
Границы между предложениями в составе |
|
|
18 |
|
ного предложения |
|
|
|
163 |
Прочие причины |
|
|
|
класса одного нового слова может привести к искаже нию схемы синтаксических связей нескольких слов.
Г л а в а 15 АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ
Предварительные замечания
Сущность процесса индексирования документов со стоит в переводе их содержания на язык Индексов — информационный язык, предназначенный для накопле ния, хранения, поиска и выдачи по запросам сведений
253