Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 165
Скачиваний: 3
формализованного текста объемом 1000 слов и списка именных словосочетаний такого же объема были опре делены по описанным выше правилам флективные клас сы всех входящих в них слов. После этого были состав лены перечни попарно-различных основ слов отдельно для неформализованного текста и для списка именных словосочетаний. Далее, для каждой основы слова были синтезированы все различные словоформы. Обнаружи лось, что вероятность правильного синтеза форм слов по их основам, взятым из неформализованного текста, рав на 0,88, а вероятность правильного синтеза форм слов по основам, взятым.из списка именных словосочетаний,— 0,98. Если учесть неравномерность распределения частот появления в текстах различных форм одного и того же слова (например, с помощью частотного словаря слово форм), то вероятности правильного синтеза форм слов будут равны: для неформализованного текста 0,98, для именных словосочетаний 0,99.
Таким образом, на основе процедуры приближенного морфологического анализа можно выявлять грамматиче ские признаки слов, которые позволяют осуществлять морфологический синтез с высокой степенью надежности.
Определение флективных классов «новых» слов
спомощью словаря
Впредыдущих разделах настоящей главы было по казано, что в русском языке имеет место тесная связь между грамматическими признаками слов и буквенным оформлением их концов. Это дает основание предпола гать, что для «новых» слов грамматические признаки мо гут назначаться по аналогии со словами, ранее включен ными в словарь, если конечные буквосочетания «новых»
слов и слов из словаря совпадают.
Для определения степени совпадения конечных бук восочетаний различных слов автором было проведено два эксперимента. Один из них проводился с использо ванием словаря словоформ объемом 15000 наиболее часто встречающихся единиц, а другой — с использова нием эквивалентного ему по заполнению текстов словаря основ объемом 5 000 наиболее часто встречающихся еди ниц. В процессе обоих экспериментов фиксировались только случаи максимального совпадения концов «но вых» слов с концами слов из словаря. В эксперименте
160
со словарем основ слов общее количество совпавших
букв у сравниваемых слов определялось как сумма ко |
|
личества совпавших букв у их основ и количества |
букв |
в окончании «нового» слова при условии, что это |
окон |
чание совместимо с основой слова из словаря.
В результате экспериментов были получены распре деления частот появления максимальных значений коли
чества |
совпавших |
конечных букв у «новых» слов и |
у слов |
из словаря |
(отдельно для словаря словоформ и |
для словаря основ слов). Эти распределения приведены
в табл. '8.7. |
Средние |
значения |
количества совпавших |
||||
|
|
|
|
|
|
Т а б л и ц а 8.7 |
|
Распределение частот появления раз яичных значений |
|||||||
максимального количества |
совпавиііх |
конечных |
букв у |
„новых“ |
|||
|
слов и у слов из словаря |
|
|
||||
Максимальное |
Частота |
|
Максимальное |
Частота |
|||
|
|
|
|
|
|||
количество |
по слова |
по словарю |
количество |
по слова |
по словарю |
||
совпав них |
совпавших |
||||||
букв |
рю основ |
словоформ |
|
букв |
рю основ |
словоформ |
|
1 |
0,005 |
0,046 |
|
10 |
0,040 |
0,018 |
|
2 |
0,046 |
|
11 |
0.009 |
0,009 |
||
3 |
0,104 |
0,131 |
|
12 |
0,005 |
0,019 |
|
4 |
0,176 |
0,144 |
|
13 |
0,002 |
0,004 |
|
5 |
0,196 |
0,189 |
|
14 |
0,002 |
0,002 |
|
6 |
0,170 |
0,182 |
|
15 |
0,005 |
0,002 |
|
7 |
0,138 |
0,106 |
|
16 |
— |
— |
|
8 |
0,052 |
0,074 |
|
17 |
— |
0,002 |
|
9 |
0,050 |
0,072 |
|
— |
— |
— |
букв в обоих экспериментах оказались равными вели чине 5,6.
По словарю словоформ грамматические признаки «новых» слов могут определяться следующим образом:
1. «Новая» словоформа сравнивается со словоформа ми из словаря, и фиксируются все случаи совпадения кондов словоформ.
2. Из словаря выбираются словоформы, у которых длина конечных буквосочетаний, совпавших с конечным буквосочетанием нового слова, является максимальной. Если выбирается только одна словоформа, то ее грам матический признак считается грамматическим призна ком новой словоформы; если выбирается группа слово форм, то для этой группы строится распределение частот
11— 310 |
161 |
появления грамматических признаков и новой словофор ме назначается наиболее частый признак.
Процедура определения грамматических признаков новых слов по словарю основ аналогична процедуре их определения по словарю словоформ. Отличие состоит в способе выбора словарных элементов, по которым про изводится назначение признаков. Здесь у исходной сло воформы отделяются все возможные варианты грамма тических окончаний, а полученные таким образом вари анты основ слов сравниваются с основами словаря. Фиксируются все случаи совпадения концов основ «но вого» слова с концами основ из словаря при условии, что соответствующие варианты окончаний нового слова совместимы со словарными основами (совместимость основ и окончаний проверяется но табл. 7.4). В каждом случае определяется сумма количества совпавших букв в сравниваемых основах и количества букв в окончании «нового» слова. Из словаря выбираются основы с мак симальным значением суммы. Выбранные основы ис пользуются для назначения грамматических признаков «новому» слову.
Возможность определения грамматических признаков «новых» слов с помощью словаря была проверена на примере обобщенных и флективных классов. Оказалось, что в неформализованных текстах с помощью словаря основ обобщенные грамматические классы определяются правильно с вероятностью 0,96, флективные классы — с вероятностью 0,89. С помощью словаря словоформ об общенные классы определяются правильно с вероятно стью 0,95, флективные классы — с вероятностью 0,91. В именных словосочетаниях обобщенные и флективные классы слов определялись тбчнее: обобщенные классы— с вероятностью 0,99, флективные классы — с вероятно стью 0,95, причем данные, полученные с помощью сло варя основ слов и с помощью словаря словоформ, сов падали.
Таким образом, словарь основ слов и словарь слово форм могут быть использованы в качестве средства для определения грамматических признаков «новых» слов. При этом отпадает необходимость в специальных спи сках конечных буквосочетаний слов.
162
Г л а в а 9 АВТОМАТИЧЕСКОЕ КОДИРОВАНИЕ
ИДЕКОДИРОВАНИЕ НАИМЕНОВАНИИ ПОНЯТИИ
Вавтоматизированных информационных системах, основанных на формализованной записи сведений, ши роко используются понятия, выраженные отдельными словами и именными словосочетаниями. Эти понятия мо гут обозначать различного рода объекты, их характери стики, рубрики классификационных, схем и т. п. В имен ных словосочетаниях главным словом (основным носи телем смысла) является, как правило, первое слева
существительное, а остальные слова служат для уточне ния значения главного слова.
Буквенные коды наименований понятий имеют боль шую избыточность и могут иметь разную длину. Их применение в ЭВМ приводит к нерациональному исполь зованию памяти и создает практические неудобства при автоматическом поиске и обработке информации. По этой причине понятия в машинах представляются не по буквенными кодами их словесных обозначений, а более короткими кодовыми комбинациями. В качестве кодов понятий используются порядковые номера их наимено ваний по списку или специальные индексы, отражающие схему классификации этих понятий.
Переход от наименований понятий к машинным ко
дам может |
осуществляться вручную и |
автоматически |
с помощью |
ЭВМ. В последнем случае |
более удобным |
является кодирование понятий их номерами по списку. В процессе дальнейшей обработки информации по номе рам понятий могут выбираться любые кодовые комби нации, описывающие свойства этих понятий.
Именные словосочетания могут включать в свой со став следующие классы слов: существительные (С),при лагательные (П), предлоги (Р), сочинительные союзы
(&) и наречия (Н). Наряду с полными буквенными ко дами слов в составе именных словосочетаний встреча ются также аббревиатуры, буквенно-цифровые обозна чения и числа. Эти элементы словосочетаний обычно вы
ступают |
в роли существительных |
и значительно |
реже |
в роли |
прилагательных (например, |
порядковые |
числи |
тельные в цифровом выражении). |
|
колеблет |
Количество слов в наименованиях понятий |
||
ся в пределах от одного до |
десяти — пятнадцати и |
|
в среднем равно примерно трем. |
Слова могут |
находить- |
11* |
163 |
ся в различной связи друг с Другом. Наиболее типичны ми видами связи являются связь согласования между существительными и определяющими их прилагательны ми, а также предложные и беспредложные связи между существительными.
Прилагательное, как правило, согласуется с сущест вительным, к которому оно относится, в роде, числе и падеже. Существительное, выступающее в роли опреде ления к другому существительному, располагается спра ва от последнего и может иметь форму родительного, творительного или, значительно реже, дательного паде жа. В случае предложного управления форма существи тельного, стоящего справа от предлога, зависит от вида последнего.
Примеры различных структур именных словосочета ний приведены в табл. 9.1. Здесь каждому слову наиме нования понятия поставлен в соответствие символ син таксического класса. Стрелками указано направление связей между существительными, существительными и предлогами, а также между существительными и опре деляющими их прилагательными, если последние распо ложены справа от существительных. Если прилагатель ные располагаются слева от определяемых ими сущест вительных, то стрелки не ставятся. В нижних индексах существительных, не являющихся главными словами, указаны падежи. Падежи обозначены начальными бук вами их наименований.
Понятия автоматически кодируются с помощью двух словарей: словаря слов и словаря понятий. Словарь слов может быть оформлен в виде словаря словоформ или словаря основ слов. Все его элементы нумеруются. Сло варь понятий содержит список свернутых кодов именных словосочетаний, используемых в информационной систе ме. Каждое наименование понятия представлено в сло варе сочетанием нохмеров слов *, входящих в его состав, и номером грамматической структуры. Грамматическая структура словосочетания содержит информацию о свя зях между словами и информацию о формах слов, необ ходимую при декодировании. Различные грамматические структуры задаются списком.
Словарь понятий может быть упорядочен различны ми способами в зависимости от применяемых приемов
* Под номером слова мы -будем в дальнейшем понимать номер ею канонической формы или номер канонической формы его основы.
164
Т а б л и ц а 9.1
Структурные формулы словосочетаний
№ |
Структурная формула |
Словосочетание-представитель |
|||||||||
п/п |
П С |
|
|
|
|
Индикаторное |
устройство |
|
|||
1 |
|
|
|
|
|
||||||
2 |
п п с |
|
|
|
|
Цветное индикаторное |
устройст- |
||||
3 |
п п п с |
|
|
|
Управляющая цифровая вычисли |
||||||
4 |
С -* Ср |
|
|
|
тельная машина |
|
|
|
|
|
|
|
|
|
Испытания машин |
|
|
обору |
|||||
5 |
С -► |
ПСр |
|
|
|
Испытания электронного |
|||||
6 |
С |
ППСр |
|
|
|
дования |
|
цифровых |
вычис |
||
|
|
|
Использование' |
|
|||||||
7 |
С -> ПППСр |
|
|
лительных машин |
|
|
|
|
|||
|
|
Использование управляющих циф |
|||||||||
8 |
П С - > С р |
|
|
|
ровых вычислительных машин |
||||||
|
|
|
Автоматический |
поиск |
информа |
||||||
9 |
ПС -* Ср -* Ср |
|
ции |
|
|
|
система |
||||
|
Автоматизированная |
|
|||||||||
10 |
П П С -> П Ср |
|
|
поиска информации |
|
|
|
||||
|
* |
Международная |
автоматическая |
||||||||
|
С —► Ср —► Ср |
система телефонной связи |
управ |
||||||||
11 |
|
Автоматизация процессов |
|||||||||
С -* Ср -» Ср -* Ср |
ления |
|
систем |
обработ |
|||||||
12 |
Проектирование |
||||||||||
П С -» Ср -» ПСт |
ки информации |
|
|
система уп |
|||||||
13 |
Автоматизированная |
||||||||||
П С -» Р -» ПСр |
|
равления воздушным движением. |
|||||||||
14 |
|
Информационная система для ад |
|||||||||
П С -► Р -> Ср -> Ср |
министративного |
руководства |
|||||||||
15 |
Символические |
языки для поиска |
|||||||||
1 |
|
1 |
|
Ср |
информации |
|
|
|
|
|
|
16 |
С —► Ср & Ср |
|
Система хранения и поиска ин- |
||||||||
|
1 |
|
—* |
t |
формации |
|
|
|
|
|
|
17 |
С —► Р —► Сп |
|
Ср |
Сопротивление |
|
в месте повреж |
|||||
П С - » Р -» Ст -*■ Ср -»Р -* |
дения |
сеть |
с |
возвратом |
|||||||
18 |
Электрическая |
||||||||||
- » Св |
|
|
|
тока через землю |
|
трансформа- |
|||||
|
1 |
^ |
* |
|
|
Комбинированный |
|||||
19 |
|
|
тор тока и напряжения |
|
|
||||||
П С -* Ср & Ср |
|
|
|
||||||||
20 |
d - » r m |
|
|
|
Медь листовая красная |
|
|
165
поиска в нем и в зависимости от задач, которые пред полагается решать с помощью этого словаря. Рациональ ным является такой способ организации словаря, когда сочетания номеров слов упорядочены по длине, а в пре делах группы одинаковой длины — по возрастанию вели чины кодов этих сочетаний. В каждом словосочетании номера главных слов целесообразно предварительно вы нести на первое место слева. Каждому понятию при сваивается порядковый номер, который определяется его позицией в словаре.
Автоматическое кодирование наименований понятий осуществляется в три этапа. Сначала отождествляются слова, входящие в наименование понятия, с элементами словаря слов. Слова заменяются их номерами по слова рю и сопровождаются грамматической информацией. Па втором этапе кодирования выявляется грамматическая структура наименования понятия (синтаксический ана лиз). Наконец, полученный в результате первых двух этапов код отождествляется с одним из элементов сло варя понятий и заменяется на порядковый номер этого элемента (семантический анализ). Порядковый помер понятия далее используется в качестве его кода.
Одной из задач синтаксического анализа наименова
ний понятий является приведение их кодов к |
к а и о н и- |
ч е с к о й форме, в которой они хранятся |
в словаре. |
Это достигается путем назначения главному слову наи менования понятия и согласованным с ним прилагатель ным грамматической информации ^«именительный падеж единственного числа», а также путем перестановок слов и групп слов, не искажающих смысла словосочетаний (путем т р а н с ф о р м а ц и и словосочетаний). Возмож ность трансформаций наименований понятий определяет ся по их грамматической структуре и выполняется та ким образом, чтобы переставляемые слова был« упоря дочены слева направо по возрастанию номеров, а груп пы слов — по возрастанию номеров их начальных слов. По окончании указанных операций главное слово слово сочетания выносится на первое место.
Синтаксический анализ именных словосочетаний
В процессе синтаксического анализа .наименований понятий, необходимого для их автоматического кодиро вания и декодирования, выполняются следующие опера ции: 1) выявляется схема связей между словами: 2) каж-
166