Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 145
Скачиваний: 3
/•
—классификационный словарь понятий (КСП);
—поисковые образы рефератов (ПОР).
Первые три массива имеют структуру, аналогичную структуре соответствующих массивов в фактографиче ской информационно-поисковой системе. В поисковых образах рефератов перечисляются номера всех инфор мативных понятий, встречающихся в названиях докумен тов или в текстах их рефератов. При этом наименования понятий могут выражаться как отдельными словами, так и сочетаниями из двух, трех и т. д. слов. Наряду с по нятиями, отражающими содержание документов, в по исковые образы могут включаться также некоторые биб лиографические данные (например, сведения о стране, языке и времени издания документов).
Процессы поиска и обновления информации в доку ментальной системе сходны с соответствующими процес сами фактографической системы. Их различие опреде ляется в основном различием в структуре массивов со общений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой).
На рис. 13.3 представлена укрупненная схема процес са поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в сло варе понятий, и осуществляется поиск' в этом словаре (блок 2). В результате поиска в словаре понятий каж дому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоци ированных с ним по смыслу. При э£рм понятие В счи тается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. По нятие В считается ассоциированным по смыслу с поня тием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго поня тия, но главные слова не совпадают (например, понятие «применение ЭВМ для поиска информации» является ассоциированным по смыслу с понятием «поиск инфор мации»).
237
На следующем этапе обработки запроса (блок 3) для каждого из исходных понятий и понятий, найденных в процессе работы блока 2, с помощью классификацион ного словаря выбираются номера эквивалентных им по смыслу и подчиненных понятий. Результаты поиска по СП и КСП объединяются таким образом, что для каж дого понятия запроса формируется группа номеров экви валентных и подчиггенных ему понятий, а также группа
Р ис. |
13.3. Схем а процесса |
поиска рефератов |
документов. |
|
ассоциированных понятий |
(в |
последнюю |
входят также |
|
понятия, |
подчиненные и |
эквивалентные |
ассоциирован |
|
ным понятиям, найденным |
в |
результате |
работы бло- |
|
ка 2). |
|
|
|
|
Работой блока«3 заканчивается формирование поис кового образа запроса. Далее (блок 4) ищут номера ре фератов, удовлетворяющих условиям запроса, и форми руют два эшелона выдачи результатов поиска — основ ной и дополнительный.
При конъюнктивной логической связи между поня тиями запроса в основной эшелон выдачи заносятся но мера таких рефератов, в поисковых образах которых содержится хотя бы по одному понятию из каждой группы, включающей понятие запроса и понятия, ему эквивалентные и подчиненные. Второй эшелон выдачи формируется аналогично первому, но при этом для по-
238
иска номеров рефератов привлекаются также понятия, ассоциированные с понятиями запроса, а из результа тов поиска исключаются номера рефератов, вошедшие в первый эшелон выдачи. При дизъюнктивной связи между понятиями запроса перечни соответствующих им эквивалентных, подчиненных и ассоциированных поня тий объединяются. Если в запросе одновременно исполь
зуются конъюнктивные |
и дизъюнктивные связи |
между |
|
понятиями, |
то сначала |
объединяются перечни |
эквива |
лентных, |
подчиненных |
и ассоциированных |
понятий |
в дизъюнктивных группах, затем ищутся номера рефера тов по правилам, предусмотренным для запросов с конъ юнктивной связью между понятиями.
Запросы формулируются заказчиком в произвольном виде. Затем они подвергаются формализации, которая заключается в выделении из текста запроса информа тивных понятий и установлении между ними конъюнк тивной или дизъюнктивной логической связи. Чтобы уве личить полноту выдачи информации, в запрос можно
вносить также наименования |
понятий, отсутствующие |
в его первоначальном тексте. |
Формализация запроса |
обычно производится без обращения к словарю дескрип торов.
Для иллюстрации приведем примеры запросов до их форма лизации и после нее.
Запрос 1: применение методов статистических испытаний для отыскания оптимальных решений в задачах планирования.
Запрос 2: автоматическое регулирование.
Запрос 3: математическая теория информационно-поисковых си стем.
После формализации запросы записывались в следующем виде. Запрос 1: метод статистических испытаний или метод Монте-
Карло, оптимальные решения или оптимизация, планирование. Запрос 2: автоматическое реферирование.
Запрос 3: математическая теория, информационно-поисковые си стемы или информационные системы или поиск информации.
При необходимости в запрос вносятся уточнения, касающиеся страны, языка и времени издания документов.
Формализованный запрос побуквенно набивается на перфоленту в международном телеграфном коде. Далее весь процесс от ввода запроса в Э В М до выдачи ответа на запрос осуществляется авто матически.
Обновление информации в документальной поисковой системе связано с необходимостью ввода в нее сведений о новых документах (текстов рефератов и их поисковых образов). Тексты рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ.
2 3 9
В процессе ввода осуществляется перекодировка букв в код алфавитно-цифрового печатающего устройства, после чего тексты рефератов записываются на магнит ную ленту. Поисковые образы рефератов формируются автоматически на основе их дескрипторных описаний. Дескрипторные описания представляют собой перечни наименований понятий, встречающихся в заголовках и
втекстах рефератов. В их состав включаются также не которые библиографические сведения (полные библио графические описания документов приводятся в текстах рефератов). Наименования понятий отделяются друг от л руга запятыми.
Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вво дятся в ЭВМ. Далее с помощью процедур морфологиче ского анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процес се формирования поисковых образов рефератов на пе чать выдается список «новых» наименований понятий вместе с их словарными номерами. Этот список служит
вдальнейшем в качестве исходного материала для уста новления смысловых связей между наименованиями
понятий и для пополнения классификационного словаря понятий.
Среднее значение коэффициента полноты поиска ре фератов в автоматизированной документальной инфор мационно-поисковой системе описанного типа оказалось равным 83%. Среднее значение коэффициента шума — 7%, причем в первом эшелоне выдачи оно было равно 3%, а во втором эшелоне— 18%. Коэффициент полноты поиска определялся как отношение числа релевантных рефератов, содержащихся в ответах на запросы, к числу релевантных рефератов, полученных путем объединения результатов ручного и автоматического поиска по запро сам, коэффициент шума — как отношение числа нереле вантных рефератов к общему числу рефератов, выдан ных в качестве ответов на запросы.
Анализ причин потерь информации при автоматиче ском поиске показал, что в основном это происходит из-за неполного учета смысловых связей между поня тиями в классификационном словаре. Наряду с улучше нием качества классификационного словаря могут быть
2 4 0
применены и другие способы увеличения полноты выда чи информации: введение в запрос вариантов формули ровок наименований понятий с указанием дизъюнктив ной логической связи между ними; разбиение словосоче таний запроса на более короткие словосочетания и от дельные слова с указанием конъюнктивной логической связи между выделенными элементами; уточнение фор мулировки запроса по результатам пробного поиска и др.
Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов сло восочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума.
Описанная документальная информационная система реализована на ЭВМ. Общий объем ее программ состав ляет около 12 000 команд*.
Деление информационно-поисковых систем на факто графические и документальные условно. Доказательст вом правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные по исковые образы. Тогда тексты фактографических запи сей могут выдаваться потребителям информации по тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы ре фератов должны представляться в виде массива элемен тарных сообщений, а тексты рефератов интерпретиро ваться как значения характеристики с наименованием «текст реферата». Но в фактографических информацион но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ.
* Наряду с авторами в разработке системы и ее практической реализации принимали участие Ю . А . Кожевников, В. И . Тихонов, И. И . Быстров и др.
16— 3 1 0 |
241 |
Г л а в а 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ
Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксиче ского анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирова ние языка непосредственно связано с процессами мыш ления, которые еще недостаточно изучены. Над созда нием процедур синтаксического анализа естественных языков работает ряд ученых в нашей стране и за рубе жом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробированных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентиро ванными на решение частных задач обработки текстовой информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автома тического индексирования деловых текстов.
При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориенти руются. Эффективным путем получения такого рода све дений является статистическое обследование текстов. Оно позволяет выявить различные элементы граммати ческой структуры и оценить их относительную значи мость.
В основу синтаксического анализа текстов была поло жена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в виде графа, в узлах которого помещались символы грамматических классов слов и информация о форме слова. Узлы соеди нялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненно му). При этом использовались следующие условные обозначения.
242
1. О с н о в н ы е и н д е к с ы (символы основных грамматиче ских классов слов):
С— существительное, количественное числительное;
П— полное прилагательное, полное причастие, порядковое чис
лительное; Г — глагол, краткое прилагательное, краткое причастие;
Н— наречие, деепричастие, сравнительная степень прилагатель ного;
Р— предлог;
&■— союз;
Ч— частица.
2. В е р х н и е и н д е к с ы :
* — признак аббревиатур и неизменяемых существительных;
м— признак местоименности;
ч— признак числительного; мод — признак модальности;
in f — признак неопределенной формы глагола;
пр — признак глагола прошедшего времени;
t |
— признак переходности (у глаголов, причастий и дееприча |
|
стий) ; |
||
|
і— признак непереходности (у глаголов, причастий и деепри частий) ;
под — признак подчинительного союза.
Кроме перечисленных символов в качестве верхних индексов использовались также символы п, н, г (с тем же значением, что и символы П , Н , Г) для обозначения субстантивированных прилага тельных (Сп), союзных слов, относящихся к классу наречий (&лодН),
отглагольных |
существительных |
(Сг), |
причастий |
(П г), деепричастий |
(Н г), кратких |
прилагательных |
(ГП), |
кратких |
причастий (Гпг) и |
сравнительной степени прилагательного (Н п) . 3. Н и ж н и е и н д е к с ы ; р — родительный падеж;
д— дательный падеж;
в— винительный падеж; т — творительный падеж;
п — предложный падеж.
Эти признаки указываются только у существительных в косвен ных падежах.
После построения дерева предложения из его состава выделя лись все парные сочетания символов классов слов, находящихся в отношении подчинения, а при наличии предложного управления —
и трехчленные |
сочетания |
типа С — >-Р— >-Св, |
Н — >-Р— >-СР, |
|
Г 1'— >-Р— )-Сд и т. |
п. Предварительно |
уt , і символов, |
классов управ |
|
ляющих слов опускались все нижние индексы, а у символов классов |
||||
управляемых слов — верхние |
индексы г, |
мод. Например, в пред |
ложении «На ряде предприятий обнаружены случаи нарушения стан дартов и технических условий», которому соответствует дерево
iР —►Сп —l>Ср Рпг*l—►С —>Ср —►Ср& П <—Ср,I .
можно аыделить следующие сочетания символов;
ТI
Р— *-СпГпг1 (на ряде обнаружены);
С— >-Ср (ряде предприятий);
16' |
243 |