Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

Скачать файл (13,62Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 145

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

/•

—классификационный словарь понятий (КСП);

—поисковые образы рефератов (ПОР).

Первые три массива имеют структуру, аналогичную структуре соответствующих массивов в фактографиче ской информационно-поисковой системе. В поисковых образах рефератов перечисляются номера всех инфор мативных понятий, встречающихся в названиях докумен тов или в текстах их рефератов. При этом наименования понятий могут выражаться как отдельными словами, так и сочетаниями из двух, трех и т. д. слов. Наряду с по нятиями, отражающими содержание документов, в по исковые образы могут включаться также некоторые биб лиографические данные (например, сведения о стране, языке и времени издания документов).

Процессы поиска и обновления информации в доку ментальной системе сходны с соответствующими процес сами фактографической системы. Их различие опреде ляется в основном различием в структуре массивов со общений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой).

На рис. 13.3 представлена укрупненная схема процес са поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в сло варе понятий, и осуществляется поиск' в этом словаре (блок 2). В результате поиска в словаре понятий каж дому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоци ированных с ним по смыслу. При э£рм понятие В счи тается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. По нятие В считается ассоциированным по смыслу с поня тием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго поня тия, но главные слова не совпадают (например, понятие «применение ЭВМ для поиска информации» является ассоциированным по смыслу с понятием «поиск инфор мации»).

237

На следующем этапе обработки запроса (блок 3) для каждого из исходных понятий и понятий, найденных в процессе работы блока 2, с помощью классификацион ного словаря выбираются номера эквивалентных им по смыслу и подчиненных понятий. Результаты поиска по СП и КСП объединяются таким образом, что для каж дого понятия запроса формируется группа номеров экви валентных и подчиггенных ему понятий, а также группа

Р ис.	13.3. Схем а процесса	поиска рефератов		документов.
ассоциированных понятий		(в	последнюю	входят также
понятия,	подчиненные и	эквивалентные		ассоциирован
ным понятиям, найденным		в	результате	работы бло-
ка 2).

Работой блока«3 заканчивается формирование поис кового образа запроса. Далее (блок 4) ищут номера ре фератов, удовлетворяющих условиям запроса, и форми руют два эшелона выдачи результатов поиска — основ ной и дополнительный.

При конъюнктивной логической связи между поня тиями запроса в основной эшелон выдачи заносятся но мера таких рефератов, в поисковых образах которых содержится хотя бы по одному понятию из каждой группы, включающей понятие запроса и понятия, ему эквивалентные и подчиненные. Второй эшелон выдачи формируется аналогично первому, но при этом для по-

238

иска номеров рефератов привлекаются также понятия, ассоциированные с понятиями запроса, а из результа тов поиска исключаются номера рефератов, вошедшие в первый эшелон выдачи. При дизъюнктивной связи между понятиями запроса перечни соответствующих им эквивалентных, подчиненных и ассоциированных поня тий объединяются. Если в запросе одновременно исполь

зуются конъюнктивные		и дизъюнктивные связи	между
понятиями,	то сначала	объединяются перечни	эквива
лентных,	подчиненных	и ассоциированных	понятий

в дизъюнктивных группах, затем ищутся номера рефера тов по правилам, предусмотренным для запросов с конъ юнктивной связью между понятиями.

Запросы формулируются заказчиком в произвольном виде. Затем они подвергаются формализации, которая заключается в выделении из текста запроса информа тивных понятий и установлении между ними конъюнк тивной или дизъюнктивной логической связи. Чтобы уве личить полноту выдачи информации, в запрос можно

вносить также наименования	понятий, отсутствующие
в его первоначальном тексте.	Формализация запроса

обычно производится без обращения к словарю дескрип торов.

Для иллюстрации приведем примеры запросов до их форма лизации и после нее.

Запрос 1: применение методов статистических испытаний для отыскания оптимальных решений в задачах планирования.

Запрос 2: автоматическое регулирование.

Запрос 3: математическая теория информационно-поисковых си стем.

После формализации запросы записывались в следующем виде. Запрос 1: метод статистических испытаний или метод Монте-

Карло, оптимальные решения или оптимизация, планирование. Запрос 2: автоматическое реферирование.

Запрос 3: математическая теория, информационно-поисковые си стемы или информационные системы или поиск информации.

При необходимости в запрос вносятся уточнения, касающиеся страны, языка и времени издания документов.

Формализованный запрос побуквенно набивается на перфоленту в международном телеграфном коде. Далее весь процесс от ввода запроса в Э В М до выдачи ответа на запрос осуществляется авто матически.

Обновление информации в документальной поисковой системе связано с необходимостью ввода в нее сведений о новых документах (текстов рефератов и их поисковых образов). Тексты рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ.

2 3 9

В процессе ввода осуществляется перекодировка букв в код алфавитно-цифрового печатающего устройства, после чего тексты рефератов записываются на магнит ную ленту. Поисковые образы рефератов формируются автоматически на основе их дескрипторных описаний. Дескрипторные описания представляют собой перечни наименований понятий, встречающихся в заголовках и

втекстах рефератов. В их состав включаются также не которые библиографические сведения (полные библио графические описания документов приводятся в текстах рефератов). Наименования понятий отделяются друг от л руга запятыми.

Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вво дятся в ЭВМ. Далее с помощью процедур морфологиче ского анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процес се формирования поисковых образов рефератов на пе чать выдается список «новых» наименований понятий вместе с их словарными номерами. Этот список служит

вдальнейшем в качестве исходного материала для уста новления смысловых связей между наименованиями

понятий и для пополнения классификационного словаря понятий.

Среднее значение коэффициента полноты поиска ре фератов в автоматизированной документальной инфор мационно-поисковой системе описанного типа оказалось равным 83%. Среднее значение коэффициента шума — 7%, причем в первом эшелоне выдачи оно было равно 3%, а во втором эшелоне— 18%. Коэффициент полноты поиска определялся как отношение числа релевантных рефератов, содержащихся в ответах на запросы, к числу релевантных рефератов, полученных путем объединения результатов ручного и автоматического поиска по запро сам, коэффициент шума — как отношение числа нереле вантных рефератов к общему числу рефератов, выдан ных в качестве ответов на запросы.

Анализ причин потерь информации при автоматиче ском поиске показал, что в основном это происходит из-за неполного учета смысловых связей между поня тиями в классификационном словаре. Наряду с улучше нием качества классификационного словаря могут быть

2 4 0

применены и другие способы увеличения полноты выда чи информации: введение в запрос вариантов формули ровок наименований понятий с указанием дизъюнктив ной логической связи между ними; разбиение словосоче таний запроса на более короткие словосочетания и от дельные слова с указанием конъюнктивной логической связи между выделенными элементами; уточнение фор мулировки запроса по результатам пробного поиска и др.

Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов сло восочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума.

Описанная документальная информационная система реализована на ЭВМ. Общий объем ее программ состав ляет около 12 000 команд*.

Деление информационно-поисковых систем на факто графические и документальные условно. Доказательст вом правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные по исковые образы. Тогда тексты фактографических запи сей могут выдаваться потребителям информации по тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы ре фератов должны представляться в виде массива элемен тарных сообщений, а тексты рефератов интерпретиро ваться как значения характеристики с наименованием «текст реферата». Но в фактографических информацион но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ.

* Наряду с авторами в разработке системы и ее практической реализации принимали участие Ю . А . Кожевников, В. И . Тихонов, И. И . Быстров и др.

16— 3 1 0

241

Г л а в а 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ

Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксиче ского анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирова ние языка непосредственно связано с процессами мыш ления, которые еще недостаточно изучены. Над созда нием процедур синтаксического анализа естественных языков работает ряд ученых в нашей стране и за рубе жом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробированных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентиро ванными на решение частных задач обработки текстовой информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автома тического индексирования деловых текстов.

При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориенти руются. Эффективным путем получения такого рода све дений является статистическое обследование текстов. Оно позволяет выявить различные элементы граммати ческой структуры и оценить их относительную значи мость.

В основу синтаксического анализа текстов была поло жена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в виде графа, в узлах которого помещались символы грамматических классов слов и информация о форме слова. Узлы соеди нялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненно му). При этом использовались следующие условные обозначения.

242

1. О с н о в н ы е и н д е к с ы (символы основных грамматиче ских классов слов):

С— существительное, количественное числительное;

П— полное прилагательное, полное причастие, порядковое чис

лительное; Г — глагол, краткое прилагательное, краткое причастие;

Н— наречие, деепричастие, сравнительная степень прилагатель ного;

Р— предлог;

&■— союз;

Ч— частица.

2. В е р х н и е и н д е к с ы :

* — признак аббревиатур и неизменяемых существительных;

м— признак местоименности;

ч— признак числительного; мод — признак модальности;

in f — признак неопределенной формы глагола;

пр — признак глагола прошедшего времени;

	t	— признак переходности (у глаголов, причастий и дееприча
	t	стий) ;
		стий) ;

і— признак непереходности (у глаголов, причастий и деепри частий) ;

под — признак подчинительного союза.

Кроме перечисленных символов в качестве верхних индексов использовались также символы п, н, г (с тем же значением, что и символы П , Н , Г) для обозначения субстантивированных прилага тельных (Сп), союзных слов, относящихся к классу наречий (&лодН),

отглагольных	существительных	(Сг),	причастий	(П г), деепричастий
(Н г), кратких	прилагательных	(ГП),	кратких	причастий (Гпг) и

сравнительной степени прилагательного (Н п) . 3. Н и ж н и е и н д е к с ы ; р — родительный падеж;

д— дательный падеж;

в— винительный падеж; т — творительный падеж;

п — предложный падеж.

Эти признаки указываются только у существительных в косвен ных падежах.

После построения дерева предложения из его состава выделя лись все парные сочетания символов классов слов, находящихся в отношении подчинения, а при наличии предложного управления —

и трехчленные	сочетания	типа С — >-Р— >-Св,		Н — >-Р— >-СР,
Г 1'— >-Р— )-Сд и т.	п. Предварительно		уt , і символов,	классов управ
ляющих слов опускались все нижние индексы, а у символов классов
управляемых слов — верхние		индексы г,	мод. Например, в пред