Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 145

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

/•

классификационный словарь понятий (КСП);

поисковые образы рефератов (ПОР).

Первые три массива имеют структуру, аналогичную структуре соответствующих массивов в фактографиче­ ской информационно-поисковой системе. В поисковых образах рефератов перечисляются номера всех инфор­ мативных понятий, встречающихся в названиях докумен­ тов или в текстах их рефератов. При этом наименования понятий могут выражаться как отдельными словами, так и сочетаниями из двух, трех и т. д. слов. Наряду с по­ нятиями, отражающими содержание документов, в по­ исковые образы могут включаться также некоторые биб­ лиографические данные (например, сведения о стране, языке и времени издания документов).

Процессы поиска и обновления информации в доку­ ментальной системе сходны с соответствующими процес­ сами фактографической системы. Их различие опреде­ ляется в основном различием в структуре массивов со­ общений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой).

На рис. 13.3 представлена укрупненная схема процес­ са поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в сло­ варе понятий, и осуществляется поиск' в этом словаре (блок 2). В результате поиска в словаре понятий каж­ дому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоци­ ированных с ним по смыслу. При э£рм понятие В счи­ тается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. По­ нятие В считается ассоциированным по смыслу с поня­ тием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго поня­ тия, но главные слова не совпадают (например, понятие «применение ЭВМ для поиска информации» является ассоциированным по смыслу с понятием «поиск инфор­ мации»).

237

На следующем этапе обработки запроса (блок 3) для каждого из исходных понятий и понятий, найденных в процессе работы блока 2, с помощью классификацион­ ного словаря выбираются номера эквивалентных им по смыслу и подчиненных понятий. Результаты поиска по СП и КСП объединяются таким образом, что для каж­ дого понятия запроса формируется группа номеров экви­ валентных и подчиггенных ему понятий, а также группа

Р ис.

13.3. Схем а процесса

поиска рефератов

документов.

ассоциированных понятий

последнюю

входят также

понятия,

подчиненные и

эквивалентные

ассоциирован­

ным понятиям, найденным

в

результате

работы бло-

ка 2).

 

 

 

 

Работой блока«3 заканчивается формирование поис­ кового образа запроса. Далее (блок 4) ищут номера ре­ фератов, удовлетворяющих условиям запроса, и форми­ руют два эшелона выдачи результатов поиска — основ­ ной и дополнительный.

При конъюнктивной логической связи между поня­ тиями запроса в основной эшелон выдачи заносятся но­ мера таких рефератов, в поисковых образах которых содержится хотя бы по одному понятию из каждой группы, включающей понятие запроса и понятия, ему эквивалентные и подчиненные. Второй эшелон выдачи формируется аналогично первому, но при этом для по-

238


иска номеров рефератов привлекаются также понятия, ассоциированные с понятиями запроса, а из результа­ тов поиска исключаются номера рефератов, вошедшие в первый эшелон выдачи. При дизъюнктивной связи между понятиями запроса перечни соответствующих им эквивалентных, подчиненных и ассоциированных поня­ тий объединяются. Если в запросе одновременно исполь­

зуются конъюнктивные

и дизъюнктивные связи

между

понятиями,

то сначала

объединяются перечни

эквива­

лентных,

подчиненных

и ассоциированных

понятий

в дизъюнктивных группах, затем ищутся номера рефера­ тов по правилам, предусмотренным для запросов с конъ­ юнктивной связью между понятиями.

Запросы формулируются заказчиком в произвольном виде. Затем они подвергаются формализации, которая заключается в выделении из текста запроса информа­ тивных понятий и установлении между ними конъюнк­ тивной или дизъюнктивной логической связи. Чтобы уве­ личить полноту выдачи информации, в запрос можно

вносить также наименования

понятий, отсутствующие

в его первоначальном тексте.

Формализация запроса

обычно производится без обращения к словарю дескрип­ торов.

Для иллюстрации приведем примеры запросов до их форма­ лизации и после нее.

Запрос 1: применение методов статистических испытаний для отыскания оптимальных решений в задачах планирования.

Запрос 2: автоматическое регулирование.

Запрос 3: математическая теория информационно-поисковых си­ стем.

После формализации запросы записывались в следующем виде. Запрос 1: метод статистических испытаний или метод Монте-

Карло, оптимальные решения или оптимизация, планирование. Запрос 2: автоматическое реферирование.

Запрос 3: математическая теория, информационно-поисковые си­ стемы или информационные системы или поиск информации.

При необходимости в запрос вносятся уточнения, касающиеся страны, языка и времени издания документов.

Формализованный запрос побуквенно набивается на перфоленту в международном телеграфном коде. Далее весь процесс от ввода запроса в Э В М до выдачи ответа на запрос осуществляется авто­ матически.

Обновление информации в документальной поисковой системе связано с необходимостью ввода в нее сведений о новых документах (текстов рефератов и их поисковых образов). Тексты рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ.

2 3 9



В процессе ввода осуществляется перекодировка букв в код алфавитно-цифрового печатающего устройства, после чего тексты рефератов записываются на магнит­ ную ленту. Поисковые образы рефератов формируются автоматически на основе их дескрипторных описаний. Дескрипторные описания представляют собой перечни наименований понятий, встречающихся в заголовках и

втекстах рефератов. В их состав включаются также не­ которые библиографические сведения (полные библио­ графические описания документов приводятся в текстах рефератов). Наименования понятий отделяются друг от л руга запятыми.

Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вво­ дятся в ЭВМ. Далее с помощью процедур морфологиче­ ского анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процес­ се формирования поисковых образов рефератов на пе­ чать выдается список «новых» наименований понятий вместе с их словарными номерами. Этот список служит

вдальнейшем в качестве исходного материала для уста­ новления смысловых связей между наименованиями

понятий и для пополнения классификационного словаря понятий.

Среднее значение коэффициента полноты поиска ре­ фератов в автоматизированной документальной инфор­ мационно-поисковой системе описанного типа оказалось равным 83%. Среднее значение коэффициента шума — 7%, причем в первом эшелоне выдачи оно было равно 3%, а во втором эшелоне— 18%. Коэффициент полноты поиска определялся как отношение числа релевантных рефератов, содержащихся в ответах на запросы, к числу релевантных рефератов, полученных путем объединения результатов ручного и автоматического поиска по запро­ сам, коэффициент шума — как отношение числа нереле­ вантных рефератов к общему числу рефератов, выдан­ ных в качестве ответов на запросы.

Анализ причин потерь информации при автоматиче­ ском поиске показал, что в основном это происходит из-за неполного учета смысловых связей между поня­ тиями в классификационном словаре. Наряду с улучше­ нием качества классификационного словаря могут быть

2 4 0

применены и другие способы увеличения полноты выда­ чи информации: введение в запрос вариантов формули­ ровок наименований понятий с указанием дизъюнктив­ ной логической связи между ними; разбиение словосоче­ таний запроса на более короткие словосочетания и от­ дельные слова с указанием конъюнктивной логической связи между выделенными элементами; уточнение фор­ мулировки запроса по результатам пробного поиска и др.

Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов сло­ восочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума.

Описанная документальная информационная система реализована на ЭВМ. Общий объем ее программ состав­ ляет около 12 000 команд*.

Деление информационно-поисковых систем на факто­ графические и документальные условно. Доказательст­ вом правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные по­ исковые образы. Тогда тексты фактографических запи­ сей могут выдаваться потребителям информации по тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы ре­ фератов должны представляться в виде массива элемен­ тарных сообщений, а тексты рефератов интерпретиро­ ваться как значения характеристики с наименованием «текст реферата». Но в фактографических информацион­ но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ.

* Наряду с авторами в разработке системы и ее практической реализации принимали участие Ю . А . Кожевников, В. И . Тихонов, И. И . Быстров и др.

16— 3 1 0

241


Г л а в а 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ

Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксиче­ ского анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирова­ ние языка непосредственно связано с процессами мыш­ ления, которые еще недостаточно изучены. Над созда­ нием процедур синтаксического анализа естественных языков работает ряд ученых в нашей стране и за рубе­ жом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробированных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентиро­ ванными на решение частных задач обработки текстовой информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автома­ тического индексирования деловых текстов.

При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориенти­ руются. Эффективным путем получения такого рода све­ дений является статистическое обследование текстов. Оно позволяет выявить различные элементы граммати­ ческой структуры и оценить их относительную значи­ мость.

В основу синтаксического анализа текстов была поло­ жена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в виде графа, в узлах которого помещались символы грамматических классов слов и информация о форме слова. Узлы соеди­ нялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненно­ му). При этом использовались следующие условные обозначения.

242

1. О с н о в н ы е и н д е к с ы (символы основных грамматиче­ ских классов слов):

С— существительное, количественное числительное;

П— полное прилагательное, полное причастие, порядковое чис­

лительное; Г — глагол, краткое прилагательное, краткое причастие;

Н— наречие, деепричастие, сравнительная степень прилагатель­ ного;

Р— предлог;

&■— союз;

Ч— частица.

2. В е р х н и е и н д е к с ы :

* — признак аббревиатур и неизменяемых существительных;

м— признак местоименности;

ч— признак числительного; мод — признак модальности;

in f — признак неопределенной формы глагола;

пр — признак глагола прошедшего времени;

t

— признак переходности (у глаголов, причастий и дееприча­

стий) ;

 

і— признак непереходности (у глаголов, причастий и деепри­ частий) ;

под — признак подчинительного союза.

Кроме перечисленных символов в качестве верхних индексов использовались также символы п, н, г (с тем же значением, что и символы П , Н , Г) для обозначения субстантивированных прилага­ тельных (Сп), союзных слов, относящихся к классу наречий (&лодН),

отглагольных

существительных

(Сг),

причастий

(П г), деепричастий

(Н г), кратких

прилагательных

(ГП),

кратких

причастий (Гпг) и

сравнительной степени прилагательного (Н п) . 3. Н и ж н и е и н д е к с ы ; р — родительный падеж;

д— дательный падеж;

в— винительный падеж; т — творительный падеж;

п — предложный падеж.

Эти признаки указываются только у существительных в косвен­ ных падежах.

После построения дерева предложения из его состава выделя­ лись все парные сочетания символов классов слов, находящихся в отношении подчинения, а при наличии предложного управления —

и трехчленные

сочетания

типа С — >-Р— >-Св,

Н — >-Р— >-СР,

Г 1'— >-Р— )-Сд и т.

п. Предварительно

уt , і символов,

классов управ­

ляющих слов опускались все нижние индексы, а у символов классов

управляемых слов — верхние

индексы г,

мод. Например, в пред­

ложении «На ряде предприятий обнаружены случаи нарушения стан­ дартов и технических условий», которому соответствует дерево

iР —►Сп l>Ср Рпг*l—►С —>Ср —►Ср& П <—Ср,I .

можно аыделить следующие сочетания символов;

ТI

Р*-СпГпг1 (на ряде обнаружены);

С>-Ср (ряде предприятий);

16'

243