Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 137

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

стов рефератов целесообразно представить словосочета­

ния и тексты рефератов в пословных

кодах

(в кодах

смысловых эквивалентов слов)

с указанием схем синтак­

сических связей

между словами. Это

можно

сделать,

последовательно

применяя

процедуру

морфологи­

ческого и синтаксического анализа (см. гл.

7, 8,

14).

Для оценки возможности поиска документов по тек­ стам рефератов А. К. Родионовой под руководством автора была построена программная модель, включав­ шая процедуры морфологического и синтаксического ана­ лиза и поиска по текстам рефератов. Общий объем про­

грамм для машины типа БЭСМ-ЗМ составлял

около

7000 команд. Тексты рефератов (их было около

300)

вводились в ЭВМ в побуквенном коде и с помощью про­ цедуры морфологического анализа переводились в по­ словный код. При необходимости словарь основ слов по­ полнялся. Для каждого предложения строилось дерево зависимостей « результаты обработки текстов переписы­ вались на магнитную ленту.

Поисковые запросы также подвергались морфологи­ ческому и синтаксическому анализу и приводились к форме, аналогичной форме представления текстов ре­ фератов. В запросе, как правило, указывалось одно исходное словосочетание, которое с помощью тезауруса вручную заменялось на серию эквивалентных ему и бо­ лее узких по смыслу словосочетаний. Связь между сло­ восочетаниями расширенного запроса интерпретирова­ лась как дизъюнктивная. Словарь основ при вводе за­ просов не пополнялся, а новые слова исключались из словосочетаний. Результаты поиска выдавались в виде серии номеров рефератов.

Всего в машину было введено 50 запросов и полу­ чено в качестве ответов в общей сумме 963 номеров ре­ фератов (с повторениями одинаковых номеров в ответах на разные запросы). Анализ результатов показал, что 36% рефератов (1/3) не отвечают требованиям, сформу­ лированным в запросах, а 40% релевантных рефератов не были найдены. Высокий уровень поискового шума объясняется наличием в запросах «новых» слов, так как при их исключении происходит искажение смысла исход­ ных понятий. Особенно это заметно в тех случаях, когда после исключения «новых» слов исходные словосочета­ ния превращаются в однослощгые термины. Изъятие таких терминов из запросов позволило.снизитъ уровень

2.60


шумов до 6% при одновременном возрастании потерь до 50%. Интересно также отметить, что 20% общего числа релевантных рефератов были найдены в результате отождествления словосочетаний запросов со словосоче­ таниями рефератов при неконтактном расположении слов в последних.

Полнота выдачи релевантной информации при поиске зависит прежде всего от качества тезауруса. В рассмат­ риваемом эксперименте не ставилась задача достигнуть максимальной полноты поиска. Поэтому в расширенные формулировки запросов включались не все термины, ко­ торые можно было бы выбрать из тезауруса в качестве эквивалентных или подчиненных первоначально задан­ ным терминам.

Помимо улучшения качества тезауруса и совершенст­ вования процедур выборки из него терминов, связанных по смыслу с исходными .терминами запроса, эффектив­ ным средством увеличения полноты поиска может явить­ ся использование словаря смысловых связей слов на эта­ пе сопоставления терминов расширенного запроса и тек­ стов рефератов. При этом термин А может считаться входящим в состав предложения В, если в предложении содержатся все слова термина А или слова им эквива­ лентные или подчиненные. Схемы синтаксических связей слов в исходном термине и соответствующих слов в пред­ ложении должны удовлетворять тем же условиям, кото­ рые были сформулированы выше.

Таким образом, чтобы перевести тексты рефератов и запросов в машинную форму представления и обеспе­ чить высокий уровень полноты выдачи информации при поиске, необходим автоматический тезаурус. В состав тезауруса должны входить словарь основ слов, словарь смысловых связей слов, словарь наименований понятий и классификационный словарь понятий.

Автоматическое индексирование документов по текстам рефератов

Казалось бы, построение документальных систем на основе процедуры автоматического поиска документов по текстам рефератов является выгодным. Здесь не тре­ буется составлять формализованные описания докумен­ тов и хранить поисковые образы в памяти ЭВМ. Но,

261

с другой стороны, поиск по текстам рефератов занимает много времени, так как для каждого запроса приходит­ ся заново повторять морфологический и синтаксический анализ всего массива сведений. Конечно, анализ текстов можно провести только один раз и при выдаче их на печать производить морфологический синтез. Но и в этом случае время поиска в массиве пословных кодов текстов рефератов оказывается существенно большим, чем время поиска в массиве поисковых образов докумен­ тов, построенных на базе именных словосочетаний. По­ этому в большинстве случаев выгоднее индексировать тексты рефератов по словосочетаниям и хранить в памя­ ти ЭВМ одновременно их поисковые образы и побуквен­ ные или пословные коды.

Автоматическое индексирование документов по тек­ стам рефератов можно производить на основе той же методики, что и их поиск, но в качестве запроса здесь выступает весь словарь наименований понятий тезауру­ са. Термины словаря сопоставляются с текстом индекси­ руемого реферата и, если они входят в одно из его пред­ ложений, заносятся в массив результатов. Процедура определения вхождений терминов тезауруса в текст ре­ ферата выполняется с помощью словаря смысловых свя­ зей слов.

Перечень номеров отобранных терминов после исклю­ чения из него повторений одинаковых элементов может быть использован в качестве поискового образа докумен­ та, но такой образ будет избыточным. В нем, наряду с номерами конкретных терминов, будут присутствовать номера более широких терминов, находящихся с первы­ ми в родо-видовых отношениях. Чтобы исключить избы­ точные термины, можно применить следующую про­

цедуру:

1) выбрать с помощью тезауруса для каждого терми­ на поискового образа перечень номеров эквивалентных ему по смыслу и подчиняющих терминов;

2) обратиться к одному из полученных перечней и исключить из поискового образа номера терминов, со­ держащиеся в этом перечне;

3)повторить операцию, указанную в п. 2, для вто­ рого, третьего и т. д. перечней;

4)исключить из поискового образа номера терминов,

являющихся вхождениями в другие термины этого поис­ кового образа (номера терминов, словарный состав ко­

2 6 2


торых полностью содержится в словарном составе дру­ гих терминов).

В процессе индексирования целесообразно проверять на вхождение в текст реферата не все термины тезауруса, а только такие, которые содержат в своем составе хотя бы по одному слову из текста или хотя бы по одному слову, выражающему более широкое понятие, чем слово из текста. Эти термины легко могут быть выбраны, если словарь наименований понятий будет представлен в па­ мяти ЭВМ в виде узловой ассоциативно-адресной струк­ туры.

Для сокращения времени формирования поисковых образов документов исключать из них избыточные тер­ мины можно приближенным способом, без повторного обращения к тезаурусу. Для этого нужно в процессе поиска вхождений терминов распределить найденные термины по словам текста реферата, а затем оставить для каждого слова по одному термину максимальной длины. Далее необходимо объединить номера всех тер­ минов в один общий список, исключив при этом повто­ рения одинаковых элементов.

Процедуру индексирования текстов рефератов можно упростить, сведя ее к индексированию формализованных описаний документов. Для этого необходимо расчленить текст реферата на именные группы и рассматривать эти группы в качестве именных словосочетаний формализо­ ванного описания документа. Границами именных групп могут служить знаки препинания и слова, не принадле­ жащие к классам существительных, прилагательных, предлогов и союзов.

Упрощенная процедура индексирования менее полно отражает смысловое содержание текстов, так как в ней не учитывается возможность неконтактного расположе­ ния элементов именных словосочетаний, а также возмож­ ность наличия в текстах информативных глагольных со­ четаний, являющихся трансформационными вариантами именных словосочетаний (см., например, словосочетания «производятся автомобили» и «производство автомоби­ лей») .

Эффективным средством улучшения качества автома­ тического индексирования является постредактирование. Для осуществления этой операции составленные маши­ ной поисковые образы документов должны декодировать­ ся и выдаваться на печать. Далее человек, сопоставляя

263

поисковые образы с текстами рефератов, имеет возмож­ ность исключить нерелевантные словосочетания и доба­ вить другие, которые на его взгляд более правильно от­ ражают смысловое содержание документов. Информация об изменениях в поисковых образах вводится в ЭВМ и на ее основе осуществляется корректировка массивов. Если добавляемые в поисковые образы словосочетания оказываются новыми, то они вводятся в состав тезауру­ са и подключаются к системе его смысловых связей.

Г л а в а 16 НЕКОТОРЫЕ КОЛИЧЕСТВЕННЫЕ ЗАКОНОМЕРНОСТИ В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

При .проектировании АИС важное значение имеет знание количественных закономерностей в этих систе­ мах. Оно позволяет прогнозировать объемы памяти, не­ обходимые для записи словарей и массивов сообщений, оценивать коэффициенты сжатия сообщений при их ко­ дировании, а также оценивать скорость работы про­ грамм. В настоящей главе рассматриваются некоторые закономерности в формализованных и неформализован­ ных текстовых сообщениях: зависимость объема слова­

ря от

объема

текста, распределение частот появления

элементов и

признаков элементов

текстовых сообще­

ний и др.

 

 

Как показывает опыт, значительное количество слу­

чайных

функций и распределений,

с которыми прихо­

дится встречаться в автоматизированных информаци­ онно-поисковых системах, хорошо аппроксимируется аналитическими выражениями вида

-

3

II

?з X

(16.1)

F ( x ) = 1 - е " * Л

(16.2)

в которых k и т—постоянные величины (параметры); е—основание натуральных логарифмов.

Выражением вида (16.1) хорошо аппроксимируется зависимость объема словаря от объема текста, а (16.2) — распределение частот появления элементов текстовых сообщений и их признаков (распределение длин элемен-

264


лов текстовых сообщений, распределение грамматиче­

ских признаков и т. п.).

(16.1)

и (16.2)

Определение параметров функций

по экспериментальным данным может

быть

сведено

к определению способы наименьших квадратов пара­ метров линейной функции вида

у= а+ Ьх.

(16.3)

Последние могут быть вычислены путем решения сис­ темы уравнений

П

П

п

п

п

na-\-bYi Хі =

Yj Уі ,

Ö Ц Х і +

Ь5] хі =

У] ХіУі ,

і=1

І=1

£=і

і=і *

г=і

 

 

 

 

(16.4)

в которой п обозначает

количество точек

эксперимен­

тальной кривой; Хі, Уі—координаты этих точек; а и bпараметры формулы (16.3).

Прологарифмировав формулу (16.1), получим выра­

жение

 

ln у = \п k+ m ln X,

(16.5)

в котором ln у является линейной функцией \пх. Следо­ вательно, выражением вида (16.1) хорошо аппроксими­ руются экспериментальные функции, которые, будучи представлены на графике в двойном логарифмическом масштабе, имеют вид линейной функции. Из (16.3) и (16.5) получаем, что

ln k— a, m = b.

Представим выражение для функции распределения (16.2) в следующем виде:

1 —F ( x ) ^ e - hxm

и прологарифмируем его дважды, изменив после первого логарифмирования знаки перед обеими частями равен­ ства на противоположные:

1п{—1п[1—^ (*)]} = ln k+ m ln X.

Из последнего выражения видно, что двойной логарифм величины 1—F (х) является линейной функцией величи­ ны ln X. Следовательно, формулой (16.2) можно аппро-

265


 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

16.1

 

Случайные функции, аппроксимируемые аналитическим

 

 

 

 

 

выражением вида y= kxm

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Относитель­

 

 

 

 

 

 

 

 

 

 

 

 

Параметры

ные ошибки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

аппроксимации,

п/п

 

 

Наименование

 

 

 

 

 

 

 

%макси­

 

 

 

 

 

 

 

 

 

 

 

k

т

сред­

 

 

 

 

 

 

 

 

 

 

 

 

няя

 

маль­

1

Зависимость

объема

словаря слово-

12,7

0,614

8,1

 

ная

 

14,3

 

форм от

протяженности текста

(полу­

 

 

 

 

 

2

чена

по

неформализованным

текстам

 

 

 

 

 

объемом

500 000

слов)

словаря

основ

9,80

0,552

4,4

 

11,5

 

Зависимость

объема

 

 

слов от протяженности

текста

(полу­

 

 

 

 

 

3

чена

по

неформализованным

текстам

 

 

 

 

 

объемом

500 000 слов)

словаря

слово-

3,979

0,794

3

 

7

 

Зависимость объема

 

 

 

форм от объема словаря наименова­

 

 

 

 

 

 

ний понятий (получена по словарю

 

 

 

 

 

4

объемом

11 620 словосочетаний)

 

6,541

0,681

3

 

7

Зависимость объема

словаря

основ

 

 

слов от объема словаря наименований

 

 

 

 

 

 

понятий (получена

по словарю объемом

 

 

 

 

 

5

11 620 словосочетаний)

словаря

основ

2,94

0,684

 

 

12

Зависимость

объема

 

 

 

слов от протяженности словаря

имен­

 

 

 

 

 

 

ных

словосочетаний,

 

исчисляемой

в

 

 

 

 

 

 

словах (получена

по

словарю словосо­

 

 

 

 

 

6

четаний объемом

34 182 слов)

найме-

45,0

0,319

3

 

8

 

Зависимость объема

словаря

 

 

 

нований понятий

от

объема

массива

 

 

 

 

 

 

элементарных сообщений

в

фактогра­

 

 

 

 

 

 

фической

И П С

(получена

по массиву

 

 

 

 

 

7

объемом

17 690 сообщений)

 

 

 

1,039

1,140

10

 

16

Зависимость объема классификацион-

 

 

ного словаря понятий

 

о г объема сло­

 

 

 

 

 

 

варя наименований понятий

(получена

 

 

 

 

 

 

по классификационному

словарю,

со­

 

 

 

 

 

 

ставленному для

11 635

наименований

 

 

 

 

 

8

понятий и включающему 55 041

номе­

 

 

 

 

 

 

ров понятий)

объема

словаря

значе­

1,765 0,726

3

 

8

 

Зависимость

 

 

 

ний характеристик об

объема

массива

 

 

 

 

 

 

элементарных сообщений

в

фактогра­

 

 

 

 

 

 

фической

И П С

(получена

по массиву

 

 

 

 

 

 

объемом

17 690 сообщений)

 

 

 

 

 

 

 

 

•266