Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 147
Скачиваний: 3
слов, классификационный словарь понятий и массив буквенных кодов наименований понятий подготавлива ются заранее в том виде, в каком они будут храниться в памяти машины. Остальные массивы формируются с помощью программ обновления информации на основе перечня наименований понятий и массива сообщений. При этом в случае необходимости производится допол нение словарей (более подробно процессы обновления информации описываются ниже). Возможно также авто матическое формирование всех массивов (за исключе нием классификационного словаря понятий) с «нуля» на основе входных сообщений. Смысловые связи между понятиями в классификационном словаре устанавлива ются вручную. В качестве исходных данных для состав ления классификационного словаря служит перечень но меров и наименований понятий, выдаваемый на печать в процессе ввода входных сообщений.
Сведения по запросам ищутся в следующем порядке (рис. 13.1). Запрос, сформулированный на русском язы ке, переносится на перфоленту и вводится в машину (блок 1). При этом символы алфавита перекодируются из кода МТК-2 в код АЦПУ. Затем запрос переводится
с |
русского языка |
на |
информационный и |
приводится |
|||||
к |
виду, |
удобному |
для |
поиска в |
массивах |
сообщений |
|||
(блоки |
2, |
3, 4, |
5, |
6Н \ |
|
каждое |
слово заме |
||
|
В процессе |
перевода запроса |
няется номером его семантического эквивалента и грам матической информацией, необходимой для синтаксиче ского анализа словосочетаний (блок 3). Далее формиру ются пословные коды словосочетаний (наименований объектов и характеристик). В каждом из них на первое место ставится код главного слова, а коды остальных слов упорядочиваются по возрастанию их численных значений (блок 4). После этого производится поиск по словарю понятий и классификационному словарю поня тий (блоки 5, 6).
При поиске по первому словарю (блок 5) для каж дого понятия запроса выбираются номера эквивалент ных ему по смыслу и подчиненных понятий. Понятие В считается эквивалентным или подчиненным понятию А,
если |
у обоих понятий совпадают |
номера |
смысловых* |
* |
Последовательность работы блоков |
на рис. |
13.1 отражена |
в их нумерации. |
|
|
230
эквивалентов главных слов и все номера смысловых эквивалентов слов, входящих в состав наименования понятия А, содержатся среди номеров смысловых экви валентов слов, входящих в состав наименования поня тия В. Для каждого номера понятия, полученного при поиске по первому словарю, с помощью второго, класси фикационного словаря, в свою очередь, выбираются но-
Р ис. 13.1. П ор ядок работы системы в реж име поиска информации по запросам .
мера эквивалентных ему по смыслу и подчиненных по нятий. Далее результаты поиска по обоим словарям объединяются (раздельно для наименований объектов и для каждого наименования характеристики) и исключа ются повторения одинаковых номеров. При наличии в запросе нескольких наименований объектов, соединен
ных дизъюнктивной связкой |
«или», результаты поиска |
в словарях объединяются |
для группы наименований |
объектов в целом.
По окончании работы блоков 2—6 запрос приводится к виду, удобному для поиска сообщений. В общем слу
231
чае он включает в |
свой состав следующие эле |
||
менты: |
признаки |
массивов; |
|
а) |
|||
б) |
перечень |
номеров |
понятий, поставленный в соот |
ветствие объекту (объектам); |
|||
в) |
перечни номеров понятий, поставленные в соответ |
||
ствие характеристикам; |
|
||
г) |
значения характеристик; |
||
д) |
коды отношений между объектами, характеристи |
||
ками и их значениями; |
|
||
е) |
операторы обработки информации; |
||
ж) |
признак формы выдачи информации. |
Если требуется выдавать данные по всем характери стикам объектов или по всем объектам, имеющим задан ные характеристики, то соответствующие перечни номе ров понятий для характеристик или для объектов в за просе отсутствуют.
Поиск сообщений (блок 7) производится либо путем последовательного просмотра всего массива сведений либо массивов, имеющих заданные в запросе признаки. При этом сообщение считается релевантным (отвечаю щим на запрос), если код его объекта совпадает с одним из номеров понятий, поставленных в соответствие объек там запроса, а код его характеристики совпадает с од ним из номеров понятий, поставленных в соответствие характеристикам запроса. Кроме того, требуется совпа дение значений характеристик и кодов логических отно шений между объектами, характеристиками и их значе ниями.
Если в запросе указываются не все поисковые при знаки (например, нет наименования объекта или наиме нования характеристики или указан нулевой код логи ческого отношения), то сообщения ищутся только по за данным признакам.
В процессе поиска найденные сообщения распреде ляются по участкам оперативной памяти ЭВМ, число ко торых равно количеству характеристик в запросе. Далее выполняются действия, определяемые видом логической связи между характеристиками. Если связь между ха рактеристиками дизъюнктивная, то из соответствующих участков памяти в ответный массив отбираются все по парно-различные сообщения. Если связь между характе ристиками конъюнктивная, то в ответный массив отби раются только сообщения о таких объектах, коды кото
232
рых одновременно представлены на всех участках памя ти. При смешанной связи между характеристиками сна чала выполняются операции, соответствующие дизъюнк тивным связям, затем операции, соответствующие конъ юнктивным связям. Найденные сообщения обрабатыва ются, декодируются и выдаются на печать (блоки 8, 9, 10 па рис. 13.1). При этом номера понятий заменяются их буквенными кодами, а адресные отсылки к значениям характеристик — буквенными кодами значений характе ристик. Коды логических отношений используются для выборки словесных связок, выражающих эти отношения. Словесные связки составлены по табл. 13.2, но имеют более простую структуру, чем приведенные в этой таб лице формулировки.
В процессе перевода запроса с русского языка на информационный могут быть обнаружены слова и слово сочетания, не включенные в словари. Такие слова и сло восочетания выдаются на печать с сопровождающими пояснениями «новое слово», «новый термин» и исключа ются из состава запроса. Далее поиск ведется по запро су с измененной формулировкой. В большей части слу чаев это дает возможность находить нужные сведения несмотря на наличие в запросе «новых» элементов. При отсутствии в машине информации по заданному запросу на печать выдается первоначальная формулировка за проса и ответ «сведения не найдены».
Основные информационные массивы обновляются по мере поступления в систему новых сведений и устарева ния ранее накопленных. При этом наиболее часто изме няются массив сообщений и массивы буквенных кодов значений характеристик. Остальные массивы более ста бильны.
^ Порядок работы информационно-поисковой системы при вводе в нее новых сведений представлен на рис. 13.2. Сообщения, записанные на бланках (см. табл. 13.1), переносятся на перфоленту и вводятся в машину. Далее они перекодируются в код АЦПУ (блок 1 на рис. 13.2), переводятся с русского языка на информационный (бло ки 2—5, 7) и записываются в конец массива сообщений, имеющего те же признаки, что и признаки, указанные в формуляре (блок 6). Предварительно проверяют, сов падают ли вновь поступившие сообщения с ранее накоп ленными. I
233
I
Буквенные коды значений характеристик размещают ся рядом с массивами сообщений, к которым они отно сятся, а массивы сообщений сгруппировываются по при знакам, их характеризующим (географический район, отрасль промышленности и т. п.). Для новых сообщений значения характеристик записываются в конце соответ ствующего массива их буквенных кодов (блок 7).
Перфорация сведений, указанных на бланках, произ водится построчно, и каждый элемент сообщений, за
Рис. 13.2. Порядок работы системы в режиме обновления информа ции (ввод новых сообщений).
исключением кода логической связи, сопровождается своим буквенным признаком (буквой О обозначается объект, буквой X — характеристика, буквой 3 — значение характеристики). Например, сообщения, приведенные в табл. 13.1, после перфорации будут иметь следующий вид; О — (бетонный завод), X — (рабочие и служащие),
234
3 — (135), 01, О — (—), X — (местоположение), 3 — (г. Бийск), 00.
В процессе перевода сообщений на информационный язык сначала пословно кодируют наименования понятий (блок 3 на рис. 13.2), затем полученные коды заменяют их номерами по словарю понятий (блок 4). В случае необходимости словарь основ слов и словарь понятий дополняются. При появлении новых понятий пополняет ся также массив буквенных кодов их наименований (блок 5). Новые буквенные коды наименований понятий записываются в конец этого массива.
Словарь основ слов состоит из двух частей — основ ного словаря и дополнительного. Основной словарь со ставляется до ввода системы в эксплуатацию и предна значен для «точного» морфологического анализа. Допол нительный словарь формируется в процессе эксплуата ции системы и пополняется за счет «новых» слов. При этом используется процедура приближенного морфоло гического анализа. Основы «новых» слов записываются в словарь в порядке их поступления, а в качестве номе ров смысловых эквивалентов используются их позицион ные номера. Поиск в дополнительном словаре произво дится цепным способом.
Словарь понятий хранится в памяти машины в виде нескольких массивов однородной структуры. При записи в этот словарь новых кодов понятий возникает необхо димость в предварительном перемещении его элементов. Новым наименованиям понятий присваиваются номера в порядке их поступления. Новые слова и новые наиме нования понятий выводятся на печать. Первые — для контроля работы программы приближенного морфологи ческого анализа, вторые — чтобы создать исходные дан ные для пополнения классификационного словаря.
Новые понятия включаются в систему смысловых связей классификационного словаря человеком по мере их накопления. При этом для каждого нового понятия составляются перечни номеров подчиняющих и подчи ненных понятий. На основе этих перечней по специаль ной программе дополняют машинный классификацион ный словарь (программа дополнения классификационно го словаря работает автономно и на рис. 13.2 не обозначена). Устаревшую информацию изымают путем ввода в ЭВМ специальных сообщений, предписывающих выполнение этой операции.
235
Описанная фактографическая поисковая система реа лизована на ЭВМ. Общий объем ее программ составляет около 20 000 команд*.
Автоматизированная документальная информационно поисковая система
Система предназначена для поиска рефератов доку ментов по тематическим запросам, сформулированным на русском языке. Запросы могут быть простыми и сложными. Простой запрос состоит из одного дескрипторного понятия, выраженного отдельным словом или именным словосочетанием. Сложный запрос состоит из нескольких наименований понятий, соединенных конъюнктивной или дизъюнктивной логической связью. В случае конъюнктивной связи наименования понятий отделяются друг от друга запятыми, а при дизъюнктив ной связи — сочинительным союзом «или». В сложных запросах могут одновременно использоваться оба вида логических связей.
Тексты рефератов хранятся на магнитной ленте и вы даются на печать вместе с первоначальной формулиров кой запроса и дополнительными пояснениями. Эти пояс нения служат средством обратной связи между машиной и человеком. В них м’ожет обращаться внимание на на личие в запросе «новых» элементов (слов, словосочета ний) или на излишнюю широту его формулировки (ко гда выдается слишком много сведений).
Новые слова и словосочетания обнаруживаются при анализе запроса и исключаются из его состава. Далее поиск ведется на основе измененной формулировки за проса. Обычно это дает возможность находить нужные сведения, несмотря на наличие в запросе новых эле ментов.
В процессе функционирования документальной по исковой системы наряду с текстами рефератов использу ются следующие основные информационные массивы:
—словарь основ слов (СО);
—словарь понятий (СП);
*Наряду с авторами главы в практической реализации системы
принималибаков и др. участие |
Н . В. Алтухова, В . А . Чиркин, И . И . Быстров, |
Н. Т. Губарь, В. Ф. |
Денисов, 'В. И. Ермолкин, Е. И. Стогов, Б. П . Ры |
236