Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 152

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ния информации в процессе ее ввода существенным об­ разом изменяется. При этом номера новых документов заносятся во все участки памяти машины, где хранятся сведения по предметным рубрикам, указанным в дескрипторных описаниях этих документов. Кроме того, здесь возникают трудности, связанные с необходимостью опти­ мального резервирования памяти для различных пред­ метных рубрик.

Инверсный способ реализации поисковой системы имеет преимущество перед прямым в скорости поиска сведений, поскольку здесь сообщения группируются по

тем же признакам,

которые указываются в запросах.

В процессе поиска

для каждого дескриптора запроса

выбирается перечень относящихся к нему номеров доку­ ментов, после чего выполняются логические операции, не­ обходимые для формирования ответа. Но указанное пре­ имущество инверсных систем в значительной мере ослаб­ ляется тем, что сообщения обычно хранятся на магнит­ ных лентах, не обладающих свойством произвольного доступа к различным участкам памяти. С другой сторо­ ны, в дескрипторных системах прямого типа скорость поиска может быть увеличена, если можно разбить мас­ сив сообщений на непересекающиеся тематические области. Тогда поиск по запросу ведется только среди сообщений, относящихся к заданной тематической об­ ласти.

Положительные свойства прямого и инверсного спо­ собов организации поисковых массивов сочетаются

вузловом ассоциативно-адресном способе представления информации. Этот способ обеспечивает сохранение струк­ туры формализованных описаний документов в том ви­ де, в каком она была при вводе информации (для каж­ дого документа указывается перечень предметных руб­ рик). Описания документов представляются в виде узлов адресных отсылок. Каждый узел содержит столько от­ сылочных адресов, сколько предметных рубрик имеется

вописании соответствующего документа. В процессе поиска просматриваются только такие описания докумен­ тов, которые содержат хотя бы одну предметную рубри­ ку из запроса.

При построении системы адресных отсылок целесооб­ разно расчленить массив описаний документов на такие участки, которые могут быть размещены в оперативной

памяти ЭВМ, и для каждого участка установить связи

гм


между узлами независимо от других участков. Такая врганизация массивов приведет к некоторому увеличе­ нию их объема, но позволит упростить поисковые проце­ дуры.

При поиске документов в запросах указываются от­ дельные предметные рубрики или их сочетания, а в ка­ честве ответа выдаются перечни номеров документов. При этом запросы, включающие несколько предметных рубрик, могут строиться на базе конъюнктивной или дизъюнктивной связи между их элементами. Применяют­ ся и более сложные формы запросов с одновременным использованием различных видов связей.

Знак отрицания в поисковых запросах обычно не ис­ пользуется.. Причина состоит в том, что в логической матрице (табл. 12.1) для каждого документа указывают­ ся далеко не все, а только наиболее существенные при­ знаки. Поэтому нули в клетках матрицы могут стоять не только тогда, когда те или иные признаки документов отсутствуют, но и в тех случаях, когда отношения между признаками и документами не определены. При таких условиях операции над классами, соответствующие зна­ кам отрицания в запросах,, приведут к ложным результа­ там.

Если запрос формулируется в виде конъюнкции пред­ метных рубрик, то при прямой организации поисковой системы в качестве ответа выдаются номера только та­ ких документов, которые содержат в ассоциированных с ними перечнях предметных рубрик все рубрики запро­ са. При инверсной организации поисковой системы в ка­ честве результата поиска выдаются номера документов, содержащиеся одновременно во всех перечнях, ассо­ циированных с рубриками запроса.

На запрос с дизъюнктивной связью между элемента­ ми выдаются номера документов, отнесенных к любой из указанных в нем предметных рубрик. При прямой организации поисковой системы для отбора таких доку­ ментов достаточно, чтобы одна из рубрик запроса совпа­ ла с одной из рубрик, ассоциированных с номером доку­ мента. При инверсной организации — ответ на запрос формируют, объединяя перечни номеров документов, ас­ социированных с рубриками, указанными в запросе, и исключая далее повторения одинаковых элементов.

В первоначальных вариантах дескрипторных поиско-, вых систем, использующих естественный язык, докумен­

212

ты описывались

перечнями к л ю ч е в ы х

слов или д е ­

с к р и п т о р о в ,

встречающихся в текстах

их рефератов.

В качестве дескрипторов брались либо все знаменатель­ ные слова, либо только слова, являющиеся терминами в заданной тематической области. При записи в память машины описания документов представлялись в прямой или инверсной форме, а буквенные коды слов заменялись на их порядковые номера по словарю.

Запрос на поиск документов сначала формулировал­ ся на естественном языке, затем представлялся в виде перечня входящих в него дескрипторов. В процессе по­ иска связь между дескрипторами запроса интерпретиро­ валась как конъюнктивная.

Привлекательной стороной простейших дескрипторных поисковых систем является возможность детального описания содержания документов и запросов и полной автоматизации процессов их индексирования. Но из-за многообразия форм словесного выражения содержания документов и запросов и полного игнорирования контек­ стуальных связей слов полнота и точность выдачи сведе­

ний в подобных системах

оказывались неудовлетвори­

тельными.

 

 

 

 

Дальнейшим шагом вперед явилось введение так на­

зываемых б а з и с н ы х о т н о ш е н и й

между ключевыми

словами. При

этом

фиксировалась

эквивалентность и

подчиненность

слов

друг

другу. Так, например, слова

к о н с т р у к ц и я , к о н с т р у к т и в н ы й , к о н с т р у и ­

р о в а т ь

могут считаться в известном смысле эквива­

лентными,

а слово э к с к а в а т о р — подчиненным слову

ма ши н а .

Эквивалентность и подчиненность слов в дескриптор-

иых системах обычно трактуются весьма

широко. Так,

в ИПС «Пусто — Непусто — 4» [30] слова

считаются

эквивалентными по смыслу, если их использование в за­ просах приводит к примерно одинаковым результатам поиска, а результаты поиска', полученные по «подчиняю­ щему» слову, должны полностью включать результаты поиска, полученные с помощью «подчиненных» слов.

В настоящее время в понятие «дескриптор» различны­ ми авторами вкладывается различное содержание. В си­ стеме «Пусто — Непусто — 4» дескрипторы определяются как классы эквивалентных слов. Но наряду с отдельны­ ми словами допускаются в качестве исключения и де­

скрипторы, выраженные словосочетаниями, В других

213


поисковых системах в качестве дескрипторов наряду с от­ дельными, словами широко применяются и словосочета­ ния.

Мы будем понимать под дескрипторами наименова­ ния понятий, используемые для описания содержания до­ кументов и для формулировки поисковых запросов. Та­ кие наименования понятий могут выражаться как одним словом, так и сочетаниями слов.

В некоторых поисковых системах вводится различие между ключевыми словами п дескрипторами. При этом дескрипторами являются только такие слова и слово­ сочетания, которые используются для индексирования документов и запросов. Все прочие термины считаются ключевыми словами и с помощью системы базисных от­ ношений заменяются на дескрипторы.

Перечни дескрипторных понятий, используемых в ИПС, обычно оформляются в виде словарей-тезауру­ сов, в которых отражаются отношения эквивалентности и подчинения, а также указываются связи между близ­ кими по смыслу понятиями. Тезаурус совмещает в себе функции словаря наименований понятий и словаря клас­ сификационных связей.

Одни и те же ключевые слова в различных контекст­ ных окружениях могут выражать разные понятия. На­ пример, слово «управление» может обозначать как про­ цесс, так и административный орган. Значительно реже аналогичное явление наблюдается у словосочетаний.

Для уточнения контекстуальных значений слов и сло­ восочетаний в некоторых дескрипторных поисковых си­ стемах применяются специальные признаки, которые по­ лучили название у к а з а т е л е й роли. Указатели роли могут выражать общие грамматические категории («субъект действия», «объект воздействия»), категорий, связанные с основными этапами технологических процес­ сов («исходный материал», «продукт») и т. п. Исполь­ зование этих дополнительных признаков повышает точ­ ность выдачи информации по запросам, но требует более глубокого анализа содержания документов при индекси­ ровании.

Поисковые системы с использованием указателей роли могут быть реализованы в прямой форме, в инверс­ ной форме или в виде ассоциативно-адресной структуры. В случае прямой организации поисковой системы каж­ дый номер дескрипторного понятия должен сопровожу

814

даться кодом указателя роли, а при инверсной органи­ зации коды указателей роли могут сопровождать либо каждый номер документа, либо группы номеров доку­ ментов, по отношению к которым дескрипторное понятие выступает в одной и той же роли.

Информационные таблицы

В различных областях практической деятельности ши­ роко применяется представление сведений в виде таблиц с двумя входами (платежные ведомости, ведомости учета различного рода оборудования и материалов, техниче­ ские характеристики промышленных изделий и т. п.). По одному входу таких таблиц перечисляются объекты, под­ лежащие учету, по другому — классы характеристик, а конкретные значения характеристик записываются на пересечении строк и столбцов (табл. 12.2). Наименования

Т а б л и ц а 12.2

И н ф о р м а ц и он н а я т абл иц а

объектов и классов характеристик обычно даются в сло­ весной формулировке или в виде условных обозначений, а характеристики могут выражаться числами, буквенно­ цифровыми индексами, отдельными словами и отрезками связного текста. В связи с использованием таблиц в автоматизированных системах они получили название

и н ф о р м а ц и о н н ы х

или о б ъ е к т н о - х а р а к т е ­

р и с т и ч е с к и х таблиц

[79].

При пользовании двумерными таблицами, записанны­ ми на бумаге, у человека, знакомого с существом дела, обычно не возникает сомнений относительно характера смысловых связей между различными их элементами.


Эти смысловые связи отражаются в наименованиях таб­ лиц, во взаимном расположении их элементов и в словес­ ных формулировках характеристик. Отдельные графы таблиц при необходимости могут сопровождаться приме­ чаниями. Но если таблйцы используются для представ­ ления сведений в памяти ЭВМ, то нужно точно опреде­ лить роль их элементов и четко выразить взаимную связь между ними.

Анализ структуры табличных данных показывает, что за редкими исключениями здесь используются только би­ нарные отношения. Причем объекты оказываются непо­ средственно связанными с конкретными видовыми харак­ теристиками (со значениями характеристик), а с родовы­ ми характеристиками (с классами характеристик) они связаны только через видовые характеристики. Если обо­ значить через X произвольный объект таблицы, а через г и у его конкретную и родовую характеристики, то со­ ответственно для каждой тройки х, у, z элементов табли­ цы обычно имеет место отношение вида

Fi(x, у,

z) =Fj(x, z) & (zczy),

где Fi, Fj — символы

отношений произвольного вида;

cz — символ родо-видового отношения между понятиями (отношения между понятиями по объему); &— знак конъюнкции.

Наименования характеристик, используемые в каче­ стве названий граф информационной таблицы, часто вы­ полняют одновременно две функции: они обозначают классы характеристик и представляют общую часть на­ именований конкретных характеристик (значений харак­ теристик) графы. Без общей части наименований кон­ кретных характеристик, указываемой на входе в графу, эти характеристики могут оказаться непонятными (не ясно, например, что означает запись «25 чел.» в графе таблицы, если не обратиться к наименованию характе­ ристики «количество рабочих», указанному на входе в графу).

Членение наименований конкретных характеристик на две части, одна из которых записывается в графе, а дру­ гая выносится в ее заголовок и является общей частью для всех характеристик этой графы, на практике бывает не всегда однозначным. Но влияние субъективных факто­ ров здесь может быть исключено или по крайней мере значительно уменьшено, если заранее разработать и за-

216

фиксировать формулировки наименований граф, а на бланках таблиц для каждой графы указать четкие тре­ бования по ее заполнению (например, указать рекомен­ дуемые единицы измерения и т. п.).

Наряду с наименованиями объектов и характеристик, обозначающих строки и столбцы, на ее входах обычно указываются наименования более широких рубрик. Эти рубрики обозначают объекты и характеристики, находя­ щиеся с объектами и характеристиками на входах таб­ лицы в родо-видовых отношениях или в отношениях ти­ па «целое — часть». Систему подобных отношений меж­ ду объектами и характеристиками таблицы можно пред­ ставить в виде иерархических деревьев, вершинам кото­ рых будут соответствовать понятия (объекты или харак­ теристики), а дугам — отношения.

Ранее уже говорилось о том, что традиционная таб­ личная форма записи сведений в неявном виде отражает систему бинарных отношений между объектами и харак­ теристиками, записанными в ее графах. Чаще всего здесь используются отношения типа «целое — часть» и атрибу­ тивные отношения (объект х имеет признак z). При этом, независимо от характера объектов, в пределах одной графы используется только один тип отношений. Это по­ зволяет выносить признаки отношений «за скобку» и условно привязывать их к наименованиям граф (к номе­ рам столбцов).

Данные одной таблицы обычно характеризуют ком­ плекс объектов, сгруппированных по временному, про­ странственному или функциональному признаку. Если в информационной системе содержатся сведения о разно­ родных объектах, то количество информационных таблиц определяется числом различных комплексов объектов. Наименование комплекса объектов приводится, как пра­ вило, в заголовке таблицы наряду с обобщенным наименованием всех характеристик (например, «техни­ ческие характеристики строительных машин и механиз­ мов») .

Таким образом, в информационных таблицах между объектами и характеристиками могут быть р а з л и ч н ы е отношения. Этиотношения необходимо учитывать при поиске информации и в особенности при обобщении ко­ личественных данных, содержащихся в таблицах. Игно­ рирование специфики отношений между объектами и характеристиками приводит при поиске к выдаче лиш-

2 1 7


ней информация, а при обобщении количественных пока­ зателей— к неправильным результатам. Если первое явление нежелательно, то второе — совершенно недопу­ стимо.

При решении типовых задач по обобщению количест­ венных данных отношения между объектами и характе­ ристиками могут учитываться в алгоритмах решения этих задач. Но в таком случае алгоритмы оказываются зави­ симыми от конкретного вида таблиц, а программы реше­ ния задач должны «настраиваться» на таблицы и отла­ живаться вместе с ними. Более удобным и более уни­ версальным является введение в таблицы специальных кодовых обозначений для отношений между объектами и характеристиками. Они могут записываться совместно с кодами характеристик, обозначающими графы таблиц. Для поиска сведений с учетом отношений между объ­ ектами и характеристиками необходимо указывать эти отношения в запросе, а в процессе поиска проверять таб­ личные данные на наличие заданных отношений.

Линейная запись информационных таблиц может про­ изводиться путем их развертки по строкам или по столб­ цам. В первом случае в явном виде фиксируются только связи между объектами и значениями характеристик. Связи между наименованиями характеристик и их зна­ чениями отражаются в позициях последних. Во втором случае в явном виде фиксируются связи между наимено­ ваниями характеристик и их значениями, а связи между значениями характеристик и объектами отражаются по­ зиционно.

Так как порядок следования значений характеристик в линейной развертке строго детерминирован, то име­ ется возможность по номеру объекта и номеру характе­ ристики вычислять адрес места записи значения характе­ ристики. Но эта возможность может быть реализована только тогда, когда коды значений характеристик имеют одинаковую длину. В действительности различные зна­ чения характеристик могут иметь разную длину кодов и место их записи не может быть определено по номерам строк и столбцов без перебора. Для обозначения границ кодов значений характеристик применяют разделитель­ ные знаки.

В процессе поиска последовательно просматриваются все значения характеристик и подсчитывается количество встречающихся разделительных знаков-(порядковый но­

2 1 8

мер разделительного знака совпадает с порядковым но­ мером значения характеристики). Искомое значение ха­ рактеристики обнаруживается по совпадению номера по­ зиции, вычисленного по номеру строки и номеру столбца, и порядкового номера разделительного знака.

Можно и не просматривать последовательно значения характеристик, если заменить их кодами равной длины, а первоначальные коды значений характеристик задать списком. В качестве кодов значений характеристик рав­ ной длины могут быть использованы либо порядковые номера буквенных кодов значений характеристик в не­ котором упорядоченном их списке, либо отсылочные адреса к значениям характеристик. Во втором случае значения характеристик могут записываться в произ­ вольном порядке, а поиск производится следующим об­ разом: сначала по номеру строки и номеру столбца опре­ деляется порядковый номер клетки матрицы в ее линей­ ной развертке, затем по порядковому номеру клетки вы­ бирается отсылочный адрес к значению характеристики и по отсылочному адресу обращаются к началу буквен­ ного кода значения характеристики.

Описанный способ представления сообщений в памя­ ти ЭВМ очень удобен, так как 'позволяет выбирать зна­ чения характеристик без их последовательного просмо­ тра. Но он выгоден только при так называемом прямом поиске, когда к матрице информационной таблицы обра­ щаются по строке и столбцу [79]. При практическом использовании ИПС возможны и такие запросы, когда в качестве исходных данных указываются характеристи­ ки объектов (наименования и значения характеристик), а требуется найти объекты, обладающие заданными ха­ рактеристиками. Тогда удобно упорядочить буквенные коды значений характеристик и отождествлять заданные значения со значениями характеристик в упорядоченном списке. После отождествления порядковый номер зна­ чения характеристики запоминается и по нему входят в матрицу информационной таблицы. Здесь также неиз­ бежен перебор среди равномерных кодов значений ха­ рактеристик.

Можно пойти по пути создания дополнительных таб­ лиц соответствия между равномерными кодами значений характеристик и позициями этих кодов в матрице ин­ формационной таблицы. Тогда и обратный поиск будет быстродействующим (разумеется, все это справедливо

219