Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 152
Скачиваний: 3
ния информации в процессе ее ввода существенным об разом изменяется. При этом номера новых документов заносятся во все участки памяти машины, где хранятся сведения по предметным рубрикам, указанным в дескрипторных описаниях этих документов. Кроме того, здесь возникают трудности, связанные с необходимостью опти мального резервирования памяти для различных пред метных рубрик.
Инверсный способ реализации поисковой системы имеет преимущество перед прямым в скорости поиска сведений, поскольку здесь сообщения группируются по
тем же признакам, |
которые указываются в запросах. |
В процессе поиска |
для каждого дескриптора запроса |
выбирается перечень относящихся к нему номеров доку ментов, после чего выполняются логические операции, не обходимые для формирования ответа. Но указанное пре имущество инверсных систем в значительной мере ослаб ляется тем, что сообщения обычно хранятся на магнит ных лентах, не обладающих свойством произвольного доступа к различным участкам памяти. С другой сторо ны, в дескрипторных системах прямого типа скорость поиска может быть увеличена, если можно разбить мас сив сообщений на непересекающиеся тематические области. Тогда поиск по запросу ведется только среди сообщений, относящихся к заданной тематической об ласти.
Положительные свойства прямого и инверсного спо собов организации поисковых массивов сочетаются
вузловом ассоциативно-адресном способе представления информации. Этот способ обеспечивает сохранение струк туры формализованных описаний документов в том ви де, в каком она была при вводе информации (для каж дого документа указывается перечень предметных руб рик). Описания документов представляются в виде узлов адресных отсылок. Каждый узел содержит столько от сылочных адресов, сколько предметных рубрик имеется
вописании соответствующего документа. В процессе поиска просматриваются только такие описания докумен тов, которые содержат хотя бы одну предметную рубри ку из запроса.
При построении системы адресных отсылок целесооб разно расчленить массив описаний документов на такие участки, которые могут быть размещены в оперативной
памяти ЭВМ, и для каждого участка установить связи
гм
между узлами независимо от других участков. Такая врганизация массивов приведет к некоторому увеличе нию их объема, но позволит упростить поисковые проце дуры.
При поиске документов в запросах указываются от дельные предметные рубрики или их сочетания, а в ка честве ответа выдаются перечни номеров документов. При этом запросы, включающие несколько предметных рубрик, могут строиться на базе конъюнктивной или дизъюнктивной связи между их элементами. Применяют ся и более сложные формы запросов с одновременным использованием различных видов связей.
Знак отрицания в поисковых запросах обычно не ис пользуется.. Причина состоит в том, что в логической матрице (табл. 12.1) для каждого документа указывают ся далеко не все, а только наиболее существенные при знаки. Поэтому нули в клетках матрицы могут стоять не только тогда, когда те или иные признаки документов отсутствуют, но и в тех случаях, когда отношения между признаками и документами не определены. При таких условиях операции над классами, соответствующие зна кам отрицания в запросах,, приведут к ложным результа там.
Если запрос формулируется в виде конъюнкции пред метных рубрик, то при прямой организации поисковой системы в качестве ответа выдаются номера только та ких документов, которые содержат в ассоциированных с ними перечнях предметных рубрик все рубрики запро са. При инверсной организации поисковой системы в ка честве результата поиска выдаются номера документов, содержащиеся одновременно во всех перечнях, ассо циированных с рубриками запроса.
На запрос с дизъюнктивной связью между элемента ми выдаются номера документов, отнесенных к любой из указанных в нем предметных рубрик. При прямой организации поисковой системы для отбора таких доку ментов достаточно, чтобы одна из рубрик запроса совпа ла с одной из рубрик, ассоциированных с номером доку мента. При инверсной организации — ответ на запрос формируют, объединяя перечни номеров документов, ас социированных с рубриками, указанными в запросе, и исключая далее повторения одинаковых элементов.
В первоначальных вариантах дескрипторных поиско-, вых систем, использующих естественный язык, докумен
212
ты описывались |
перечнями к л ю ч е в ы х |
слов или д е |
с к р и п т о р о в , |
встречающихся в текстах |
их рефератов. |
В качестве дескрипторов брались либо все знаменатель ные слова, либо только слова, являющиеся терминами в заданной тематической области. При записи в память машины описания документов представлялись в прямой или инверсной форме, а буквенные коды слов заменялись на их порядковые номера по словарю.
Запрос на поиск документов сначала формулировал ся на естественном языке, затем представлялся в виде перечня входящих в него дескрипторов. В процессе по иска связь между дескрипторами запроса интерпретиро валась как конъюнктивная.
Привлекательной стороной простейших дескрипторных поисковых систем является возможность детального описания содержания документов и запросов и полной автоматизации процессов их индексирования. Но из-за многообразия форм словесного выражения содержания документов и запросов и полного игнорирования контек стуальных связей слов полнота и точность выдачи сведе
ний в подобных системах |
оказывались неудовлетвори |
|||
тельными. |
|
|
|
|
Дальнейшим шагом вперед явилось введение так на |
||||
зываемых б а з и с н ы х о т н о ш е н и й |
между ключевыми |
|||
словами. При |
этом |
фиксировалась |
эквивалентность и |
|
подчиненность |
слов |
друг |
другу. Так, например, слова |
к о н с т р у к ц и я , к о н с т р у к т и в н ы й , к о н с т р у и
р о в а т ь |
могут считаться в известном смысле эквива |
лентными, |
а слово э к с к а в а т о р — подчиненным слову |
ма ши н а .
Эквивалентность и подчиненность слов в дескриптор-
иых системах обычно трактуются весьма |
широко. Так, |
в ИПС «Пусто — Непусто — 4» [30] слова |
считаются |
эквивалентными по смыслу, если их использование в за просах приводит к примерно одинаковым результатам поиска, а результаты поиска', полученные по «подчиняю щему» слову, должны полностью включать результаты поиска, полученные с помощью «подчиненных» слов.
В настоящее время в понятие «дескриптор» различны ми авторами вкладывается различное содержание. В си стеме «Пусто — Непусто — 4» дескрипторы определяются как классы эквивалентных слов. Но наряду с отдельны ми словами допускаются в качестве исключения и де
скрипторы, выраженные словосочетаниями, В других
213
поисковых системах в качестве дескрипторов наряду с от дельными, словами широко применяются и словосочета ния.
Мы будем понимать под дескрипторами наименова ния понятий, используемые для описания содержания до кументов и для формулировки поисковых запросов. Та кие наименования понятий могут выражаться как одним словом, так и сочетаниями слов.
В некоторых поисковых системах вводится различие между ключевыми словами п дескрипторами. При этом дескрипторами являются только такие слова и слово сочетания, которые используются для индексирования документов и запросов. Все прочие термины считаются ключевыми словами и с помощью системы базисных от ношений заменяются на дескрипторы.
Перечни дескрипторных понятий, используемых в ИПС, обычно оформляются в виде словарей-тезауру сов, в которых отражаются отношения эквивалентности и подчинения, а также указываются связи между близ кими по смыслу понятиями. Тезаурус совмещает в себе функции словаря наименований понятий и словаря клас сификационных связей.
Одни и те же ключевые слова в различных контекст ных окружениях могут выражать разные понятия. На пример, слово «управление» может обозначать как про цесс, так и административный орган. Значительно реже аналогичное явление наблюдается у словосочетаний.
Для уточнения контекстуальных значений слов и сло восочетаний в некоторых дескрипторных поисковых си стемах применяются специальные признаки, которые по лучили название у к а з а т е л е й роли. Указатели роли могут выражать общие грамматические категории («субъект действия», «объект воздействия»), категорий, связанные с основными этапами технологических процес сов («исходный материал», «продукт») и т. п. Исполь зование этих дополнительных признаков повышает точ ность выдачи информации по запросам, но требует более глубокого анализа содержания документов при индекси ровании.
Поисковые системы с использованием указателей роли могут быть реализованы в прямой форме, в инверс ной форме или в виде ассоциативно-адресной структуры. В случае прямой организации поисковой системы каж дый номер дескрипторного понятия должен сопровожу
814
даться кодом указателя роли, а при инверсной органи зации коды указателей роли могут сопровождать либо каждый номер документа, либо группы номеров доку ментов, по отношению к которым дескрипторное понятие выступает в одной и той же роли.
Информационные таблицы
В различных областях практической деятельности ши роко применяется представление сведений в виде таблиц с двумя входами (платежные ведомости, ведомости учета различного рода оборудования и материалов, техниче ские характеристики промышленных изделий и т. п.). По одному входу таких таблиц перечисляются объекты, под лежащие учету, по другому — классы характеристик, а конкретные значения характеристик записываются на пересечении строк и столбцов (табл. 12.2). Наименования
Т а б л и ц а 12.2
И н ф о р м а ц и он н а я т абл иц а
объектов и классов характеристик обычно даются в сло весной формулировке или в виде условных обозначений, а характеристики могут выражаться числами, буквенно цифровыми индексами, отдельными словами и отрезками связного текста. В связи с использованием таблиц в автоматизированных системах они получили название
и н ф о р м а ц и о н н ы х |
или о б ъ е к т н о - х а р а к т е |
р и с т и ч е с к и х таблиц |
[79]. |
При пользовании двумерными таблицами, записанны ми на бумаге, у человека, знакомого с существом дела, обычно не возникает сомнений относительно характера смысловых связей между различными их элементами.
Эти смысловые связи отражаются в наименованиях таб лиц, во взаимном расположении их элементов и в словес ных формулировках характеристик. Отдельные графы таблиц при необходимости могут сопровождаться приме чаниями. Но если таблйцы используются для представ ления сведений в памяти ЭВМ, то нужно точно опреде лить роль их элементов и четко выразить взаимную связь между ними.
Анализ структуры табличных данных показывает, что за редкими исключениями здесь используются только би нарные отношения. Причем объекты оказываются непо средственно связанными с конкретными видовыми харак теристиками (со значениями характеристик), а с родовы ми характеристиками (с классами характеристик) они связаны только через видовые характеристики. Если обо значить через X произвольный объект таблицы, а через г и у его конкретную и родовую характеристики, то со ответственно для каждой тройки х, у, z элементов табли цы обычно имеет место отношение вида
Fi(x, у, |
z) =Fj(x, z) & (zczy), |
где Fi, Fj — символы |
отношений произвольного вида; |
cz — символ родо-видового отношения между понятиями (отношения между понятиями по объему); &— знак конъюнкции.
Наименования характеристик, используемые в каче стве названий граф информационной таблицы, часто вы полняют одновременно две функции: они обозначают классы характеристик и представляют общую часть на именований конкретных характеристик (значений харак теристик) графы. Без общей части наименований кон кретных характеристик, указываемой на входе в графу, эти характеристики могут оказаться непонятными (не ясно, например, что означает запись «25 чел.» в графе таблицы, если не обратиться к наименованию характе ристики «количество рабочих», указанному на входе в графу).
Членение наименований конкретных характеристик на две части, одна из которых записывается в графе, а дру гая выносится в ее заголовок и является общей частью для всех характеристик этой графы, на практике бывает не всегда однозначным. Но влияние субъективных факто ров здесь может быть исключено или по крайней мере значительно уменьшено, если заранее разработать и за-
216
фиксировать формулировки наименований граф, а на бланках таблиц для каждой графы указать четкие тре бования по ее заполнению (например, указать рекомен дуемые единицы измерения и т. п.).
Наряду с наименованиями объектов и характеристик, обозначающих строки и столбцы, на ее входах обычно указываются наименования более широких рубрик. Эти рубрики обозначают объекты и характеристики, находя щиеся с объектами и характеристиками на входах таб лицы в родо-видовых отношениях или в отношениях ти па «целое — часть». Систему подобных отношений меж ду объектами и характеристиками таблицы можно пред ставить в виде иерархических деревьев, вершинам кото рых будут соответствовать понятия (объекты или харак теристики), а дугам — отношения.
Ранее уже говорилось о том, что традиционная таб личная форма записи сведений в неявном виде отражает систему бинарных отношений между объектами и харак теристиками, записанными в ее графах. Чаще всего здесь используются отношения типа «целое — часть» и атрибу тивные отношения (объект х имеет признак z). При этом, независимо от характера объектов, в пределах одной графы используется только один тип отношений. Это по зволяет выносить признаки отношений «за скобку» и условно привязывать их к наименованиям граф (к номе рам столбцов).
Данные одной таблицы обычно характеризуют ком плекс объектов, сгруппированных по временному, про странственному или функциональному признаку. Если в информационной системе содержатся сведения о разно родных объектах, то количество информационных таблиц определяется числом различных комплексов объектов. Наименование комплекса объектов приводится, как пра вило, в заголовке таблицы наряду с обобщенным наименованием всех характеристик (например, «техни ческие характеристики строительных машин и механиз мов») .
Таким образом, в информационных таблицах между объектами и характеристиками могут быть р а з л и ч н ы е отношения. Этиотношения необходимо учитывать при поиске информации и в особенности при обобщении ко личественных данных, содержащихся в таблицах. Игно рирование специфики отношений между объектами и характеристиками приводит при поиске к выдаче лиш-
2 1 7
ней информация, а при обобщении количественных пока зателей— к неправильным результатам. Если первое явление нежелательно, то второе — совершенно недопу стимо.
При решении типовых задач по обобщению количест венных данных отношения между объектами и характе ристиками могут учитываться в алгоритмах решения этих задач. Но в таком случае алгоритмы оказываются зави симыми от конкретного вида таблиц, а программы реше ния задач должны «настраиваться» на таблицы и отла живаться вместе с ними. Более удобным и более уни версальным является введение в таблицы специальных кодовых обозначений для отношений между объектами и характеристиками. Они могут записываться совместно с кодами характеристик, обозначающими графы таблиц. Для поиска сведений с учетом отношений между объ ектами и характеристиками необходимо указывать эти отношения в запросе, а в процессе поиска проверять таб личные данные на наличие заданных отношений.
Линейная запись информационных таблиц может про изводиться путем их развертки по строкам или по столб цам. В первом случае в явном виде фиксируются только связи между объектами и значениями характеристик. Связи между наименованиями характеристик и их зна чениями отражаются в позициях последних. Во втором случае в явном виде фиксируются связи между наимено ваниями характеристик и их значениями, а связи между значениями характеристик и объектами отражаются по зиционно.
Так как порядок следования значений характеристик в линейной развертке строго детерминирован, то име ется возможность по номеру объекта и номеру характе ристики вычислять адрес места записи значения характе ристики. Но эта возможность может быть реализована только тогда, когда коды значений характеристик имеют одинаковую длину. В действительности различные зна чения характеристик могут иметь разную длину кодов и место их записи не может быть определено по номерам строк и столбцов без перебора. Для обозначения границ кодов значений характеристик применяют разделитель ные знаки.
В процессе поиска последовательно просматриваются все значения характеристик и подсчитывается количество встречающихся разделительных знаков-(порядковый но
2 1 8
мер разделительного знака совпадает с порядковым но мером значения характеристики). Искомое значение ха рактеристики обнаруживается по совпадению номера по зиции, вычисленного по номеру строки и номеру столбца, и порядкового номера разделительного знака.
Можно и не просматривать последовательно значения характеристик, если заменить их кодами равной длины, а первоначальные коды значений характеристик задать списком. В качестве кодов значений характеристик рав ной длины могут быть использованы либо порядковые номера буквенных кодов значений характеристик в не котором упорядоченном их списке, либо отсылочные адреса к значениям характеристик. Во втором случае значения характеристик могут записываться в произ вольном порядке, а поиск производится следующим об разом: сначала по номеру строки и номеру столбца опре деляется порядковый номер клетки матрицы в ее линей ной развертке, затем по порядковому номеру клетки вы бирается отсылочный адрес к значению характеристики и по отсылочному адресу обращаются к началу буквен ного кода значения характеристики.
Описанный способ представления сообщений в памя ти ЭВМ очень удобен, так как 'позволяет выбирать зна чения характеристик без их последовательного просмо тра. Но он выгоден только при так называемом прямом поиске, когда к матрице информационной таблицы обра щаются по строке и столбцу [79]. При практическом использовании ИПС возможны и такие запросы, когда в качестве исходных данных указываются характеристи ки объектов (наименования и значения характеристик), а требуется найти объекты, обладающие заданными ха рактеристиками. Тогда удобно упорядочить буквенные коды значений характеристик и отождествлять заданные значения со значениями характеристик в упорядоченном списке. После отождествления порядковый номер зна чения характеристики запоминается и по нему входят в матрицу информационной таблицы. Здесь также неиз бежен перебор среди равномерных кодов значений ха рактеристик.
Можно пойти по пути создания дополнительных таб лиц соответствия между равномерными кодами значений характеристик и позициями этих кодов в матрице ин формационной таблицы. Тогда и обратный поиск будет быстродействующим (разумеется, все это справедливо
219