Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.10.2024

Просмотров: 66

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

при поиске. Например, легко можно следовать по иерархи­ ческой структуре при поиске всех видов родовых понятий или же можно начать поиск со специфических классов и от них двигаться вверх по иерархическому «дереву», чтобы до­ полнительно выявить документы из более широкого класса.

При построении «дерева» необходимо проводить упоря­ дочение расположения классов таким образом, чтобы при поиске использовать булеву операцию альтернации, в соот­ ветствии с которой естественно предположить, что альтерна­ тивные классы (взаимозамещаемые) должны располагаться в тесном физическом соседстве друг с другом в классифи­ кационных таблицах или будут связаны посредством отсы­ лок в списке предметных рубрик, по которым осуществля­ ется поиск.

Недостатком приведенной классификации является то, что в ней нет возможности перечислить и определить более сложные и специфические многомерные пересечения классов, так как это приводит к чрезмерному возрастанию объема указателя. Чтобы избежать указанного явления, потребуется введение сложных правил пользования указателем. Поэтому рассмотренный метод индексирования не во всех случаях удовлетворяет потребности специалистов.

В настоящее время созданы многомерные системы, спо­ собные обеспечить доступ к любому предмету с любой воз­ можной точки зрения. В этом значительную роль сыграли вычислительная техника для обработки данных и такие тех­ нические средства, как карты Баттена, карты с краевой пер­ форацией, карты унитермов.

На смену традиционным методам пришли поисковые си­ стемы экономически рентабельного многоаспектного поиска документов с многоаспектным содержанием.

§ 2. Организация поиска

Поисковый массив по существу обеспечивает механизм, посредством которого можно сравнивать описание докумен­ тов с описаниями запросов.

Отношение между документами и терминами индексиро­ вания удобно представляется в форме матрицы. Общий вид такой матрицы представлен на рис. 6.

110

На рисунке буквы представляют словарь терминов ин­ дексирования, а цифры — документы, заиндексированные в поисковой системе.

Для ввода документа в систему необходимо на основе его предметного содержания, сопоставив с классами, обозна­ чить документ соответствующими терминами индексирова­ ния. Отметкой X на матрице указывается принадлежность документа к соответствующим классам. Например, доку­ мент 1 отнесен к классам Г, Ж и И, документ 2 — к клас­ сам А и В и т. д. Обратно, можно заметить, что термин А присвоен документам 2, 6, 8 и 10 и что класс А включает документы 2, 6, 8 и 10.

Таким образом, вертикальные столбы представляют со­ бой поисковые образы документов, а горизонтальные ряды— описания классов. Построение самого указателя, как нетруд­ но заметить, может быть организовано двумя путями. Либо он должен перечислять все непустые классы (классы с от­ меткой X), указывая для каждого из них принадлежащие им документы, либо он должен перечислять все документы фонда, указывая для каждого из них классы, к которым со­ ответствующий документ был отнесен.

Указатели, организованные с использованием первого пути, называют указателями типа источник-термин, а с ис­ пользованием второго — типа термин-источник. Последний

тип часто называют

инвертированным указателем, а пер­

вый — прямым или подокументным.

Предметный запрос,

переведенный на. язык системы для

выполнения поиска в указателе, называют поисковым пред­ писанием. Например, поисковое предписание «а» представ­ ляет собой простой двухаспектный запрос для поиска доку­ ментов, которые принадлежат к классу Г и одновременно к

классу И* Процесс поиска заключается

в

сопоставлении

поискового предписания с матрицей,

термин-документ для

выявления терминов, поисковые образы

которых соответству­

ют поисковому предписанию. По рисунку

легко установить,

что на основании предписания «а» в данном

случае будет

найден только один документ 1, который отнесен одновре­ менно к классам Г и И. Осуществляя поиск, нетрудно заме­ тить, что поисковое предписание содержит только требова­ ние принадлежности документов одновременно классам Г и

111


И, но не ограничивает возможность их вхождения в другие классы. Так, документ 1 входит кроме того в класс Ж-

Способ поиска в указателе Tiiifa источник-термин суще­ ственно отличен от поиска в указателе термин-источник. Для этого рассмотрим предписание «б». При проведении поиска в системе термин-источник необходимо последовательно про­ смотреть все столбцы матрицы (поисковые образы докумен­ тов) и выявить те столбы (документы), у которых множество присвоенных им,терминов включает множество терминов, со­ держащихся в поисковом предписании. Из всех документов в данном случае только поисковый образ документа 9 вклю­ чает все термины поискового предписания «б». Проведя тот же поиск в указателе типа источник-термин, необходимо про­ сматривать матрицу строка за строкой, а не столбец , за столбцом. При этом поочередно анализируется содержание каждого из рядов, соответствующих терминам или классам, представленным в запросе.

С целью экономии времени на поиск просмотр удобно начинать с наименее заполненных' строк.

Просмотрев, например, вначале класс Б, можно устано­ вить, что он содержит три документа — 4, 7 и 9. Зафикси­

ровав эту информацию, переходим

к

следующему классу,

в данном случае Д, который менее

заполнен,

чем Г. Все

ячейки этой строки просматривать

не

нужно,

обращаемся

только к ячейкам Д4. Д7 и Д9. Ячейки Д4 и Д7 пусты, из чего можно заключить, что ни документ 4, ни документ 7 не соответствуют поисковому предписанию. Когда осуществляем переход к последней строке Г, нас интересует только ячейка ГД, так как соответствие документов поисковому предписа­ нию определяется содержанием этой оставшейся ячейки. Б данном случае она заполнена. Следовательно, документ 9 является единственным источником в фонде, который соот­ ветствует поисковому предписанию.

Пример показывает, что для выполнения поиска в- ука­ зателе термин-источник необходимо просматривать поиско­ вые образы всех документов (все столбцы матрицы), отве­ чающие условиям запроса. В отдельных случаях, когда не­ обходима только какая-то часть источников, соответствую­ щих запросу, поиск можно прекратить в любой момент. В то же время, если производить поиск по указателю источник-

112


термин, следовало бы просматривать все ряды матрицы, не­ зависимо от того, какую часть источников необходимо найти.

Для механизации поиска имеются три принципиально отличных механизированных поисковых системы:

1)системы, использующие оборудование для обработки данных на перфокартах;

2)системы, использующие ЭВМ;

3)системы, использующие микрофильмы.

Поисковые системы на перфокартах могут быть либо системами источник-термин, либо системами термин-источ­ ник.

В последних системах отдельная карта является поиско­ вым описанием документа, а термины индексирования, при­ своенные документам, кодируются на карте. Роль ^ сортиро­ вальной машины заключается в последовательной сорти­ ровке всего массива перфокарт и отделении карт, соответ­ ствующих поисковому предписанию.

В системе источник-термин каждый класс документов образует свой подмассив карт, определяющий номера отне­ сенных к классу документов.- Для выявления общих номеров в документах классы сравниваются с использованием карто­ подборочной машины.

Машинный поиск с помощью ЭВМ может быть органи­ зован по принципу источник-термин либо термин-источник. При этом указатель записывается на магнитную ленту. При­ мерная скорость поиска самых сложных предписаний с мас­ сивами в сотни тысяч поисковых образов составляет около 10 часов.

Микрофильмирование позволяет использовать объеди­ нение точных копий документов с их поисковыми образами на едином носителе информации. Перед вводом в поисковую систему документ фотографируется на микропленку или дискретные микрофиши. Одновременно термины индексиро­ вания кодируются в двоичной системе в виде прозрачных и затемненных отметок и помещаются рядом -с изображением документа. При поиске микрофильм или микрофиши про­ ходят через читающее устройство, содержащее фотоэлектри­ ческий элемент, распознающий документы, кодовые обозна­

8

834

ИЗ

 


чения которых соответствуют указанным в поисковом пред­ писании.

Использование технических средств в поисковых систе­ мах позволяет эффективно осуществлять не только поиск до­ кументов по специфичным предметным запросам, представ­ ляющим единовременную потребность в информации, но и организовать непрерывное оповещение.

Необходимость в непрерывном оповещении возникает, например, при слежении за текущими новинками техничес­ кой литературы. В данном случае реализуется идея индиви­ дуального обслуживания, при которой отдельные потребите­ ли или группы потребителей оповещаются о наличии потен­ циально полезной для них текущей литературы.

Принцип реализации предложен Г. Г1. Луном в фирме ИБМ. В соответствии с принципом интересы индивидуумов или групп индивидуумов описываются посредством слов или словосочетаний, создавая таким образом профиль интересов потребителя.

При этом документы при вводе в фонд описываются на стадии индексирования аналогично схеме разовых запросов, а полученные поисковые образы сопоставляются с профилями интересов потребителей. Если профили совпадают в каких-то заранее установленных пределах, потребитель извещается о наличии документа, предположительно соответствующего его интересам.

Таким образом, при разовом запросе индексируются до­ кументы и запросы и создается механизм, позволяющий со­ поставлять описания документов и запросов, а при непре­ рывном оповещении индексируются документы и интересы потребителей и также создается механизм для сравнения их между собой. Принципиальным отличием систем является то, что во втором случае запрос потребителей предшествует поиску в массиве документов.

В подавляющем большинстве случаев для сопоставления профилей документов и профилей интересов потребителей ис­ пользуются ЭВМ. Это связано со сложностью профилей ин­ тересов, требованием высокой скорости просмотра и лег­ костью корректировки на основе обратной связи с потреби­ телями. *

114

§ 3. Характеристики И ПС и влияющие на них факторы

Кважнейшим характеристикам ИПС относятся полнота

иточность поиска. На них оказывают непосредственное влия­ ние два фактора:

а) полнота индексирования; б) специфичность языка -индексирования.

Полнота индексирования определяет степень, с какой от­ дельные предметы, рассматриваемые в документе, распозна­ ются при индексировании и переводятся на язык системы. Так, если имеется документ, в котором приведены сведения о пяти предметах и на стадии понятийного анализа при индексировании все они распознаются в отдельности и вы­ ражаются через соответствующие комбинации терминов язы­ ка индексирования, то можно утверждать, что достигнута исчерпывающая полнота индексирования данного источника информации. В том же случае, когда какое-либо понятие не выделено и специально не учтено при индексировании данного предмета, он никогда не сможет быть найден в указателе в ответ на запрос; кроме, конечно, того положения, когда термины, использованые для описания данного пред­ мета в запросе, случайно не окажутся связанными иерархи­ чески или другим путем с терминами, использованными для описания множества понятий предмета.

Высокий уровень полноты индексирования обеспечивает высокую полноту поиска и одновременно снижает его точ­ ность. Это объясняется тем, что в каждом вводимом доку­ менте выделяются и учитываются все или по крайней мере существенная часть подлежащих индексированию предметов. При этом оказываются заиндексированными и многие пред­ меты, которые лишь косвенно затрагиваются в документе. Следовательно, их также будет выдавать ИПС в ответ на запросы, по отношению к которым они содержат очень мало информации.

Второй причиной уменьшения точности поиска при уве­ личении полноты индексирования является следующее. С увеличением учтенных предметов при индексировании и терминов языка индексирования увеличивается вероятность возникновения ложных координаций терминов при поиске.

115


Так, документ с шестью предметами А, Б, В, Г, Д, Е, в кото­ ром, например, А связан с Б, В и Г, а Д с Е, может быть ошибочно выдан в ответ на любой из 12 двухаспектны.х за­ просов (А в связи с В, А в связи с Г, Б в связи с Г и т. д.).

Точность поиска зависит от способности языка индек­ сирования точно описывать специфичность рассматривае­ мой проблемы или темы.

Сильно детализированный язык индексирования позво­ ляет получить высокую точность поиска при одновременном уменьшении полноты поиска. Язык индексирования с невысо­ кой степенью специфичности обеспечивает высокое значение полноты, но не дает возможности получить высокую точность.

Полнота индексирования и специфичность языка индек-' сирования совместно определяют полноту и точность поиска по указателю. Но при поиске меняются полнота и точность в каждом отдельном поиске в результате применения различ­ ных стратегий поиска.

Так, например, указателем, основанным на пол­ ностью неконтролируемом словаре, необходимо просматри­

вать единственный

класс

документов

для любого поиска.

В такой

ситуации для каждого поиска

достигаются опре­

деленные

значения

полноты

и точности,

но нет возможности

расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности.

Если же возможность изменять поисковые предписания имеется, чтобы получить большее или меньшее число доку­ ментов в зависимости от конкретной ситуации путем замены синонимов или другими .способами, тогда поиск можно осу­ ществлять с различной степенью общности. При этом предо­ ставляется возможность пожертвовать точностью ради до­ стижения высокой полноты, пожертвовать полнотой для по­ лучения высокой точности поиска или выбрать промежуточ­ ное компромиссное решение. Так, для определенного поиска можно подготовить три отдельных поисковых предписания различной степени специфичности. Наиболее широкий поиск позволяет получить значения 95% полноты и 2% точности, наиболее точный поиск — 10% полноты и 85% точности, а

промежуточный средний — значения полноты и точности около 50%.

116