Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.10.2024
Просмотров: 66
Скачиваний: 0
при поиске. Например, легко можно следовать по иерархи ческой структуре при поиске всех видов родовых понятий или же можно начать поиск со специфических классов и от них двигаться вверх по иерархическому «дереву», чтобы до полнительно выявить документы из более широкого класса.
При построении «дерева» необходимо проводить упоря дочение расположения классов таким образом, чтобы при поиске использовать булеву операцию альтернации, в соот ветствии с которой естественно предположить, что альтерна тивные классы (взаимозамещаемые) должны располагаться в тесном физическом соседстве друг с другом в классифи кационных таблицах или будут связаны посредством отсы лок в списке предметных рубрик, по которым осуществля ется поиск.
Недостатком приведенной классификации является то, что в ней нет возможности перечислить и определить более сложные и специфические многомерные пересечения классов, так как это приводит к чрезмерному возрастанию объема указателя. Чтобы избежать указанного явления, потребуется введение сложных правил пользования указателем. Поэтому рассмотренный метод индексирования не во всех случаях удовлетворяет потребности специалистов.
В настоящее время созданы многомерные системы, спо собные обеспечить доступ к любому предмету с любой воз можной точки зрения. В этом значительную роль сыграли вычислительная техника для обработки данных и такие тех нические средства, как карты Баттена, карты с краевой пер форацией, карты унитермов.
На смену традиционным методам пришли поисковые си стемы экономически рентабельного многоаспектного поиска документов с многоаспектным содержанием.
§ 2. Организация поиска
Поисковый массив по существу обеспечивает механизм, посредством которого можно сравнивать описание докумен тов с описаниями запросов.
Отношение между документами и терминами индексиро вания удобно представляется в форме матрицы. Общий вид такой матрицы представлен на рис. 6.
110
На рисунке буквы представляют словарь терминов ин дексирования, а цифры — документы, заиндексированные в поисковой системе.
Для ввода документа в систему необходимо на основе его предметного содержания, сопоставив с классами, обозна чить документ соответствующими терминами индексирова ния. Отметкой X на матрице указывается принадлежность документа к соответствующим классам. Например, доку мент 1 отнесен к классам Г, Ж и И, документ 2 — к клас сам А и В и т. д. Обратно, можно заметить, что термин А присвоен документам 2, 6, 8 и 10 и что класс А включает документы 2, 6, 8 и 10.
Таким образом, вертикальные столбы представляют со бой поисковые образы документов, а горизонтальные ряды— описания классов. Построение самого указателя, как нетруд но заметить, может быть организовано двумя путями. Либо он должен перечислять все непустые классы (классы с от меткой X), указывая для каждого из них принадлежащие им документы, либо он должен перечислять все документы фонда, указывая для каждого из них классы, к которым со ответствующий документ был отнесен.
Указатели, организованные с использованием первого пути, называют указателями типа источник-термин, а с ис пользованием второго — типа термин-источник. Последний
тип часто называют |
инвертированным указателем, а пер |
вый — прямым или подокументным. |
|
Предметный запрос, |
переведенный на. язык системы для |
выполнения поиска в указателе, называют поисковым пред писанием. Например, поисковое предписание «а» представ ляет собой простой двухаспектный запрос для поиска доку ментов, которые принадлежат к классу Г и одновременно к
классу И* Процесс поиска заключается |
в |
сопоставлении |
|
поискового предписания с матрицей, |
термин-документ для |
||
выявления терминов, поисковые образы |
которых соответству |
||
ют поисковому предписанию. По рисунку |
легко установить, |
||
что на основании предписания «а» в данном |
случае будет |
найден только один документ 1, который отнесен одновре менно к классам Г и И. Осуществляя поиск, нетрудно заме тить, что поисковое предписание содержит только требова ние принадлежности документов одновременно классам Г и
111
И, но не ограничивает возможность их вхождения в другие классы. Так, документ 1 входит кроме того в класс Ж-
Способ поиска в указателе Tiiifa источник-термин суще ственно отличен от поиска в указателе термин-источник. Для этого рассмотрим предписание «б». При проведении поиска в системе термин-источник необходимо последовательно про смотреть все столбцы матрицы (поисковые образы докумен тов) и выявить те столбы (документы), у которых множество присвоенных им,терминов включает множество терминов, со держащихся в поисковом предписании. Из всех документов в данном случае только поисковый образ документа 9 вклю чает все термины поискового предписания «б». Проведя тот же поиск в указателе типа источник-термин, необходимо про сматривать матрицу строка за строкой, а не столбец , за столбцом. При этом поочередно анализируется содержание каждого из рядов, соответствующих терминам или классам, представленным в запросе.
С целью экономии времени на поиск просмотр удобно начинать с наименее заполненных' строк.
Просмотрев, например, вначале класс Б, можно устано вить, что он содержит три документа — 4, 7 и 9. Зафикси
ровав эту информацию, переходим |
к |
следующему классу, |
|
в данном случае Д, который менее |
заполнен, |
чем Г. Все |
|
ячейки этой строки просматривать |
не |
нужно, |
обращаемся |
только к ячейкам Д4. Д7 и Д9. Ячейки Д4 и Д7 пусты, из чего можно заключить, что ни документ 4, ни документ 7 не соответствуют поисковому предписанию. Когда осуществляем переход к последней строке Г, нас интересует только ячейка ГД, так как соответствие документов поисковому предписа нию определяется содержанием этой оставшейся ячейки. Б данном случае она заполнена. Следовательно, документ 9 является единственным источником в фонде, который соот ветствует поисковому предписанию.
Пример показывает, что для выполнения поиска в- ука зателе термин-источник необходимо просматривать поиско вые образы всех документов (все столбцы матрицы), отве чающие условиям запроса. В отдельных случаях, когда не обходима только какая-то часть источников, соответствую щих запросу, поиск можно прекратить в любой момент. В то же время, если производить поиск по указателю источник-
112
термин, следовало бы просматривать все ряды матрицы, не зависимо от того, какую часть источников необходимо найти.
Для механизации поиска имеются три принципиально отличных механизированных поисковых системы:
1)системы, использующие оборудование для обработки данных на перфокартах;
2)системы, использующие ЭВМ;
3)системы, использующие микрофильмы.
Поисковые системы на перфокартах могут быть либо системами источник-термин, либо системами термин-источ ник.
В последних системах отдельная карта является поиско вым описанием документа, а термины индексирования, при своенные документам, кодируются на карте. Роль ^ сортиро вальной машины заключается в последовательной сорти ровке всего массива перфокарт и отделении карт, соответ ствующих поисковому предписанию.
В системе источник-термин каждый класс документов образует свой подмассив карт, определяющий номера отне сенных к классу документов.- Для выявления общих номеров в документах классы сравниваются с использованием карто подборочной машины.
Машинный поиск с помощью ЭВМ может быть органи зован по принципу источник-термин либо термин-источник. При этом указатель записывается на магнитную ленту. При мерная скорость поиска самых сложных предписаний с мас сивами в сотни тысяч поисковых образов составляет около 10 часов.
Микрофильмирование позволяет использовать объеди нение точных копий документов с их поисковыми образами на едином носителе информации. Перед вводом в поисковую систему документ фотографируется на микропленку или дискретные микрофиши. Одновременно термины индексиро вания кодируются в двоичной системе в виде прозрачных и затемненных отметок и помещаются рядом -с изображением документа. При поиске микрофильм или микрофиши про ходят через читающее устройство, содержащее фотоэлектри ческий элемент, распознающий документы, кодовые обозна
8 |
834 |
ИЗ |
|
чения которых соответствуют указанным в поисковом пред писании.
Использование технических средств в поисковых систе мах позволяет эффективно осуществлять не только поиск до кументов по специфичным предметным запросам, представ ляющим единовременную потребность в информации, но и организовать непрерывное оповещение.
Необходимость в непрерывном оповещении возникает, например, при слежении за текущими новинками техничес кой литературы. В данном случае реализуется идея индиви дуального обслуживания, при которой отдельные потребите ли или группы потребителей оповещаются о наличии потен циально полезной для них текущей литературы.
Принцип реализации предложен Г. Г1. Луном в фирме ИБМ. В соответствии с принципом интересы индивидуумов или групп индивидуумов описываются посредством слов или словосочетаний, создавая таким образом профиль интересов потребителя.
При этом документы при вводе в фонд описываются на стадии индексирования аналогично схеме разовых запросов, а полученные поисковые образы сопоставляются с профилями интересов потребителей. Если профили совпадают в каких-то заранее установленных пределах, потребитель извещается о наличии документа, предположительно соответствующего его интересам.
Таким образом, при разовом запросе индексируются до кументы и запросы и создается механизм, позволяющий со поставлять описания документов и запросов, а при непре рывном оповещении индексируются документы и интересы потребителей и также создается механизм для сравнения их между собой. Принципиальным отличием систем является то, что во втором случае запрос потребителей предшествует поиску в массиве документов.
В подавляющем большинстве случаев для сопоставления профилей документов и профилей интересов потребителей ис пользуются ЭВМ. Это связано со сложностью профилей ин тересов, требованием высокой скорости просмотра и лег костью корректировки на основе обратной связи с потреби телями. *
114
§ 3. Характеристики И ПС и влияющие на них факторы
Кважнейшим характеристикам ИПС относятся полнота
иточность поиска. На них оказывают непосредственное влия ние два фактора:
а) полнота индексирования; б) специфичность языка -индексирования.
Полнота индексирования определяет степень, с какой от дельные предметы, рассматриваемые в документе, распозна ются при индексировании и переводятся на язык системы. Так, если имеется документ, в котором приведены сведения о пяти предметах и на стадии понятийного анализа при индексировании все они распознаются в отдельности и вы ражаются через соответствующие комбинации терминов язы ка индексирования, то можно утверждать, что достигнута исчерпывающая полнота индексирования данного источника информации. В том же случае, когда какое-либо понятие не выделено и специально не учтено при индексировании данного предмета, он никогда не сможет быть найден в указателе в ответ на запрос; кроме, конечно, того положения, когда термины, использованые для описания данного пред мета в запросе, случайно не окажутся связанными иерархи чески или другим путем с терминами, использованными для описания множества понятий предмета.
Высокий уровень полноты индексирования обеспечивает высокую полноту поиска и одновременно снижает его точ ность. Это объясняется тем, что в каждом вводимом доку менте выделяются и учитываются все или по крайней мере существенная часть подлежащих индексированию предметов. При этом оказываются заиндексированными и многие пред меты, которые лишь косвенно затрагиваются в документе. Следовательно, их также будет выдавать ИПС в ответ на запросы, по отношению к которым они содержат очень мало информации.
Второй причиной уменьшения точности поиска при уве личении полноты индексирования является следующее. С увеличением учтенных предметов при индексировании и терминов языка индексирования увеличивается вероятность возникновения ложных координаций терминов при поиске.
115
Так, документ с шестью предметами А, Б, В, Г, Д, Е, в кото ром, например, А связан с Б, В и Г, а Д с Е, может быть ошибочно выдан в ответ на любой из 12 двухаспектны.х за просов (А в связи с В, А в связи с Г, Б в связи с Г и т. д.).
Точность поиска зависит от способности языка индек сирования точно описывать специфичность рассматривае мой проблемы или темы.
Сильно детализированный язык индексирования позво ляет получить высокую точность поиска при одновременном уменьшении полноты поиска. Язык индексирования с невысо кой степенью специфичности обеспечивает высокое значение полноты, но не дает возможности получить высокую точность.
Полнота индексирования и специфичность языка индек-' сирования совместно определяют полноту и точность поиска по указателю. Но при поиске меняются полнота и точность в каждом отдельном поиске в результате применения различ ных стратегий поиска.
Так, например, указателем, основанным на пол ностью неконтролируемом словаре, необходимо просматри
вать единственный |
класс |
документов |
для любого поиска. |
|
В такой |
ситуации для каждого поиска |
достигаются опре |
||
деленные |
значения |
полноты |
и точности, |
но нет возможности |
расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности.
Если же возможность изменять поисковые предписания имеется, чтобы получить большее или меньшее число доку ментов в зависимости от конкретной ситуации путем замены синонимов или другими .способами, тогда поиск можно осу ществлять с различной степенью общности. При этом предо ставляется возможность пожертвовать точностью ради до стижения высокой полноты, пожертвовать полнотой для по лучения высокой точности поиска или выбрать промежуточ ное компромиссное решение. Так, для определенного поиска можно подготовить три отдельных поисковых предписания различной степени специфичности. Наиболее широкий поиск позволяет получить значения 95% полноты и 2% точности, наиболее точный поиск — 10% полноты и 85% точности, а
промежуточный средний — значения полноты и точности около 50%.
116