Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.10.2024

Просмотров: 63

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Несмотря на то, что стратегия поиска позволяет влиять па объем выходной информации и тем самым на полноту и точность поиска, пределы этого влияния ограничены и зави­ ся от полноты индексирования и степени специфичности языка индексирования.

Например, в указателе к массиву документов металлур­ гического производства невозможно получить высокой точ­ ности значение при поиске по запросу «Дуговая сварка в за­ щитной среде при производстве теплообменников», если спе­ цифическими терминами языка индексирования являются «Соединение» в аспекте «Производство», «Материалы» и «Технологическое оборудование» в аспекте «Готовая продук­ ция».

В случае, если есть возможность

изменить

стратегию

поиска для увеличения полноты

или

точности,

тогда мож­

но взять любую группу запросов

и составить для каждого

запроса поисковое предписание,

состоящее из

нескольких

предписаний с различными уровнями

специфичности.

Другими словами, можно считать, что положение реаль­ ной кривой характеристик ИПС определяется в первую оче­ редь двумя факторами-характеристиками языка конкретной тематической области и степенью общности запросов. В этой связи возникает необходимость рассмотреть составные части и характеристики языка индексирования.

Полный язык индексирования состоит из следующих

-частей:

а) словаря индексационных терминов, представляющего собой множество терминов индексирования;

б) кодового словаря; в) словаря входов, включающего множество входных

терминов; г) вспомогательные средства языка, предназначенные

для расширения или сужения определений классов; д) правила использования языка индексирования.

Индексационным термином называется рубрика, одно­ значно определяющая класс документа.

Например, класс документов «Сверлильные станки» мо­ жет быть однозначно определен рубрикой алфавитно-пред­ метногоуказателя «Сверлильные станки». В альтернативном случае он может быть однозначно определен с помощью

117


комбинации двух дескрипторов «Станки» и -«Сверление». В первом случае дескриптор «Сверлильные станки» является одним из рабочих терминов языка индексирования, то есть он является термином, под которым в указателе располага­ ются записи. Во втором случае под рубрикой «Сверление» в указателе нет ни одной записи. Номера документов по этой теме отнесены к двум рабочим терминам: «Станки» и «Свер­ ление».

Кодовые термины — это термины, под которыми в ука­ зателе помещены записи. Например, в нашем случае «Стан­

ки» и «Сверление».

 

Словарь

входов

— это множество входных терминов,

состоящих из

слов

и словосочетаний, которые используются,

в документах и запросах для выражения понятий, выделен­ ных при индексировании и отображении кодовыми терминами системы.

Обширный словарь входов обеспечивает использование индексаторами и производящими поиск того же самого кодо­ вого термина или терминов для выражения определенных понятий.

Язык индексирования, помимо различных словарей для повышения полноты и точности, должен включать различные дополнительные средства.

Минимальное содержание языка индексирования состав­ ляет набор унитермов, то есть однословных обозначений классов, извлеченных из текстов документов без всякого кон­ троля. К множеству унитермов добавляются определенные средства, повышающие точность или полноту поиска.

Средства повышения полноты увеличивают размеры клас­ сов документов путем группирования терминов и уменьше­ ния размера словаря индексационных терминов. К таким средствам относятся: контроль синонимии и словоформ, ие­ рархические связи и группировка терминов по смысловым группам.

Средства повышения точности, наоборот, уменьшают размеры классов документов путем ограничения определе­ ний терминов и увеличения размеров словаря индексацион­ ных терминов. Сюда относятся: координация, приписывание весовых коэффициентов, связывание терминов, установле­ ние роли.

J18

Характеризуя язык индексирования в целом, Можно от­ метить, что он представляет собой смесь различных средств повышения полноты и точности. Чем больше таких средств расширения или сужения определений классов включено в язык индексирования, тем большую возможность он пред­ ставляет для изменения стратегии поиска в зависимости от конкретных требований в любом диапазоне характеристик системы, начиная от максимальной полноты и кончая макси­ мальной точностью.

§ 4. Механизация и автоматизация И ПС

Простейшей формой созданного машиной указателя яв­ ляется так называемый указатель «Ключевые слова в кон­ тексте». Используя словарь подлежащих исключению слов, машина отбрасывает все синтаксические слова, такие как мбстоимения, предлоги и т. д., а все оставшиеся слова в за­ головках представляет в качестве индексационных слов. При такой машинной обработке получается указатель ключевых терминов, отпечатанных в алфавитном порядке вместе с текстом, непосредственно окружающим каждый термин.

Более сложным и интересным представляется использо­ вание ЭВМ для автоматического индексирования докумен­ тов на основе особых характеристик текста документов или их рефераторов. Первые исследования данной проблемы были проведены в фирме IBM Луном и Баксендейлом. Ука­ занные авторы исходили при этом из той основной предпо­ сылки, что отдельные слова в документе действуют как клю­ чи, создающие основу для предсказания предметной кате­ гории, к которой, вероятно, принадлежит документ. Кроме того, ими учитывалось то обстоятельство, что статистичес­ кие данные о порядке, типе, частоте и положении слов позво­ ляют достаточно обоснованно предсказать содержание доку­ ментов, включающих эти слова.

В качестве критериев для отбора слов могут быть ис­ пользованы:

а) статистический, представляющий собой абсолютну частоту повторения слов в тексте, либо сравнительную час­ тоту по отношению к некоторой эталонной частоте;

119


б) лингвистический, основанный на семантике или син­ таксисе;

в) текстуальный позиционный или редакционный.

Автоматическое реферирование с использованием ста­ тистических критериев осуществляется в следующем поряд­ ке. После исключения общих слов и различных форм каж­ дого слова оставшийся лексический состав документа распо­ лагается в порядке убывания частоты их повторения. Далее устанавливается пороговое значение частоты, которое служит для отделения значащих слов.

После этого производится машинный поиск пересечения значащих слов в предложении. При этом два ключевых сло­ ва считаются связанными в предложении, если между ними располагаются не более четырех слов.

Предложения с наибольшими коэффициентами значимо*

сти

выбираются

и печатаются в порядке

их встречаемости

в тексте, образуя тем самым реферат.

 

 

 

Ключевыми

словами документа 'считаются

те слова,

частота которых выше ожидаемой.

 

 

бо

Если составить список слов, встречающихся в какой-ли­

тематической

области, с указанием

средней

частоты их

появления, то получим частотный словарь. Тогда можно сло­ вари всех поступающих документов сравнивать с общим сло­ варем и на этой основе определять значащие слова, то есть, редко употребляемые, которые часто встречаются в данном случае. После этого машине остается сопоставить эти зна­ чащие слова с хранящимися в ее памяти сначала в широком классе, а затем в более специализированных классах. Н а­ пример, установив, что документ касается материалов, про­ изводим поиск конкретных материалов и т. д.

Нестатистические критерии призваны дополнять стати­ стические. Часто они избавляют от необходимости производить статистические подсчеты по полному тексту. Например, можно акцентировать внимание на первых и последних предложе­ ниях текста или на тех предложениях, которым предшеству­ ют такие слова, как «резюме», «выводы», «итак» и др. Боль­ шее количество информации, чем обычный текст, содержат заголовки глав, параграфов, подписи под рисунками, схема­ ми и диаграммами. В качестве индикаторов содержания мо­

120


гут быть использованы такие признаки, как выделение час­ тей текста прописными буквами, курсивом или разрядкой.

Использование чисто машинного способа создания ука­ зателя находится пока на стадии исследований. Здесь зна­ чительная доля затрат, как правило, связана с переводом текста на машинный язык. Метод предполагает наличие предварительной классификации или списка предметных рубрик по основным темам фонда. Машинное индексирова­ ние включает просмотр текста документа и отнесение доку­ мента на основе словарного состава к определенному клас­ су разработанной классификации.

Интересными представляются разработки программ ав­ томатического синтаксического анализа (грамматического разбора предложений), применяемых к текстам для опреде­ ления структурных зависимостей между словами и сведения полного текста к множеству минимального размера предло­ жений. Документы при этом выражаются базовыми скелет­ ными предложениями с нормативными терминами путем ис­ ключения придаточных предложений, словосочетаний и дру­ гих подчиненных элементов.

Синтаксическая структура в указанном виде может хра­ ниться на магнитной ленте в виде «дерева» или абстракт­ ного графа, в котором каждое слово является узлом «дере­ за», а синтаксические зависимости представлены его ветвя­ ми. Подобные машинные программы для реальных текстов уже имеются.

В Питтсбургском университете разработан машинный метод поиска по полным текстам с использованием цифро­ вых кодов. Каждому идентифицирующему номеру документа устанавливается соответствие серии номеров, обозначающих группы тезауруса. Против каждого номера стоит число, по­ казывающее, сколько раз это понятие встретилось в доку­ менте. В таком массиве, который фактически представляет собой сжатый вариант полных текстов документов, можно проводить поиск с требованием пересечения двух и более групп тезауруса. Можно также потребовать минимальной встречаемости определенных групп тезауруса в документе или установить, что две группы должны встречаться в тексте иа определенном расстоянии друг от друга. Расстояние мо­ жет быть измерено количеством предложений. С использо­

121

ванием данного метода потребитель вводит первоначальные запросы на естественном языке в цифровой форме прямо в машину.

Примером полностью автоматизированной поисковой си­ стемы является разработанная в Гарвардском университете экспериментальная система SMART. Эта система восприни­ мает документы и запросы в читаемой машинной форме на естественном языке, осуществляет автоматический анализ со­ держания и классифицирует документы по степени их соот­ ветствия запросу. Кроме того, система обладает гибкостью, позволяющей ей обрабатывать запросы различными спосо­

бами — от простого

использования • одних

основ

слов

до

сложного построения

синтаксических

словосочетаний.

Си­

стема использует итеративный поиск,

при

котором

потреби­

телю разрешается многократно уточнять суть его запроса или переходить к другому варианту поиска с учетом источ­ ников, полученных в результате предыдущего поиска.

Основным препятствием широкого распространения ав­ томатизированных поисковых систем остается большая стои­ мость формы ввода и автоматизация индексирования.

В нашей стране исследования в области создания

автоматизированных

поисковых систем

занимаются

ученые

Л. И. Михайлов, А.

И. Чернов и Р. С.

Гиляровский.

ИГ1С

являются одним из направлений быстроразвивающейся в настоящее время науки, называемой информатикой.

§5. Проблема взаимоотношений И ПС с потребителями

Поиск может быть личный и поручаемый.

Личный поиск считается беспорядочным, так как лицо, осуществляющее поиск, обычно не имеет формализованной стратегии поиска до начала его проведения. По своему ха­ рактеру такой поиск близок к эвристическому. Как правило, он начинается с наиболее вероятного предметного заголовка и расширяется далее в соответствии с системой перекрестных ссылок или структурой используемых вспомогательных средств. При этом множество документов, оцениваемое по­ требителем вначале как соответствующее его требованиям, может значительно отличаться от тех документов, которые он представлял полезными в начале поиска.

122


Поручаемые поиски также не могут быть признаны упо­ рядоченными так как лицо, осуществляющее поиск, делает

в

процессе его различные предположения относительно то­

го,

какие документы вероятнее всего представляют интерес.

Поэтому часть документов, которые хотел бы видеть потре­ битель, не поступит к нему. Зато он получит множество та­

ких документов, которые имеют для

него

малую

ценность

или вообще не нужны.

 

 

 

Данный вид поиска легко может

быть

усовершенство­

ван, если в процессе его предлагать

потребителям некото­

рые документы для ознакомления и

■изменять

стратегию

поиска на основе обратной связи, то есть превращать поиск в итеративный процесс.

Появление технических средств и ЭВМ в сфере меха низации и автоматизации ИПС изменяют характер взаимо­ отношения поисковой системы с потребителями. В указанных условиях личный поиск стал невозможным. Резко изменяется и процесс поручаемого теперь уже машинного поиска.

Для организации такого поиска необходимо вначале под­ готовить поисковое предписание для нахождения ссылок на документы, имеющие отношение к запросу. В предписании формулируются требования, которым должен удовлетворять документ для включения в класс приемлемых документов. Сам поиск представляет собой сопоставление списка индексационных терминов запроса с поисковыми образами доку­ ментов, то есть с аналогичными списками их индексационных терминов. Документ поступает потребителю только в том случае, когда уровень соответствия обоих списков пре­ восходит заранее установленный порог.

Еще одной особенностью предписания при машинном по­

иске является то,

что в нем

должны быть совершенно четкие

и детальные формулировки

информационных нужд потре­

бителя. От этого

в значительной мере зависят результаты

поиска.

Основные недостатки во взаимоотношении машинных ИПС с потребителями обусловлены тем, что сформулиро­ ванный в предписании запрос более специфичен, чем дей­ ствительные информационные потребности, или он сформу­ лирован в более общем виде, чем того требуют реальные информационные потребности.

123