Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.10.2024
Просмотров: 63
Скачиваний: 0
Несмотря на то, что стратегия поиска позволяет влиять па объем выходной информации и тем самым на полноту и точность поиска, пределы этого влияния ограничены и зави ся от полноты индексирования и степени специфичности языка индексирования.
Например, в указателе к массиву документов металлур гического производства невозможно получить высокой точ ности значение при поиске по запросу «Дуговая сварка в за щитной среде при производстве теплообменников», если спе цифическими терминами языка индексирования являются «Соединение» в аспекте «Производство», «Материалы» и «Технологическое оборудование» в аспекте «Готовая продук ция».
В случае, если есть возможность |
изменить |
стратегию |
|
поиска для увеличения полноты |
или |
точности, |
тогда мож |
но взять любую группу запросов |
и составить для каждого |
||
запроса поисковое предписание, |
состоящее из |
нескольких |
|
предписаний с различными уровнями |
специфичности. |
Другими словами, можно считать, что положение реаль ной кривой характеристик ИПС определяется в первую оче редь двумя факторами-характеристиками языка конкретной тематической области и степенью общности запросов. В этой связи возникает необходимость рассмотреть составные части и характеристики языка индексирования.
Полный язык индексирования состоит из следующих
-частей:
а) словаря индексационных терминов, представляющего собой множество терминов индексирования;
б) кодового словаря; в) словаря входов, включающего множество входных
терминов; г) вспомогательные средства языка, предназначенные
для расширения или сужения определений классов; д) правила использования языка индексирования.
Индексационным термином называется рубрика, одно значно определяющая класс документа.
Например, класс документов «Сверлильные станки» мо жет быть однозначно определен рубрикой алфавитно-пред метногоуказателя «Сверлильные станки». В альтернативном случае он может быть однозначно определен с помощью
117
комбинации двух дескрипторов «Станки» и -«Сверление». В первом случае дескриптор «Сверлильные станки» является одним из рабочих терминов языка индексирования, то есть он является термином, под которым в указателе располага ются записи. Во втором случае под рубрикой «Сверление» в указателе нет ни одной записи. Номера документов по этой теме отнесены к двум рабочим терминам: «Станки» и «Свер ление».
Кодовые термины — это термины, под которыми в ука зателе помещены записи. Например, в нашем случае «Стан
ки» и «Сверление». |
|
|
Словарь |
входов |
— это множество входных терминов, |
состоящих из |
слов |
и словосочетаний, которые используются, |
в документах и запросах для выражения понятий, выделен ных при индексировании и отображении кодовыми терминами системы.
Обширный словарь входов обеспечивает использование индексаторами и производящими поиск того же самого кодо вого термина или терминов для выражения определенных понятий.
Язык индексирования, помимо различных словарей для повышения полноты и точности, должен включать различные дополнительные средства.
Минимальное содержание языка индексирования состав ляет набор унитермов, то есть однословных обозначений классов, извлеченных из текстов документов без всякого кон троля. К множеству унитермов добавляются определенные средства, повышающие точность или полноту поиска.
Средства повышения полноты увеличивают размеры клас сов документов путем группирования терминов и уменьше ния размера словаря индексационных терминов. К таким средствам относятся: контроль синонимии и словоформ, ие рархические связи и группировка терминов по смысловым группам.
Средства повышения точности, наоборот, уменьшают размеры классов документов путем ограничения определе ний терминов и увеличения размеров словаря индексацион ных терминов. Сюда относятся: координация, приписывание весовых коэффициентов, связывание терминов, установле ние роли.
J18
Характеризуя язык индексирования в целом, Можно от метить, что он представляет собой смесь различных средств повышения полноты и точности. Чем больше таких средств расширения или сужения определений классов включено в язык индексирования, тем большую возможность он пред ставляет для изменения стратегии поиска в зависимости от конкретных требований в любом диапазоне характеристик системы, начиная от максимальной полноты и кончая макси мальной точностью.
§ 4. Механизация и автоматизация И ПС
Простейшей формой созданного машиной указателя яв ляется так называемый указатель «Ключевые слова в кон тексте». Используя словарь подлежащих исключению слов, машина отбрасывает все синтаксические слова, такие как мбстоимения, предлоги и т. д., а все оставшиеся слова в за головках представляет в качестве индексационных слов. При такой машинной обработке получается указатель ключевых терминов, отпечатанных в алфавитном порядке вместе с текстом, непосредственно окружающим каждый термин.
Более сложным и интересным представляется использо вание ЭВМ для автоматического индексирования докумен тов на основе особых характеристик текста документов или их рефераторов. Первые исследования данной проблемы были проведены в фирме IBM Луном и Баксендейлом. Ука занные авторы исходили при этом из той основной предпо сылки, что отдельные слова в документе действуют как клю чи, создающие основу для предсказания предметной кате гории, к которой, вероятно, принадлежит документ. Кроме того, ими учитывалось то обстоятельство, что статистичес кие данные о порядке, типе, частоте и положении слов позво ляют достаточно обоснованно предсказать содержание доку ментов, включающих эти слова.
В качестве критериев для отбора слов могут быть ис пользованы:
а) статистический, представляющий собой абсолютну частоту повторения слов в тексте, либо сравнительную час тоту по отношению к некоторой эталонной частоте;
119
б) лингвистический, основанный на семантике или син таксисе;
в) текстуальный позиционный или редакционный.
Автоматическое реферирование с использованием ста тистических критериев осуществляется в следующем поряд ке. После исключения общих слов и различных форм каж дого слова оставшийся лексический состав документа распо лагается в порядке убывания частоты их повторения. Далее устанавливается пороговое значение частоты, которое служит для отделения значащих слов.
После этого производится машинный поиск пересечения значащих слов в предложении. При этом два ключевых сло ва считаются связанными в предложении, если между ними располагаются не более четырех слов.
Предложения с наибольшими коэффициентами значимо*
сти |
выбираются |
и печатаются в порядке |
их встречаемости |
|
в тексте, образуя тем самым реферат. |
|
|
||
|
Ключевыми |
словами документа 'считаются |
те слова, |
|
частота которых выше ожидаемой. |
|
|
||
бо |
Если составить список слов, встречающихся в какой-ли |
|||
тематической |
области, с указанием |
средней |
частоты их |
появления, то получим частотный словарь. Тогда можно сло вари всех поступающих документов сравнивать с общим сло варем и на этой основе определять значащие слова, то есть, редко употребляемые, которые часто встречаются в данном случае. После этого машине остается сопоставить эти зна чащие слова с хранящимися в ее памяти сначала в широком классе, а затем в более специализированных классах. Н а пример, установив, что документ касается материалов, про изводим поиск конкретных материалов и т. д.
Нестатистические критерии призваны дополнять стати стические. Часто они избавляют от необходимости производить статистические подсчеты по полному тексту. Например, можно акцентировать внимание на первых и последних предложе ниях текста или на тех предложениях, которым предшеству ют такие слова, как «резюме», «выводы», «итак» и др. Боль шее количество информации, чем обычный текст, содержат заголовки глав, параграфов, подписи под рисунками, схема ми и диаграммами. В качестве индикаторов содержания мо
120
гут быть использованы такие признаки, как выделение час тей текста прописными буквами, курсивом или разрядкой.
Использование чисто машинного способа создания ука зателя находится пока на стадии исследований. Здесь зна чительная доля затрат, как правило, связана с переводом текста на машинный язык. Метод предполагает наличие предварительной классификации или списка предметных рубрик по основным темам фонда. Машинное индексирова ние включает просмотр текста документа и отнесение доку мента на основе словарного состава к определенному клас су разработанной классификации.
Интересными представляются разработки программ ав томатического синтаксического анализа (грамматического разбора предложений), применяемых к текстам для опреде ления структурных зависимостей между словами и сведения полного текста к множеству минимального размера предло жений. Документы при этом выражаются базовыми скелет ными предложениями с нормативными терминами путем ис ключения придаточных предложений, словосочетаний и дру гих подчиненных элементов.
Синтаксическая структура в указанном виде может хра ниться на магнитной ленте в виде «дерева» или абстракт ного графа, в котором каждое слово является узлом «дере за», а синтаксические зависимости представлены его ветвя ми. Подобные машинные программы для реальных текстов уже имеются.
В Питтсбургском университете разработан машинный метод поиска по полным текстам с использованием цифро вых кодов. Каждому идентифицирующему номеру документа устанавливается соответствие серии номеров, обозначающих группы тезауруса. Против каждого номера стоит число, по казывающее, сколько раз это понятие встретилось в доку менте. В таком массиве, который фактически представляет собой сжатый вариант полных текстов документов, можно проводить поиск с требованием пересечения двух и более групп тезауруса. Можно также потребовать минимальной встречаемости определенных групп тезауруса в документе или установить, что две группы должны встречаться в тексте иа определенном расстоянии друг от друга. Расстояние мо жет быть измерено количеством предложений. С использо
121
ванием данного метода потребитель вводит первоначальные запросы на естественном языке в цифровой форме прямо в машину.
Примером полностью автоматизированной поисковой си стемы является разработанная в Гарвардском университете экспериментальная система SMART. Эта система восприни мает документы и запросы в читаемой машинной форме на естественном языке, осуществляет автоматический анализ со держания и классифицирует документы по степени их соот ветствия запросу. Кроме того, система обладает гибкостью, позволяющей ей обрабатывать запросы различными спосо
бами — от простого |
использования • одних |
основ |
слов |
до |
|
сложного построения |
синтаксических |
словосочетаний. |
Си |
||
стема использует итеративный поиск, |
при |
котором |
потреби |
телю разрешается многократно уточнять суть его запроса или переходить к другому варианту поиска с учетом источ ников, полученных в результате предыдущего поиска.
Основным препятствием широкого распространения ав томатизированных поисковых систем остается большая стои мость формы ввода и автоматизация индексирования.
В нашей стране исследования в области создания
автоматизированных |
поисковых систем |
занимаются |
ученые |
Л. И. Михайлов, А. |
И. Чернов и Р. С. |
Гиляровский. |
ИГ1С |
являются одним из направлений быстроразвивающейся в настоящее время науки, называемой информатикой.
§5. Проблема взаимоотношений И ПС с потребителями
Поиск может быть личный и поручаемый.
Личный поиск считается беспорядочным, так как лицо, осуществляющее поиск, обычно не имеет формализованной стратегии поиска до начала его проведения. По своему ха рактеру такой поиск близок к эвристическому. Как правило, он начинается с наиболее вероятного предметного заголовка и расширяется далее в соответствии с системой перекрестных ссылок или структурой используемых вспомогательных средств. При этом множество документов, оцениваемое по требителем вначале как соответствующее его требованиям, может значительно отличаться от тех документов, которые он представлял полезными в начале поиска.
122
Поручаемые поиски также не могут быть признаны упо рядоченными так как лицо, осуществляющее поиск, делает
в |
процессе его различные предположения относительно то |
го, |
какие документы вероятнее всего представляют интерес. |
Поэтому часть документов, которые хотел бы видеть потре битель, не поступит к нему. Зато он получит множество та
ких документов, которые имеют для |
него |
малую |
ценность |
или вообще не нужны. |
|
|
|
Данный вид поиска легко может |
быть |
усовершенство |
|
ван, если в процессе его предлагать |
потребителям некото |
||
рые документы для ознакомления и |
■изменять |
стратегию |
поиска на основе обратной связи, то есть превращать поиск в итеративный процесс.
Появление технических средств и ЭВМ в сфере меха низации и автоматизации ИПС изменяют характер взаимо отношения поисковой системы с потребителями. В указанных условиях личный поиск стал невозможным. Резко изменяется и процесс поручаемого теперь уже машинного поиска.
Для организации такого поиска необходимо вначале под готовить поисковое предписание для нахождения ссылок на документы, имеющие отношение к запросу. В предписании формулируются требования, которым должен удовлетворять документ для включения в класс приемлемых документов. Сам поиск представляет собой сопоставление списка индексационных терминов запроса с поисковыми образами доку ментов, то есть с аналогичными списками их индексационных терминов. Документ поступает потребителю только в том случае, когда уровень соответствия обоих списков пре восходит заранее установленный порог.
Еще одной особенностью предписания при машинном по
иске является то, |
что в нем |
должны быть совершенно четкие |
и детальные формулировки |
информационных нужд потре |
|
бителя. От этого |
в значительной мере зависят результаты |
поиска.
Основные недостатки во взаимоотношении машинных ИПС с потребителями обусловлены тем, что сформулиро ванный в предписании запрос более специфичен, чем дей ствительные информационные потребности, или он сформу лирован в более общем виде, чем того требуют реальные информационные потребности.
123