Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 140

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

о документах. Объектом индексирования может служить текст документа или текст его реферата. В некоторых случаях в качестве исходного материала для индекси­ рования берутся заглавия документов (если они доста­ точно информативны). При индексировании первичных документов приходится одновременно решать две зада­ чи: 1) выделение основного содержания документов (об­ общение информации); 2) перевод содержания докумен­ тов на язык индексов.

Автоматизация решения этих задач связана с боль­ шими трудностями как принципиального, так и техниче­ ского порядка. К числу первых относится трудность мо­ делирования процессов понимания смысла. К числу вторых — отсутствие читающих автоматов, способных воспринимать различные типографские и машинописные шрифты, а также относительно высокая стоимость пер­ форационных работ. Высокая стоимость перфорацион­ ных работ можетявиться причиной малой эффективно­ сти автоматизированных документальных систем, опери­ рующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов и тек­ стов рефератов, а запись, хранение, поиск и воспроизве­ дение полных текстов документов производить с по­ мощью средств микрофотографии. Индексировать доку­ менты целесообразно по текстам их рефератов или по заглавиям.

Вопросам автоматического индексирования докумен­ тов посвящен ряд исследований в нашей стране и за ру­ бежом (см., например, работы [29, 65, 119]). В большин­ стве из них речь идет об автоматическом переводе со­ держания документов на дескрипторные языки, причем в качестве дескрипторов используются преимущественно однословные термины. Процесс индексирования здесь сводится к замене буквенных кодов информативных слов текста на их машинные индексы. Информативные слова выделяются из текста либо с помощью заранее состав­ ляемого словаря, либо статистическими методами. Груп­ пы близких по смыслу слов объединяются в классы экви­ валентности, и словам, принадлежащим к одному клас­ су, назначаются одинаковые индексы. При этом возни­

кает необходимость распознавания различных

форм

слов и разрешения их омонимии. Последняя задача

ока­

2 5 4


зывается более трудной. Она выполняется путем анализа контекстного окружения омонимичных слов.

Системы автоматического индексирования докумен­ тов, ориентированные на использование преимуществен­ но однословных терминов, проще в реализации, чем си­ стемы, .в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по про­ белам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обес­ печивают большую полноту'" поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтаг­ матических связей внутри словосочетаний. Хроме того. в системах второго типа в 2—3 раза сокращается объем

массива поисковых образов документов по

сравнению

с объемом этого массива в системах первого

типа (см.

гл. 16). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов.

Автоматическое индексирование формализованных описаний документов

Формализованное описание документа составляется в виде перечня информативных словосочетаний и слов, встречающихся в тексте реферата этого документа. Элементы перечня отделяются друг от друга запятыми, а описанию в целом присваивается порядковый номер документа. Далее описание документа переносится на перфоноситель, вводится в ЭВМ и переводится на язык машинных индексов. Перевод выполняется с помощью автоматического тезауруса дескрипторных понятий. В ка­ честве машинных индексов используются номера наиме­ нований понятий по словарю.

Различают с в о б о д н о е и н д е к с и р о в а н и е фор­ мализованных описаний документов и и н д е к с и р о в а ­ ние с к о н т р о л е м по т е з а у р у с у . В первом слу­ чае никаких ограничений на ввод в систему новых де­ скрипторных понятий не накладывается и тезаурус по-

255

полняется по мере необходимости. Во втором случае состав тезауруса фиксируется, а словосочетания и слова, встречающиеся в формализованных описаниях докумен­ тов, заменяются на номера эквивалентных или близких им по смыслу дескрипторных понятий. Первый вариант организации процесса индексирования описан в гл. 13. Поэтому здесь мы рассмотрим второй вариант.

Для автоматического индексирования с контролем по тезаурусу необходимо иметь систему іиз трех словарей: 1) словарь основ слов; 2) словарь наименований поня­ тий; 3) словарь родо-видовых связей слов. Словарь основ слов представляется в побуквенном коде и каждой основе ставится в соответствие номер ее смыслового эквивалента. В словаре наименований понятий большая часть понятий выражена именными словосочетаниями и значительно меньшая — отдельными словами. В качестве однословных терминов используются наиболее информа­ тивные слова из числа представленных в словаре основ. Словосочетания и однословные термины кодируются но­ мерами смысловых эквивалентов слов. Каждому наиме­ нованию понятия ставится в соответствие его номер.

В словаре родо-видовых связей слов фиксируются смысловые связи между словами, включенными в сло­ варь основ. Для каждого слова указывается (если это возможно) перечень слов, выражающих более широкие понятия. .Слова кодируются номерами смысловых экви­ валентов их основ.

Процесс индексирования формализованных описаний документов состоит в замене словосочетаний и слов, вхо­ дящих в их состав, на номера понятий из тезауруса. Слова и словосочетания заменяются на эквивалентные им по смыслу понятия, на понятия более широкие по объему и на понятия, ассоциированные с исходными. До­ пускается также разложение исходных словосочетаний на более короткие словосочетания и на отдельные слова.

Исходные понятия могут быть заменены на понятия тезауруса путем поиска всех вхождений словарных наи­ менований понятий в наименования понятий из форма­ лизованных описаний документов. Наименование поня­ тия А считается входящим в наименование понятия В, если все смысловые эквиваленты слов, выражающих по­ нятие А, содержатся среди смысловых эквивалентов слов, выражающих понятие В, а схемы связей между соответствующими словами в обоих наименованиях по-

256


нятнй совпадают. В результате будут найдены понятия, эквивалентные по смыслу исходным, более широкие по объему и ассоциированные с исходными. В первом и вто­ ром случае требуется, чтобы совпадали смысловые экви­ валенты главных слов сопоставляемых наименовании понятий.

Присутствие в поисковых образах документов наряду с понятиями, эквивалентными исходным, также более широких по объему понятий не оказывает отрицательно­ го влияния на результаты поиска информации, но и не является необходимым. Дело в том, что поиск сведений по более широким понятиям обеспечивается системой установления смысловых связей в тезаурусе. Поэтому такие понятия желательно исключить из состава поиско­ вых образов.

Идеальным случаем замены исходных понятий на по­ нятия тезауруса является эквивалентная замена. Если она невозможна, то необходимо стремиться к замене исходных понятий на наиболее конкретные из числа ро­ довых или ассоциированных понятий. При замене исход­ ных понятий на более широкие по объему, информация

обобщается, что нежелательно, так

как

это приводит

к потерям документов при поиске.

 

 

Полнота установления смысловых связей между по­

нятиями при индексировании может

быть

существенно

увеличена, если наряду со словарем'основ слов я слова­ рем наименований понятий использовать словарь родо­ видовых связей слов. При этом понятие А тезауруса мо­

жет

быть использовано для

замены исходного понятия

В,

если для каждого слова

наименования понятия А

в наименовании понятия В находится либо эквивалент­ ное ему по смыслу слово, либо слово, выражающее более узкое по объему понятие. В обоих наименованиях поня­ тий схемы связей соответствующих слов должны совпа­ дать.

Таким образом, процесс индексирования может быть расчленен на следующие основные этапы: 1) морфоло­ гический анализ формализованных описаний документов; 2) синтаксический анализ исходных словосочетаний; 3) поиск в тезаурусе наименований понятий, связанных по смыслу с исходными (эквивалентных исходным, родеъ вых я ассоциированных); 4) отбор из числа найденных наименований понятий наиболее узких по смыслу и за­ мена последних на их словарные номера. ....................■■

17— 3 1 0

2 5 7


Для выявления среди найденных понятий наиболее узких по смыслу может быть использован тезаурус. Но можно для этой цели применить и более простую про­ цедуру. Например, заменять каждое исходное наимено­ вание понятия только такими наименованиями понятий из тезауруса, которые содержат максимальное количе­ ство слов (словосочетания, имеющие большую длину, выражают, как правило, более узкие по объему понятия). Эксперименты показывают, что при замене исходных по­ нятий на эквивалентные им по смыслу и родовые поня­ тия можно добиться сокращения количества заменяю­ щих понятий в 2,5 раза.

При формировании поисковых образов документов важно не только сократить количество широких по объ­ ему понятий, но и обеспечить полный охват смыслового содержания исходных словосочетаний. Это требование можно конкретизировать как требование отражения смыслового содержания всех или большей части слов, входящих в состав исходных словосочетаний. Оно может быть выполнено, если трансформировать порядок отбора словосочетаний при индексировании следующим обра­ зом:

1)для каждого слова исходного словосочетания строится перечень наименований понятий тезауруса, являющихся вхождениями в это словосочетание и вклю­ чающих рассматриваемое слово или любое другое слово, выражающее более широкое по объему понятие;

2)в каждом перечне оставляются только словосоче­ тания максимальной длины, остальные исключаются;

3)перечни словосочетаний объединяются в один об­ щий перечень с исключением повторений одинаковых эле­ ментов.

Процедуру автоматического индексирования можно существенно упростить, если отказаться от синтаксиче­ ского анализа словосочетаний и производить поиск в те­ заурусе без учета функциональной роли и порядка сле­ дования слов. Это приведет к некоторому увеличению шумов при поиске, но одновременно увеличит и полноту

установления смысловых связей между понятиями. По­ следнее обстоятельство объясняется тем, что при транс­ формациях некоторых словосочетаний происходит изме­ нение схем синтаксических связей между словами (на­ пример, у таких словосочетаний, как «документальные поисковые системы» и «системы поиска документов»).

2 5 8

В случае применения упрощенной процедуры индексиро­ вания подобные изменения не будут отрицательно влиять на полноту установления связей между поня­ тиями.

Поиск документов по текстам рефератов

Документы можно искать по текстам их рефератов. При этом запросы следует формулировать в виде имен­ ных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо­ димо, чтобы в .тексте реферата встретились все перечис­ ленные в запросе словосочетания. При смешанной логи­ ческой связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций (в конъюнктивной нор­ мальной форме), требуется, чтобы в тексте реферата; встретилось хотя бы по одному словосочетанию из каж­ дой дизъюнкции. Таким образом, основной операцией, при установлении смысловых связей между запросами и документами здесь является поиск вхождений словосо­ четаний запросов в тексты рефератов документов.

Будем считать, что словосочетание А входит в текст реферата, если все слова этого словосочетания встреча­ ются среди слов одного из предложений реферата и схе­ мы синтаксических связей слов в словосочетании и в предложении совпадают. При этом не требуется, чтобы порядок следования слов совпадал. Учитывая возмож­ ность трансформаций словосочетаний с изменением схем связей между словами, целесообразно требовать не пол­ ного совпадения схем связей, а только частичного, т. е. считать словосочетание входящим в состав предложе­ ния, если все его слова содержатся среди слов предло­ жения и слова, подчиненные главному слову в именном словосочетании (непосредственно или через другие сло­ ва), подчинены этому слову и в предложении. Подчинен­ ность слов устанавливается с помощью дерева зависи­ мостей.

Для поиска вхождений словосочетаний в состав тек-

17*

2 5 9