Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 140
Скачиваний: 3
о документах. Объектом индексирования может служить текст документа или текст его реферата. В некоторых случаях в качестве исходного материала для индекси рования берутся заглавия документов (если они доста точно информативны). При индексировании первичных документов приходится одновременно решать две зада чи: 1) выделение основного содержания документов (об общение информации); 2) перевод содержания докумен тов на язык индексов.
Автоматизация решения этих задач связана с боль шими трудностями как принципиального, так и техниче ского порядка. К числу первых относится трудность мо делирования процессов понимания смысла. К числу вторых — отсутствие читающих автоматов, способных воспринимать различные типографские и машинописные шрифты, а также относительно высокая стоимость пер форационных работ. Высокая стоимость перфорацион ных работ можетявиться причиной малой эффективно сти автоматизированных документальных систем, опери рующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов и тек стов рефератов, а запись, хранение, поиск и воспроизве дение полных текстов документов производить с по мощью средств микрофотографии. Индексировать доку менты целесообразно по текстам их рефератов или по заглавиям.
Вопросам автоматического индексирования докумен тов посвящен ряд исследований в нашей стране и за ру бежом (см., например, работы [29, 65, 119]). В большин стве из них речь идет об автоматическом переводе со держания документов на дескрипторные языки, причем в качестве дескрипторов используются преимущественно однословные термины. Процесс индексирования здесь сводится к замене буквенных кодов информативных слов текста на их машинные индексы. Информативные слова выделяются из текста либо с помощью заранее состав ляемого словаря, либо статистическими методами. Груп пы близких по смыслу слов объединяются в классы экви валентности, и словам, принадлежащим к одному клас су, назначаются одинаковые индексы. При этом возни
кает необходимость распознавания различных |
форм |
слов и разрешения их омонимии. Последняя задача |
ока |
2 5 4
зывается более трудной. Она выполняется путем анализа контекстного окружения омонимичных слов.
Системы автоматического индексирования докумен тов, ориентированные на использование преимуществен но однословных терминов, проще в реализации, чем си стемы, .в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по про белам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обес печивают большую полноту'" поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтаг матических связей внутри словосочетаний. Хроме того. в системах второго типа в 2—3 раза сокращается объем
массива поисковых образов документов по |
сравнению |
с объемом этого массива в системах первого |
типа (см. |
гл. 16). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов.
Автоматическое индексирование формализованных описаний документов
Формализованное описание документа составляется в виде перечня информативных словосочетаний и слов, встречающихся в тексте реферата этого документа. Элементы перечня отделяются друг от друга запятыми, а описанию в целом присваивается порядковый номер документа. Далее описание документа переносится на перфоноситель, вводится в ЭВМ и переводится на язык машинных индексов. Перевод выполняется с помощью автоматического тезауруса дескрипторных понятий. В ка честве машинных индексов используются номера наиме нований понятий по словарю.
Различают с в о б о д н о е и н д е к с и р о в а н и е фор мализованных описаний документов и и н д е к с и р о в а ние с к о н т р о л е м по т е з а у р у с у . В первом слу чае никаких ограничений на ввод в систему новых де скрипторных понятий не накладывается и тезаурус по-
255
полняется по мере необходимости. Во втором случае состав тезауруса фиксируется, а словосочетания и слова, встречающиеся в формализованных описаниях докумен тов, заменяются на номера эквивалентных или близких им по смыслу дескрипторных понятий. Первый вариант организации процесса индексирования описан в гл. 13. Поэтому здесь мы рассмотрим второй вариант.
Для автоматического индексирования с контролем по тезаурусу необходимо иметь систему іиз трех словарей: 1) словарь основ слов; 2) словарь наименований поня тий; 3) словарь родо-видовых связей слов. Словарь основ слов представляется в побуквенном коде и каждой основе ставится в соответствие номер ее смыслового эквивалента. В словаре наименований понятий большая часть понятий выражена именными словосочетаниями и значительно меньшая — отдельными словами. В качестве однословных терминов используются наиболее информа тивные слова из числа представленных в словаре основ. Словосочетания и однословные термины кодируются но мерами смысловых эквивалентов слов. Каждому наиме нованию понятия ставится в соответствие его номер.
В словаре родо-видовых связей слов фиксируются смысловые связи между словами, включенными в сло варь основ. Для каждого слова указывается (если это возможно) перечень слов, выражающих более широкие понятия. .Слова кодируются номерами смысловых экви валентов их основ.
Процесс индексирования формализованных описаний документов состоит в замене словосочетаний и слов, вхо дящих в их состав, на номера понятий из тезауруса. Слова и словосочетания заменяются на эквивалентные им по смыслу понятия, на понятия более широкие по объему и на понятия, ассоциированные с исходными. До пускается также разложение исходных словосочетаний на более короткие словосочетания и на отдельные слова.
Исходные понятия могут быть заменены на понятия тезауруса путем поиска всех вхождений словарных наи менований понятий в наименования понятий из форма лизованных описаний документов. Наименование поня тия А считается входящим в наименование понятия В, если все смысловые эквиваленты слов, выражающих по нятие А, содержатся среди смысловых эквивалентов слов, выражающих понятие В, а схемы связей между соответствующими словами в обоих наименованиях по-
256
нятнй совпадают. В результате будут найдены понятия, эквивалентные по смыслу исходным, более широкие по объему и ассоциированные с исходными. В первом и вто ром случае требуется, чтобы совпадали смысловые экви валенты главных слов сопоставляемых наименовании понятий.
Присутствие в поисковых образах документов наряду с понятиями, эквивалентными исходным, также более широких по объему понятий не оказывает отрицательно го влияния на результаты поиска информации, но и не является необходимым. Дело в том, что поиск сведений по более широким понятиям обеспечивается системой установления смысловых связей в тезаурусе. Поэтому такие понятия желательно исключить из состава поиско вых образов.
Идеальным случаем замены исходных понятий на по нятия тезауруса является эквивалентная замена. Если она невозможна, то необходимо стремиться к замене исходных понятий на наиболее конкретные из числа ро довых или ассоциированных понятий. При замене исход ных понятий на более широкие по объему, информация
обобщается, что нежелательно, так |
как |
это приводит |
к потерям документов при поиске. |
|
|
Полнота установления смысловых связей между по |
||
нятиями при индексировании может |
быть |
существенно |
увеличена, если наряду со словарем'основ слов я слова рем наименований понятий использовать словарь родо видовых связей слов. При этом понятие А тезауруса мо
жет |
быть использовано для |
замены исходного понятия |
В, |
если для каждого слова |
наименования понятия А |
в наименовании понятия В находится либо эквивалент ное ему по смыслу слово, либо слово, выражающее более узкое по объему понятие. В обоих наименованиях поня тий схемы связей соответствующих слов должны совпа дать.
Таким образом, процесс индексирования может быть расчленен на следующие основные этапы: 1) морфоло гический анализ формализованных описаний документов; 2) синтаксический анализ исходных словосочетаний; 3) поиск в тезаурусе наименований понятий, связанных по смыслу с исходными (эквивалентных исходным, родеъ вых я ассоциированных); 4) отбор из числа найденных наименований понятий наиболее узких по смыслу и за мена последних на их словарные номера. ....................■■
17— 3 1 0 |
2 5 7 |
Для выявления среди найденных понятий наиболее узких по смыслу может быть использован тезаурус. Но можно для этой цели применить и более простую про цедуру. Например, заменять каждое исходное наимено вание понятия только такими наименованиями понятий из тезауруса, которые содержат максимальное количе ство слов (словосочетания, имеющие большую длину, выражают, как правило, более узкие по объему понятия). Эксперименты показывают, что при замене исходных по нятий на эквивалентные им по смыслу и родовые поня тия можно добиться сокращения количества заменяю щих понятий в 2,5 раза.
При формировании поисковых образов документов важно не только сократить количество широких по объ ему понятий, но и обеспечить полный охват смыслового содержания исходных словосочетаний. Это требование можно конкретизировать как требование отражения смыслового содержания всех или большей части слов, входящих в состав исходных словосочетаний. Оно может быть выполнено, если трансформировать порядок отбора словосочетаний при индексировании следующим обра зом:
1)для каждого слова исходного словосочетания строится перечень наименований понятий тезауруса, являющихся вхождениями в это словосочетание и вклю чающих рассматриваемое слово или любое другое слово, выражающее более широкое по объему понятие;
2)в каждом перечне оставляются только словосоче тания максимальной длины, остальные исключаются;
3)перечни словосочетаний объединяются в один об щий перечень с исключением повторений одинаковых эле ментов.
Процедуру автоматического индексирования можно существенно упростить, если отказаться от синтаксиче ского анализа словосочетаний и производить поиск в те заурусе без учета функциональной роли и порядка сле дования слов. Это приведет к некоторому увеличению шумов при поиске, но одновременно увеличит и полноту
установления смысловых связей между понятиями. По следнее обстоятельство объясняется тем, что при транс формациях некоторых словосочетаний происходит изме нение схем синтаксических связей между словами (на пример, у таких словосочетаний, как «документальные поисковые системы» и «системы поиска документов»).
2 5 8
В случае применения упрощенной процедуры индексиро вания подобные изменения не будут отрицательно влиять на полноту установления связей между поня тиями.
Поиск документов по текстам рефератов
Документы можно искать по текстам их рефератов. При этом запросы следует формулировать в виде имен ных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо димо, чтобы в .тексте реферата встретились все перечис ленные в запросе словосочетания. При смешанной логи ческой связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций (в конъюнктивной нор мальной форме), требуется, чтобы в тексте реферата; встретилось хотя бы по одному словосочетанию из каж дой дизъюнкции. Таким образом, основной операцией, при установлении смысловых связей между запросами и документами здесь является поиск вхождений словосо четаний запросов в тексты рефератов документов.
Будем считать, что словосочетание А входит в текст реферата, если все слова этого словосочетания встреча ются среди слов одного из предложений реферата и схе мы синтаксических связей слов в словосочетании и в предложении совпадают. При этом не требуется, чтобы порядок следования слов совпадал. Учитывая возмож ность трансформаций словосочетаний с изменением схем связей между словами, целесообразно требовать не пол ного совпадения схем связей, а только частичного, т. е. считать словосочетание входящим в состав предложе ния, если все его слова содержатся среди слов предло жения и слова, подчиненные главному слову в именном словосочетании (непосредственно или через другие сло ва), подчинены этому слову и в предложении. Подчинен ность слов устанавливается с помощью дерева зависи мостей.
Для поиска вхождений словосочетаний в состав тек-
17* |
2 5 9 |