Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 162
Скачиваний: 3
Способы автоматического установления смысловых связей м еж ду понятиями по структуре их наименований
В автоматизированных документальных н фактогра фических системах, предназначенных для поиска сведе ний по запросам, наряду с точными способами автома тического отождествления наименований понятии могут применяться и приближенные. Они просты в реализации, дают сравнительно небольшой уровень поискового «шу ма» и обеспечивают большую полноту поиска информа ции, чем точные способы.
Можно, например, представлять понятия в памяти машины в виде последовательностей начальных букв пли начальных буквосочетаний слов, входящих в состав их наименований. При этом количество ложных отождест влений разных по смыслу наименований понятий будет зависеть от выбранной длины начальных участков слов.
В табл. 10.1 приведены результаты статистического
Т а б л и ц а 10.1
Отождествление наименований понятий по начальным буквам и буквосочетаниям слов, входящих в их состав
Количество слов в словосоче тании
1
2
3
4
5
6
Количество словосо четаний
122
1006
1054
696
463
250
Количество случаев |
ложного |
Количество случаев правиль |
||||||||
отождествления наименований |
ного отождествления наиме |
|||||||||
|
|
понятий |
|
по сочетаниям ; из 4-х началъ- | ных согласных |
|
нований понятий |
по сочетаниям ! из 4-х началь ных согласных |
|||
по начальным буквам слов |
по сочетаниям из 2-х букв |
по сочетаниям из 3-х букв |
по сочетаниям |
' из 4-х букв |
по начальным ■буквам слов |
по сочетаниям из 2-х началь ных букв |
по сочетаниям из 3-х началь ных букв |
по сочетаниям из 4-х началь ных букв |
||
121 |
83 |
55 |
|
36 |
14 |
0 |
0 |
0 |
0 |
0 |
882 |
328 |
134 |
|
72 |
32 |
6 |
34 |
48 |
71 |
46 |
606 |
154 |
69 |
|
38 |
16 |
20 |
46 |
66 |
66 |
50 |
150 |
22 |
13 |
|
4 |
0 |
12 |
20 |
20 |
24 |
22 |
37 |
8 |
2 |
|
0 |
0 |
10 |
12 |
12 |
12 |
12 |
10 |
0 |
0 |
|
0 |
0 |
2 |
2 |
2 |
2 |
2 |
И т о г о : |
3591 1806 595 |
273 |
150 |
62 |
50 |
144 |
148 |
175 |
132 |
обследования 3591 словосочетаний, взятых из рефератов статей по вопросам применения ЭВМ и автоматизации информационных работ. При формировании машинных кодов наименований понятий на первом месте записыва лись начальные буквы или буквосочетания главных слов этих наименований, а буквы и буквосочетания остальных
182
слов располагались по алфавиту. Это давало возмож ность легко отождествлять различные трансформацион ные варианты словосочетаний.
В процессе статистического обследования каждый код списка словосочетаний сравнивался со всеми другими кодами этого списка, а случаи совпадения кодов фикси ровались. Если в процессе сравнения совпадали коды одинаковых по смыслу наименований понятий, то его результаты считались правильными, в противном слу чае— ложными. Результаты сравнения считались лож ными и в тех случаях, когда в группе синонимичных наи менований понятий с одинаковыми кодами оказывалось хотя бы одно наименование’ отличающееся по смыслу от анализируемого.
Из табл. 10.1 видно, что с увеличением длины началь ных участков слов, включаемых в состав кодов понятий, число случаев ложного отождествления разных по смы слу наименований понятий уменьшается, а число случаев правильного отождествления синонимичных понятий увеличивается. При использовании в качестве кодов слов четырех начальных букв доля ложных отождествлений понятий уменьшается до 4,2% от общего числа наимено ваний списка. Для сравнения в табл. 10.1 приводятся сведения о количестве случаев правильного и ложного совпадения кодов понятий при условии, что все слова кодируются четырьмя начальными согласными буквами.
Наряду с задачей отождествления одинаковых по смыслу наименований понятий в ЛИС возникает необхо димость выборки из словаря всех понятий, подчиненных заданному (всех более узких по объему понятий). Эта задача может быть частично выполнена-путем использо вания синтаксической и семантической структуры имен ных словосочетаний. Так, понятие В можно считать под чиненным понятию А, если совпадают главные слова их наименовании, а словарный состав и дерево фразы, вы ражающей понятие А, являются частью словарного со става и дерева фразы, выражающей понятие В. Эквива лентность двух понятий по смыслу можно считать част ным случаем подчинения (понятие В подчинено понятию А, и одновременно понятие А подчинено понятию В).
Указанный критерий установления отношений экви валентности и подчинения между понятиями может быть ослаблен, если не требовать обязательного учета схем связей между словами в словосочетаниях, а для опреде
183
лителей главного слова ограничиться совпадением их на чальных букв или семантических эквивалентов (под семантическими эквивалентами здесь, как и ранее, пони маются коды, обозначающие классы эквивалентных по смыслу слов). Применение менее строгих критериев дает возможность полнее учесть смысловые связи между по нятиями, но при этом увеличивается вероятность уста новления ложных связей.
В табл. 10.2 показаны результаты применения раз личных способов установления смысловых связей к спи ску словосочетаний объемом в 1728 элементов. Данные
Т а б л и ц а 10.2
Сравнение различных способов автоматического установления смысловых связей между наименованиями понятий (связей эквивалентности и подчинения)
№ |
|
|
|
|
|
|
Число установленных |
|
|
Способ установления связи |
|
|
связей |
||||
п/п |
По |
главному |
слову |
словосочетания |
и |
верно |
неверно |
|
1 |
1121 |
43 |
||||||
|
четырем начальным буквам его опреде |
|
|
|||||
|
лителей без учета схемы |
связей между |
|
|
||||
2 |
словами |
слову |
словосочетания |
и |
1011 |
20 |
||
По |
главному |
|
|
|||||
|
четырем начальным буквам его опреде |
|
|
|||||
|
лителей с учетом схемы связей между |
|
|
|||||
3 |
словами |
слову |
словосочетания |
и |
1100 |
21 |
||
* По |
главному |
|
|
|||||
|
семантическим эквивалентам его опреде |
|
|
|||||
|
лителей без учета схемы |
связей между |
|
|
||||
4 |
словами |
слову |
словосочетания |
и |
1007 |
|
||
По |
главному |
|
||||||
|
семантическим |
эквивалентам его опреде |
|
|
||||
|
лителей с учетом схемы связей между |
981 |
|
|||||
5 |
словами |
слову |
словосочетания |
и |
8 |
|||
По |
главному |
|
||||||
|
основам его определителей без учета |
|
|
|||||
6 |
схемы |
связей между словами |
' |
921 |
|
|||
По |
главному |
слову |
словосочетания |
и |
|
|||
|
основам его определителей с учетом схе |
|
|
|||||
7 |
мы связей между словами |
|
и |
955 |
7 |
|||
По |
главному |
слову |
словосочетания |
|||||
8 |
словоформам его определителей без уче |
|
|
|||||
|
та схемы связей между словами |
и |
909 |
|
||||
|
По |
главному |
слову |
словосочетания |
|
|||
|
словоформам его определителей с учетом |
|
|
|||||
|
схемы |
связей между словами |
|
|
|
184
таблицы подтверждают высказанное выше соображение о характере зависимости между полнотой установления смысловых связей и возможностью появления ложных связей и позволяют обоснованно выбрать тот или иной конкретный способ. Так, например, наибольшая полнота установления смысловых связей между понятиями при полном отсутствии «шумов» достигается способами, ука занными в пп. 4, 6 табл. 10.2. 'Неплохие результаты по лучаются также, если применять способы, указанные в пп. 3, 5 (те же способы, что и в пп. 4, 6, но без учета схемы связей между словами).
Простейшими в реализации являются способы, упо мянутые в пп. 1, 7. Но первый способ дает большое ко личество ложных связей между понятиями, а при ис пользовании второго способа требуется накладывать ограничения на форму представления наименований по нятий (требуется, например, записывать главное слово словосочетания и определяющие его прилагательные в форме именительного падежа единственного числа).
Кроме того, по полноте установления связей второй |
спо |
|
соб уступает всем способам, указанным |
в пп. |
1—-5 |
табл. 10.2. |
подчинения |
|
Наряду со связями эквивалентности и |
в ряде случаев по словесным формулировкам легко вы являются ассоциативные отношения между понятиями. Например, ассоциированными можно считать следующие
пары понятий: |
«информационный |
п о и с к — м е т о д ы |
||
информационного |
поиска», |
«производственные п р о ц е с |
||
сы— м е т о д и к а |
моделирования производственных про |
|||
цессов», |
«информационные |
с и с т е м ы — п р о е к т и р о |
||
в а н и е |
информационных систем» |
и т. п. Для установ |
ления подобных связей достаточно, чтобы словарный со став словосочетания, стоящего в левой части каждой па ры, содержался в словарном составе словосочетания, стоящего справа, а схемы связей между одинаковыми словами в обоих словосочетаниях совпадали. Совпаде ния главных слов наименований понятий не требуется. Указанный критерий установления ассоциативных связей можно ослабить, если потребовать только совпадения в наименованиях понятий соответствующих основ слов или смысловых эквивалентов слов без учета схем связей между ними. Как показывает опыт эксплуатации поис ковых систем, такой метод установления ассоциативных сеязей дает малый уровень «шумов».
!95
Автоматический тезаурус дескрипторных понятий
Из предыдущего рассмотрения следует, что смысловые связи между понятиями могут устанавливаться различ ными способами:
1)с помощью словаря наименовании понятий (по словарному составу и грамматической структуре слово сочетаний) ;
2)по классификационным -схемам или таблицам, оформленным в виде классификационного словаря по нятий;
3)путем совместного применения способов, указан
ных в пп. 1,2. |
- |
При установлении смысловых связей с помощью сло |
|
варя наименований понятий |
пословные коды терминов |
сопоставляются и проверяются на вхождение друг в дру га. Два термина считаются связанными по смыслу, если совпадают коды их главных слов и все коды слов одного из терминов содержатся среди кодов слов другого тер мина. Если количество слов в обоих терминах одинако вое, то такие термины считаются эквивалентными по смыслу; если разное, то более узким по смыслу считает ся термин, состоящий из большего количества слов.
Классификационный словарь понятий может быть использован для установления смысловых связей между терминами как путем однократного обращения к нему, так и путем организации циклического поиска. В -послед нем случае полученные после первого обращения к сло варю номера терминов, эквивалентных и подчиненных исходному термину, используются для повторного обра щения к нему. Новые номера терминов, полученные при повторном обращении к словарю, снова используются в качестве исходных данных для поиска в нем и т. д. Процесс циклического поиска продолжается до тех пор, пока не перестанут находиться новые номера тер минов.
Для поиска терминов эквивалентных и более широ ких по смыслу, чем исходные, удобно использовать обра щенный классификационный словарь понятий. В таком словаре для каждого номера термина указываются но мера подчиняющих (более широких по объему) терми нов. Как и «прямой» словарь, обращенный классифика ционный словарь можно использовать в режиме одно кратного и циклического поиска.
186
Словарь наименований понятий и классификацион ный словарь можно совместно использовать в двух ре жимах: 1) в режиме однократного обращения к слова рям; 2) в режиме циклического поиска. В первом случае сначала производится поиск по словарю наименова ний понятий, а его результаты служат исходными дан ными для поиска в классификационном словаре. Во вто ром случае после однократного обращения к словарям из общего массива результатов поиска выделяются но мера терминов, полученные при поиске в классификаци онном словаре и отличающиеся от номеров терминов, найденных в словаре наименований понятий. Выделен ные номера терминов с помощью словаря наименований понятий заменяют их пословными кодами и обращаются повторно сначала к словарю наименований понятий, за тем к классификационному словарю. Далее среди ре зультатов поиска по классификационному словарю сно ва выделяют такие номера терминов, которые не были найдены на предыдущих этапах. Эти номера заменяются на пословные коды терминов и снова обращаются к сло варям и т. д. Процесс циклического поиска продолжает ся до тех пор, пока не перестанут находиться новые но мера терминов.
Для оценки эффективности различных способов авто матического установления смысловых связей между тер минами автором совместно с Е. А. Загика и В. А. Чир киным был поставлен эксперимент на ЭВМ. Для этого был использован ряд алгоритмов: алгоритм «точного» морфологического анализа, алгоритм приближенного морфологического анализа, алгоритм поиска по словарю наименований понятий, алгоритм поиска по классифика ционному словарю понятий, алгоритм циклического поиска в классификационном словаре, алгоритм сов местного циклического поиска в словаре наименований понятий и в классификационном словаре, алгоритм де кодирования и оформления результатов поиска в слова рях и др.
Исследования проводились на основе тезауруса дескрипторных понятий, включавшего в свой состав око ло 11 700 терминов. Между терминами тезауруса были зафиксированы родо-видовые отношения и отношения эквивалентности. Тезаурус послужил исходным материа лом для формирования ряда машинных словарей. Пере чень машинных словарей приведен в табл. 10.3.
187