Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 162

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Способы автоматического установления смысловых связей м еж ду понятиями по структуре их наименований

В автоматизированных документальных н фактогра­ фических системах, предназначенных для поиска сведе­ ний по запросам, наряду с точными способами автома­ тического отождествления наименований понятии могут применяться и приближенные. Они просты в реализации, дают сравнительно небольшой уровень поискового «шу­ ма» и обеспечивают большую полноту поиска информа­ ции, чем точные способы.

Можно, например, представлять понятия в памяти машины в виде последовательностей начальных букв пли начальных буквосочетаний слов, входящих в состав их наименований. При этом количество ложных отождест­ влений разных по смыслу наименований понятий будет зависеть от выбранной длины начальных участков слов.

В табл. 10.1 приведены результаты статистического

Т а б л и ц а 10.1

Отождествление наименований понятий по начальным буквам и буквосочетаниям слов, входящих в их состав

Количество слов в словосоче­ тании

1

2

3

4

5

6

Количество словосо­ четаний

122

1006

1054

696

463

250

Количество случаев

ложного

Количество случаев правиль­

отождествления наименований

ного отождествления наиме­

 

 

понятий

 

по сочетаниям ; из 4-х началъ- | ных согласных

 

нований понятий

по сочетаниям ! из 4-х началь­ ных согласных

по начальным буквам слов

по сочетаниям из 2-х букв

по сочетаниям из 3-х букв

по сочетаниям

' из 4-х букв

по начальным ■буквам слов

по сочетаниям из 2-х началь­ ных букв

по сочетаниям из 3-х началь­ ных букв

по сочетаниям из 4-х началь­ ных букв

121

83

55

 

36

14

0

0

0

0

0

882

328

134

 

72

32

6

34

48

71

46

606

154

69

 

38

16

20

46

66

66

50

150

22

13

 

4

0

12

20

20

24

22

37

8

2

 

0

0

10

12

12

12

12

10

0

0

 

0

0

2

2

2

2

2

И т о г о :

3591 1806 595

273

150

62

50

144

148

175

132

обследования 3591 словосочетаний, взятых из рефератов статей по вопросам применения ЭВМ и автоматизации информационных работ. При формировании машинных кодов наименований понятий на первом месте записыва­ лись начальные буквы или буквосочетания главных слов этих наименований, а буквы и буквосочетания остальных

182


слов располагались по алфавиту. Это давало возмож­ ность легко отождествлять различные трансформацион­ ные варианты словосочетаний.

В процессе статистического обследования каждый код списка словосочетаний сравнивался со всеми другими кодами этого списка, а случаи совпадения кодов фикси­ ровались. Если в процессе сравнения совпадали коды одинаковых по смыслу наименований понятий, то его результаты считались правильными, в противном слу­ чае— ложными. Результаты сравнения считались лож­ ными и в тех случаях, когда в группе синонимичных наи­ менований понятий с одинаковыми кодами оказывалось хотя бы одно наименование’ отличающееся по смыслу от анализируемого.

Из табл. 10.1 видно, что с увеличением длины началь­ ных участков слов, включаемых в состав кодов понятий, число случаев ложного отождествления разных по смы­ слу наименований понятий уменьшается, а число случаев правильного отождествления синонимичных понятий увеличивается. При использовании в качестве кодов слов четырех начальных букв доля ложных отождествлений понятий уменьшается до 4,2% от общего числа наимено­ ваний списка. Для сравнения в табл. 10.1 приводятся сведения о количестве случаев правильного и ложного совпадения кодов понятий при условии, что все слова кодируются четырьмя начальными согласными буквами.

Наряду с задачей отождествления одинаковых по смыслу наименований понятий в ЛИС возникает необхо­ димость выборки из словаря всех понятий, подчиненных заданному (всех более узких по объему понятий). Эта задача может быть частично выполнена-путем использо­ вания синтаксической и семантической структуры имен­ ных словосочетаний. Так, понятие В можно считать под­ чиненным понятию А, если совпадают главные слова их наименовании, а словарный состав и дерево фразы, вы­ ражающей понятие А, являются частью словарного со­ става и дерева фразы, выражающей понятие В. Эквива­ лентность двух понятий по смыслу можно считать част­ ным случаем подчинения (понятие В подчинено понятию А, и одновременно понятие А подчинено понятию В).

Указанный критерий установления отношений экви­ валентности и подчинения между понятиями может быть ослаблен, если не требовать обязательного учета схем связей между словами в словосочетаниях, а для опреде­

183


лителей главного слова ограничиться совпадением их на­ чальных букв или семантических эквивалентов (под семантическими эквивалентами здесь, как и ранее, пони­ маются коды, обозначающие классы эквивалентных по смыслу слов). Применение менее строгих критериев дает возможность полнее учесть смысловые связи между по­ нятиями, но при этом увеличивается вероятность уста­ новления ложных связей.

В табл. 10.2 показаны результаты применения раз­ личных способов установления смысловых связей к спи­ ску словосочетаний объемом в 1728 элементов. Данные

Т а б л и ц а 10.2

Сравнение различных способов автоматического установления смысловых связей между наименованиями понятий (связей эквивалентности и подчинения)

 

 

 

 

 

 

Число установленных

 

Способ установления связи

 

 

связей

п/п

По

главному

слову

словосочетания

и

верно

неверно

1

1121

43

 

четырем начальным буквам его опреде­

 

 

 

лителей без учета схемы

связей между

 

 

2

словами

слову

словосочетания

и

1011

20

По

главному

 

 

 

четырем начальным буквам его опреде­

 

 

 

лителей с учетом схемы связей между

 

 

3

словами

слову

словосочетания

и

1100

21

* По

главному

 

 

 

семантическим эквивалентам его опреде­

 

 

 

лителей без учета схемы

связей между

 

 

4

словами

слову

словосочетания

и

1007

 

По

главному

 

 

семантическим

эквивалентам его опреде­

 

 

 

лителей с учетом схемы связей между

981

 

5

словами

слову

словосочетания

и

8

По

главному

 

 

основам его определителей без учета

 

 

6

схемы

связей между словами

'

921

 

По

главному

слову

словосочетания

и

 

 

основам его определителей с учетом схе­

 

 

7

мы связей между словами

 

и

955

7

По

главному

слову

словосочетания

8

словоформам его определителей без уче­

 

 

 

та схемы связей между словами

и

909

 

 

По

главному

слову

словосочетания

 

 

словоформам его определителей с учетом

 

 

 

схемы

связей между словами

 

 

 

184


таблицы подтверждают высказанное выше соображение о характере зависимости между полнотой установления смысловых связей и возможностью появления ложных связей и позволяют обоснованно выбрать тот или иной конкретный способ. Так, например, наибольшая полнота установления смысловых связей между понятиями при полном отсутствии «шумов» достигается способами, ука­ занными в пп. 4, 6 табл. 10.2. 'Неплохие результаты по­ лучаются также, если применять способы, указанные в пп. 3, 5 (те же способы, что и в пп. 4, 6, но без учета схемы связей между словами).

Простейшими в реализации являются способы, упо­ мянутые в пп. 1, 7. Но первый способ дает большое ко­ личество ложных связей между понятиями, а при ис­ пользовании второго способа требуется накладывать ограничения на форму представления наименований по­ нятий (требуется, например, записывать главное слово словосочетания и определяющие его прилагательные в форме именительного падежа единственного числа).

Кроме того, по полноте установления связей второй

спо­

соб уступает всем способам, указанным

в пп.

1—-5

табл. 10.2.

подчинения

Наряду со связями эквивалентности и

в ряде случаев по словесным формулировкам легко вы­ являются ассоциативные отношения между понятиями. Например, ассоциированными можно считать следующие

пары понятий:

«информационный

п о и с к — м е т о д ы

информационного

поиска»,

«производственные п р о ц е с ­

сы— м е т о д и к а

моделирования производственных про­

цессов»,

«информационные

с и с т е м ы — п р о е к т и р о ­

в а н и е

информационных систем»

и т. п. Для установ­

ления подобных связей достаточно, чтобы словарный со­ став словосочетания, стоящего в левой части каждой па­ ры, содержался в словарном составе словосочетания, стоящего справа, а схемы связей между одинаковыми словами в обоих словосочетаниях совпадали. Совпаде­ ния главных слов наименований понятий не требуется. Указанный критерий установления ассоциативных связей можно ослабить, если потребовать только совпадения в наименованиях понятий соответствующих основ слов или смысловых эквивалентов слов без учета схем связей между ними. Как показывает опыт эксплуатации поис­ ковых систем, такой метод установления ассоциативных сеязей дает малый уровень «шумов».

!95


Автоматический тезаурус дескрипторных понятий

Из предыдущего рассмотрения следует, что смысловые связи между понятиями могут устанавливаться различ­ ными способами:

1)с помощью словаря наименовании понятий (по словарному составу и грамматической структуре слово­ сочетаний) ;

2)по классификационным -схемам или таблицам, оформленным в виде классификационного словаря по­ нятий;

3)путем совместного применения способов, указан­

ных в пп. 1,2.

-

При установлении смысловых связей с помощью сло­

варя наименований понятий

пословные коды терминов

сопоставляются и проверяются на вхождение друг в дру­ га. Два термина считаются связанными по смыслу, если совпадают коды их главных слов и все коды слов одного из терминов содержатся среди кодов слов другого тер­ мина. Если количество слов в обоих терминах одинако­ вое, то такие термины считаются эквивалентными по смыслу; если разное, то более узким по смыслу считает­ ся термин, состоящий из большего количества слов.

Классификационный словарь понятий может быть использован для установления смысловых связей между терминами как путем однократного обращения к нему, так и путем организации циклического поиска. В -послед­ нем случае полученные после первого обращения к сло­ варю номера терминов, эквивалентных и подчиненных исходному термину, используются для повторного обра­ щения к нему. Новые номера терминов, полученные при повторном обращении к словарю, снова используются в качестве исходных данных для поиска в нем и т. д. Процесс циклического поиска продолжается до тех пор, пока не перестанут находиться новые номера тер­ минов.

Для поиска терминов эквивалентных и более широ­ ких по смыслу, чем исходные, удобно использовать обра­ щенный классификационный словарь понятий. В таком словаре для каждого номера термина указываются но­ мера подчиняющих (более широких по объему) терми­ нов. Как и «прямой» словарь, обращенный классифика­ ционный словарь можно использовать в режиме одно­ кратного и циклического поиска.

186

Словарь наименований понятий и классификацион­ ный словарь можно совместно использовать в двух ре­ жимах: 1) в режиме однократного обращения к слова­ рям; 2) в режиме циклического поиска. В первом случае сначала производится поиск по словарю наименова­ ний понятий, а его результаты служат исходными дан­ ными для поиска в классификационном словаре. Во вто­ ром случае после однократного обращения к словарям из общего массива результатов поиска выделяются но­ мера терминов, полученные при поиске в классификаци­ онном словаре и отличающиеся от номеров терминов, найденных в словаре наименований понятий. Выделен­ ные номера терминов с помощью словаря наименований понятий заменяют их пословными кодами и обращаются повторно сначала к словарю наименований понятий, за­ тем к классификационному словарю. Далее среди ре­ зультатов поиска по классификационному словарю сно­ ва выделяют такие номера терминов, которые не были найдены на предыдущих этапах. Эти номера заменяются на пословные коды терминов и снова обращаются к сло­ варям и т. д. Процесс циклического поиска продолжает­ ся до тех пор, пока не перестанут находиться новые но­ мера терминов.

Для оценки эффективности различных способов авто­ матического установления смысловых связей между тер­ минами автором совместно с Е. А. Загика и В. А. Чир­ киным был поставлен эксперимент на ЭВМ. Для этого был использован ряд алгоритмов: алгоритм «точного» морфологического анализа, алгоритм приближенного морфологического анализа, алгоритм поиска по словарю наименований понятий, алгоритм поиска по классифика­ ционному словарю понятий, алгоритм циклического поиска в классификационном словаре, алгоритм сов­ местного циклического поиска в словаре наименований понятий и в классификационном словаре, алгоритм де­ кодирования и оформления результатов поиска в слова­ рях и др.

Исследования проводились на основе тезауруса дескрипторных понятий, включавшего в свой состав око­ ло 11 700 терминов. Между терминами тезауруса были зафиксированы родо-видовые отношения и отношения эквивалентности. Тезаурус послужил исходным материа­ лом для формирования ряда машинных словарей. Пере­ чень машинных словарей приведен в табл. 10.3.

187