Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 161

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

п/п

1

2

3

4

5

6

f а б л и ц а 1Ö.3

ІІеречень машинных словарей.

Наименование

 

 

Количество

 

 

элементов

Словарь побуквенных кодов наименований по­

в словаре

11691

нятий

(для „точного“

4000

Основной словарь основ слов

морфологического анализа)

 

 

2047

Дополнительный словарь основ слов (для

приближенного морфологического

анализа)

11691

Словарь наименований понятий

(СНП)

Классификационный словарь

понятий (КСП)

55503

Обращенный классификационный словарь по­

57412

нятий

 

 

 

Основной словарь основ слов (табл. 10.3) был со­ ставлен по неформализованным текстам и включал 4000 наиболее часто встречающихся основ. Дополнительный словарь составлялся по тезаурусу. Он содержал только такие основы слов, которые отсутствовали в основном словаре. Словарь наименований понятий (словарь по­ словных кодов терминов) формировался на основе сло­ варя их побуквенных кодов. Последний использовался также для декодирования результатов поиска в слова­ рях.

Эффективность различных способов автоматического установления смысловых связей между терминами оце­ нивалась при двух вариантах пословного кодирования словосочетаний. По первому варианту слова, основы ко­ торых содержались в основном словаре, были представ­ лены номерами смысловых эквивалентов, а слова из до­ полнительного словаря — номерами основ. По второму варианту все слова были представлены номерами их основ, а словосочетания кодировались только с по­ мощью приближенного морфологического анализа. Основной словарь основ слов отсутствовал, а дополни­ тельный словарь имел объем 3675 элементов.

Были опробованы восемь способов установления смы­ словых связей между терминами: 1) автономный поиск по словарю наименований понятий, построенному на ос­ нове приближенного морфологического анализа; 2) авто­ номный поиск по словарю наименований понятий, по­

188


строенному на основе совместного Использования «foHного» и приближенного морфологического анализа; 3) автономный однократный поиск по классификацион­ ному словарю; 4) автономный циклический поиск по классификационному словарю; 5) однократный совмест­ ный поиск по словарю наименований понятий и класси­ фикационному словарю согласно пп. 1, 3; 6) однократ­ ный совместный поиск по словарю наименований поня­

тий

и классификационному словарю согласно пп. 2, 3;

7)

совместный поиск по словарю наименований понятий

■и классификационному словарю с многократным исполь­ зованием словарей согласно пп. 1, 3; 8) совместный по­ иск по словарю наименований понятий и классификаци­ онному словарю с многократным использованием слова­ рей согласно пп. 2, 3. Все восемь способов применялись как для поиска терминов, эквивалентных и подчиненных заданным, так и для поиска подчиняющих терминов. В качестве исходных данных были взяты 503 термина из тезауруса, выбранные случайным образом, а исследова­ ние различных способов поиска производилось на пол­ ном объеме словарей тезауруса.

Результаты экспериментов еветены в табл. 10.4. По одному входу этой таблицы перечислены различные спо­ собы установления смысловых связей между терминами, по другому входу — наименования количественных пока­ зателей, характеризующих эффективность этих способов. В клетках таблицы указаны числовые значения показа­ телей эффективности (среднее количество релевантных связей, приходящихся на один термин тезауруса, сред­ нее значение коэффициента полноты установления смы­ словых связей между терминами, среднее значение коэф­ фициента «шума» при установлении смысловых связей). Полнота установления смысловых связей между терми­ нами определялась по отношению к наиболее эффектив­ ному в данном эксперименте способу поиска в тезауру­ се— циклическому поиску с использованием процедур «точного» и приближенного морфологического анализа. Коэффициент «шума» определялся как отношение коли­ чества нерелевантных (неправильных) ’связей к общему количеству связей, установленных в процессе автомати­

ческого поиска.

позволяет

установить следующее:

Анализ табл. 10.4

1. Автоматический

поиск по словарю понятий дает

возможность выявить

только

10—14% общего числа

189



Т а б л и ц а 1 0 .4

Сравнительная оценка полноты и точности установления

смысловых

связей

между

терминами

при различных способах

 

 

 

 

поиска по тезаурусу

 

 

 

 

 

 

 

 

 

Характеристики различных видов поиска

 

 

 

 

 

 

Поиск эквивалентных

Поиск подчиняющих

 

 

 

 

 

 

по смыслу и подчи­

 

 

 

 

 

 

ненных понятий

 

понятий

 

 

Вид поиска

 

 

Среднее коли­ чество реле­ вантных связей

Коэффициент полноты, %

Коэффициент „шума“, %

Среднее коли­ чество реле­ вантных связей

Коэффициент полноты, %

Коэффициент „шума“, %

 

 

 

 

 

 

1.

Поиск

в СГІП по номе­

!

10,2

!

0,88

9,4

0,9

1,65

0,24

рам основ слов

 

по номе­

2,22

13,8

0,85

1,21

12,9

1,25

2.

Поиск

в СИП

 

рам

смысловых эквивален­

 

 

 

 

 

 

тов основ слов и номерам

 

 

 

 

 

 

основ слов

 

 

поиск

в

7,06

43,0

0,00

4,18

44,6

0,00

3.

Однократный

КСП

Циклический

 

поиск

в

10,37

64,1

11,6

7,15

75,0

24,1

4.

 

К С П

Совместный

поиск по

0,35

58,1

0,1

5,47

58,1

0,8

5.

СНГ]

и К С П ,

 

согласно

 

 

 

 

 

 

пп. 1 ,3

 

поиск

по

9,80

60,8

0,7

5,95

63,2

0,8

6.

Совместный

СИ П

и

КСП

 

согласно

 

 

 

 

 

 

пп.2, 3

7.Циклический поиск с 15,45 96,5 11,9 8,80 94,0 26,6 многократным использова­ нием СНП и КСП , согласно

пп.1, 3

8.

Циклический

поиск с 16,35

100 12,5

9,40

100 26,1

многократным использова­

 

 

 

нием СН П и КСП

согласно

 

 

 

пп.

2, 3

 

 

 

 

смысловых связей между терминами (см. строки 1, 2 табл. 10.4).

2. Применение для пословного кодирования терминов наряду с номерами основ слов также номеров их смы­ словых эквивалентов приводит к некоторому увеличению полноты установления связей (на 3, 5%).

3. Путем однократного поиска в классификационном словаре можно выявить 44—45% смысловых связей меж­ ду терминами (см. строку 3 табл. 10.4), тогда как при циклическом поиске в этом словаре количество выявлен­

і е


пых связей увеличивается на 20—30% (на 20% при по­ иске эквивалентных по смыслу и подчиненных понятий, па 30% при поиске подчиняющих понятий).

4. Количество смысловых связей, выявленных при раздельном поиске в словаре наименований понятий и в классификационном словаре, меньше количества свя­ зей, выявленных при совместном однократном поиске

вэтих словарях (па 3—6%).

5.Совместный циклический поиск по словарю наи­ менований понятий и классификационному словарю обеспечивает наиболее полное выявление смысловых связей между терминами. По сравнению с совместным однократным поиском в этих словарях он позволяет вы­ явить примерно на 40% связей больше (см. строки 5—8 табл. 10.4).

Циклический поиск в словарях во всех случаях при­ водит к существенному увеличению количества устанав­ ливаемых между терминами смысловых связей. Но при этом увеличивается и уровень поискового шума (до 12% при поиске эквивалентных тіо смыслу и подчиненных терминов и до 24—27% при поиске подчиняющих тер­ минов). Происходит это потому, что наряду с отноше­

ниями строгой эквивалентности и строгого подчинения в классификационном словаре учитываются отношения между терминами, которые не в полной мере являются отношениями эквивалентности и подчинения. При одно­ кратном поиске в словарях такой подход позволяет бо­ лее полно выявлять связи между терминами и, как пра-

Та б л и ц а 10.5

Ра с п ред ел е нас количест ва циклов п р и совмест ном

поиске в С Н П и К С П (поиск экви вал ен т н ы х по іочислу и подчиненны х

терм инов согласно п . 8

та б л . 10.4)

Количество

Часто­

Количество

Часто­

циклов

та

циклов

та

поиска

поиска

1

433

5

4

2

36

6

---3

3

16

12

1

4

10

 

 

 

 

 

Т а б л и ц а

 

10.6

Р а сп р ед ел ен и е количест ва

циклов

п р и

совмест ном

поиске

в С Н П

и

К С П

(поиск

 

 

подчиняющ их

п онят и й

согласно

 

п .

8 т а б л .

10.4)

 

 

 

Количество

Часто­ Количество

Часто­

циклов

 

та

циклов

 

 

та

• поиска

 

поиска

 

 

1

251

 

7

 

 

8

2

 

79

 

8

 

 

5

3

 

70

 

9

 

 

2

4

 

43

 

10

 

4

5

 

18

 

11

 

 

3

6

 

20

 

----

 

 

 

 

 

 

 

 

191