Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 159

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

Т а б л и ц а

10.7

Зависим ост ь

коэф ф ициент а полнот ы и

„ш ум а“ от

ном ера

цикла

поиска (поиск в классиф икационном

сл овар е понят ий)

 

Номер

Поиск эквивалентных по смыслу

Поиск подчиняющих понятий

и подчиненных понятий

 

 

 

цикла

 

 

 

 

 

поиска

Коэффициент

Коэффициент

Коэффициент

* Коэффициент

 

полноты, %

„шума*, %

полноты, %

„шума", %

1

43,6

0,00

44,6

0,00

2

55,0

7,5

68,3

8,2

3

60,0

8,2

72,8

17,7

4

63,7

10,3

74,2

20,8

5

64,0

10,9

74,6

22,3

6

64,1

11,4

74,8

23,3

7

64,1

11,6

75,0

23,5

8

75,0

23,7

9

75,0

23,9

10

75,0

24,0

11

75,0

24,1

12

 

75,0

24,1

вило, не приводит к установлению ложных связей. При циклическом поиске неточности в связях между терми­ нами накапливаются и уровень «шумов» возрастает.

Как показали эксперименты,

циклический поиск

в словарях — быстро сходящийся

процесс. В среднем

поиск подчиненных и эквивалентных по смыслу терми­

нов заканчивается за

1,3 цикла, поиск подчиняющих тер­

минов заканчивается

за 2,2 н-2,4 цикла (за 2,2 цикла

при поиске в КОП и за 2,4 цикла при совместном поиске в СНП и КСП), а максимальное число циклов поиска не превосходит 12. В табл. 10.5 и 10.6 приведено рас­ пределение числа циклов при совместном поиске в СНП и КСП, а в таблицах 10.7 и 10.8 указаны .значения ко­ эффициентов полноты поиска и «шума» в зависимости от номера цикла.

Полнота установления смысловых связей при поиске в словаре наименований понятий может быть сущест­ венно увеличена, если наряду с отношениями эквива­ лентности слов использовать родо-видовые отношения между ними. Если, например, известно, что понятия «сортировка» и «кодирование» являются видовыми по отношению к родовому понятию «обработка», а понятие «сообщение» — видовым по отношению к понятию «ин-

192


 

 

 

 

 

Т а б л и ц а

10.8

Зависим ост ь

коэф ф ициент а полнот ы и

„ш ум а“

от

ном ера

цикла

поиска

(совместный,

поиск в

С Н П

и К С П

согласно п .

8

 

 

т а б л .

10.4)

 

 

 

 

Поиск эквивалентных по смыслу

Поиск подчиняющих понятий

Номер

и подчиненных понятий

 

 

 

 

 

цикла

Коэффициент

Коэффициент

Коэффициент

Коэффициент

поиска

 

полноты, %

„піума“, %

полноты, %

*піума“, %

г

00,8

0,7

63,2

0,8

2

76,9

6,4

91,5

10,6

3

82,8

11,3

97.0

19,5

4

91,0

12,8

99,4

23,0

5

93,0

13,3

99,5

24,4

6

94,6

13,3

99,6

25,3

7

96,7

13,0

99,7

25,5

8

97, 1

12,8

100

25,8

9

98,9

12,8

100

25,9

10

99,4

12,5

100

26,0

11

99,9

12,5

100

26,1

12

100

12,5

 

формация», то, заменяя в словосочетании «обработка информации» исходные слова на слова, выражающие соответствующие видовые понятия, получим ряд новых более узких по смыслу словосочетаний: сортировка ин­ формации; кодирование информации; обработка сооб­

щений;

сортировка сообщений; кодирование сооб­

щений.

Автоматическое установление смысловых связей меж­ ду наименованиями понятий здесь можно реализовать следующим образом. Исходное словосочетание сначала кодируется пословно и для каждого слова по таблице родо-видовых отношений выбираются номера смысловых эквивалентов «подчиненных» ему слов, затем произво­ дится поиск по словарю наименований понятий. В про­ цессе поиска отбираются номера словосочетаний, экви­ валентных по смыслу исходному или подчиненных ему. При этом требуется выполнение двух условий:

1) каждое слово исходного словосочетания должно быть представлено в коде анализируемого словарного словосочетания либо номером своего смыслового экви­ валента, либо номером смыслового эквивалента подчи­ ненного ему слова;

13— 3 1 0

193


2) номер смыслового эквивалента главного слова анализируемого словарного словосочетания должен сов­ падать с номером смыслового эквивалента главного слова исходного словосочетания или с номером смысло­ вого эквивалента одного из подчиненных ему слов.

Поиск п о словарю наименований понятий и в этом случае целесообразно применять в комплексе с поиском по классификационному словарю. Сначала производится поиск по первому словарю, затем по второму. Новые номера понятий, найденные при поиске по классифика­ ционному словарю, заменяются на пословные «оды сло­ восочетаний, и эти коды используются для повторного поиска по словарю наименований понятий. Далее про­ цесс поиска по обоим словарям повторяется до тех пор, пока не перестанут находиться номера новых понятий или пока не будет выполнено заданное число повторе­ ний. В заключение результаты, полученные на всех эта­ пах, объединяются.

Поиск наименований понятий, более широких по объ­ ему, чем исходные словосочетания, производится анало­ гичным образом, но перед обращением к словарю наи­ менований понятий для каждого слова исходного слово­ сочетания по таблице родо-видовых отношений выбира­ ется перечень номеров смысловых эквивалентов подчи­ няющих слов.

Эксперименты, проведенные автором совместно с Е. А. Зигика и В. А. Чиркиным, показали, что поиск по словарю наименований понятий с использованием смысловых связей слов в три раза эффективнее, чем поиск без использования этих связей. Уровень шумов при поиске понятий, эквивалентных по смыслу и подчи­ ненных исходным, в среднем составляет 2%, а при поиске подчиняющих понятий— 10%. Совместный циклический поиск по словарю наименований понятий п классифика­ ционному словарю с использованием смысловых связей слов позволяет выявить больше связей между словосо­ четаниями, чем применение аналогичных процедур без

использования связей слов. При этом

эквивалентных

по смыслу

и подчиненных

понятий находится

на 17%

больше, а

подчиняющих

понятий — на

12%

больше.

Уровень шумов при поиске эквивалентных по смыслу и подчиненных понятий возрастает до 20%, при поиске подчиняющих понятий — до 46%.

Процедуры циклического поиска в тезаурусе целесо-

194


образно применять прежде всего для улучшения каче­ ства классификационного словаря понятий. При этом результаты работы машины должны корректироваться человеком. В документальных поисковых системах иног­ да допустимо использование этих процедур и без конт­ роля со стороны человека-.

Г л а в а 11

АВТОМАТИЗАЦИЯ РАБОТ

ПО СОСТАВЛЕНИЮ СЛОВАРЕЙ

При работе автоматизированных ИПС широко ис­ пользуются словари различного назначения (словари словоформ, словари основ, слов, словари наименований понятий). Составление словарей — задача весьма трудо­ емкая. Естественным поэтому является стремление авто­ матизировать этот процесс. Но если процесс составле­ ния словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и слово­ сочетаний.

Задача составления словарей формулируется следую­ щим образом: по заданной совокупности текстов вы­ брать попарно-различные элементы (словоформы, осно­ вы слов, словосочетания), определить их грамматиче­ ские характеристики и расположить эти элементы в за­ ранее обусловленном порядке. При необходимости (если составляется частотный словарь) подсчитать количест­ во повторений одинаковых элементов. Полученный та­ ким образом перечень элементов и их грамматических характеристик далее может подвергаться дополнитель­ ной обработке (например, он может редактироваться человеком). Не всякая работа по составлению словарей может быть автоматизирована (нельзя, например, пока еще точно определять с помощью машины все грамма­ тические и семантические признаки слов). Но большая часть работ по выявлению, отбору и упорядочению эле­ ментов текстов, включаемых в словарь, может быть вы­ полнена автоматически.

Составление словарей словоформ и словарей основ слов с помощью счетно-перфорационных машин

Счетно-перфорационные машины (СПМ) могут слу­ жить эффективным средством автоматизации работ по составлению словарей.' Наиболее удобны для этой цели

13*

195

алфавитно-цифровые СПМ. В случае использования цифровых машин приходится кодировать каждую букву ее порядковым номером но алфавиту (двумя десятичны­ ми цифрами), а составленный словарь расшифровывать.

Исходным материалом для составления словаря сло­ воформ должна быть некоторая совокупность текстов определенной тематики. Сдова текста перфорируются одно за другим в порядке их следования в текстах. При

этом каждая

словоформа

исходного текста

наносится

на отдельную

перфокарту.

Полученный в

результате

перфорации массив перфокарт сортируется таким обра­ зом, чтобы слова располагались в алфавитном порядке или, при цифровом кодировании букв, в порядке возра­ стания численных значений кодов. После сортировки одинаковые словоформы располагаются рядом и пере­ считываются на табуляторе (если составляется частот­ ный словарь). Из каждой пачки одинаковых перфокарт отбирается по одной перфокарте, на которую наносится частота встречаемости словоформы. Образовавшийся массив перфокарт табулируется и при необходимости расшифровывается. Если цель составления словарей — только получение списков различных словоформ, то под­ счет количества карт не делается.

Частотный словарь основ составляется по частотному словарю словоформ. При этом для каждой словоформы на табуляграмме отмечается граница между основой и окончанием. Далее основы слов перфорируются вместе с частотами соответствующих словоформ и сортируются по алфавиту. Затем суммируются частоты по группам перфокарт с одинаковыми основами и перфорируются итоги суммирования на одну из перфокарт в каждой группе. Итоговые перфокарты выделяются из общего массива и с них частотный словарь основ печатается на рулонную бумагу.

Полученные с помощью СПМ словари служат исход­ ным материалом для составления машинных словарей словоформ и основ слов. Дальнейшая работа выполня­ ется человеком, который назначает соответствующие Грамматические и семантические признаки каждой сло­ воформе и каждой основе слова. Если в машинном сло­ варе словоформ или основ слов применяется порядок следования элементов, отличный о^ алфавитного, то не­ обходимая перестройка исходного материала произво­ дится также с помощью СПМ.

196


Составление словарей словоформ и словарей основ слов на ЭВМ с большой оперативной памятью

Процедуры автоматического составления словарей словоформ и словарей основ слов имеют много общих черт. Поэтому в дальнейшем изложении мы сосредото­ чим основное внимание на способах .составления слова­ рей словоформ.

Под большой оперативной памятью мы будем пони­ мать оперативную намять такого объема, который по­ зволяет разместить в ней весь словарь. Составление сло­ варя в машине с большой оперативной памятью проис­ ходит следующим образом. Элементы текста один за другим ищутся среди элементов словаря. Если они там находятся, то словарь оставляется без изменений. Если нет, то в него включаются новые элементы. Исходным состоянием словаря является такое, когда он не содер­ жит ни одного элемента, конечным состоянием — когда все элементы текста оказываются включенными в сло­ варь.

При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется зано­ во, «с нуля», то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется на базе ранее составленного сло­ варя, то поиск в исходном словаре производится с по­

мощью

процедуры точного

морфологического

анализа,

а поиск

в дополнительной

части словаря — с

помощью

процедуры приближенного

анализа. Обращение к до­

полнительной части словаря происходит после того, как очередное слово не было найдено в исходном словаре.

Конкретный вид алгоритма составления словаря за­ висит от принятого порядка расположения его элемен­ тов и от способа поиска в нем. Можно, например, упо­ рядочить элементы словаря по их длине, а в пределах группы элементов одинаковой длины — по возрастанию кодов. Тогда нужный участок словаря можно искать по таблице разделителей, а поиск на участке — способом «деления пополам».

Таблица разделителей составляется заранее, исходя из предполагаемого объема словаря и данных о распре­ делении длин его элементов. Объем словаря и распреде­

197