Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 159
Скачиваний: 3
|
|
|
Т а б л и ц а |
10.7 |
||
Зависим ост ь |
коэф ф ициент а полнот ы и |
„ш ум а“ от |
ном ера |
цикла |
||
поиска (поиск в классиф икационном |
сл овар е понят ий) |
|
||||
Номер |
Поиск эквивалентных по смыслу |
Поиск подчиняющих понятий |
||||
и подчиненных понятий |
|
|
|
|||
цикла |
|
|
|
|
|
|
поиска |
Коэффициент |
Коэффициент |
Коэффициент |
* Коэффициент |
||
|
полноты, % |
„шума*, % |
полноты, % |
„шума", % |
||
1 |
43,6 |
0,00 |
44,6 |
0,00 |
||
2 |
55,0 |
7,5 |
68,3 |
8,2 |
||
3 |
60,0 |
8,2 |
72,8 |
17,7 |
||
4 |
63,7 |
10,3 |
74,2 |
20,8 |
||
5 |
64,0 |
10,9 |
74,6 |
22,3 |
||
6 |
64,1 |
11,4 |
74,8 |
23,3 |
||
7 |
64,1 |
11,6 |
75,0 |
23,5 |
||
8 |
— |
— |
75,0 |
23,7 |
||
9 |
— |
— |
75,0 |
23,9 |
||
10 |
— |
— |
75,0 |
24,0 |
||
11 |
75,0 |
24,1 |
||||
— |
— |
|||||
12 |
|
— |
75,0 |
24,1 |
вило, не приводит к установлению ложных связей. При циклическом поиске неточности в связях между терми нами накапливаются и уровень «шумов» возрастает.
Как показали эксперименты, |
циклический поиск |
в словарях — быстро сходящийся |
процесс. В среднем |
поиск подчиненных и эквивалентных по смыслу терми
нов заканчивается за |
1,3 цикла, поиск подчиняющих тер |
минов заканчивается |
за 2,2 н-2,4 цикла (за 2,2 цикла |
при поиске в КОП и за 2,4 цикла при совместном поиске в СНП и КСП), а максимальное число циклов поиска не превосходит 12. В табл. 10.5 и 10.6 приведено рас пределение числа циклов при совместном поиске в СНП и КСП, а в таблицах 10.7 и 10.8 указаны .значения ко эффициентов полноты поиска и «шума» в зависимости от номера цикла.
Полнота установления смысловых связей при поиске в словаре наименований понятий может быть сущест венно увеличена, если наряду с отношениями эквива лентности слов использовать родо-видовые отношения между ними. Если, например, известно, что понятия «сортировка» и «кодирование» являются видовыми по отношению к родовому понятию «обработка», а понятие «сообщение» — видовым по отношению к понятию «ин-
192
|
|
|
|
|
Т а б л и ц а |
10.8 |
|
Зависим ост ь |
коэф ф ициент а полнот ы и |
„ш ум а“ |
от |
ном ера |
цикла |
||
поиска |
(совместный, |
поиск в |
С Н П |
и К С П |
согласно п . |
8 |
|
|
|
т а б л . |
10.4) |
|
|
|
|
Поиск эквивалентных по смыслу |
Поиск подчиняющих понятий |
||||||
Номер |
и подчиненных понятий |
|
|
|
|
|
|
цикла |
Коэффициент |
Коэффициент |
Коэффициент |
Коэффициент |
|||
поиска |
|||||||
|
полноты, % |
„піума“, % |
полноты, % |
*піума“, % |
|||
г |
00,8 |
0,7 |
63,2 |
0,8 |
|||
2 |
76,9 |
6,4 |
91,5 |
10,6 |
|||
3 |
82,8 |
11,3 |
97.0 |
19,5 |
|||
4 |
91,0 |
12,8 |
99,4 |
23,0 |
|||
5 |
93,0 |
13,3 |
99,5 |
24,4 |
|||
6 |
94,6 |
13,3 |
99,6 |
25,3 |
|||
7 |
96,7 |
13,0 |
99,7 |
25,5 |
|||
8 |
97, 1 |
12,8 |
100 |
25,8 |
|||
9 |
98,9 |
12,8 |
100 |
25,9 |
|||
10 |
99,4 |
12,5 |
100 |
26,0 |
|||
11 |
99,9 |
12,5 |
100 |
26,1 |
|||
12 |
100 |
12,5 |
— |
|
— |
формация», то, заменяя в словосочетании «обработка информации» исходные слова на слова, выражающие соответствующие видовые понятия, получим ряд новых более узких по смыслу словосочетаний: сортировка ин формации; кодирование информации; обработка сооб
щений; |
сортировка сообщений; кодирование сооб |
щений. |
■ |
Автоматическое установление смысловых связей меж ду наименованиями понятий здесь можно реализовать следующим образом. Исходное словосочетание сначала кодируется пословно и для каждого слова по таблице родо-видовых отношений выбираются номера смысловых эквивалентов «подчиненных» ему слов, затем произво дится поиск по словарю наименований понятий. В про цессе поиска отбираются номера словосочетаний, экви валентных по смыслу исходному или подчиненных ему. При этом требуется выполнение двух условий:
1) каждое слово исходного словосочетания должно быть представлено в коде анализируемого словарного словосочетания либо номером своего смыслового экви валента, либо номером смыслового эквивалента подчи ненного ему слова;
13— 3 1 0 |
193 |
2) номер смыслового эквивалента главного слова анализируемого словарного словосочетания должен сов падать с номером смыслового эквивалента главного слова исходного словосочетания или с номером смысло вого эквивалента одного из подчиненных ему слов.
Поиск п о словарю наименований понятий и в этом случае целесообразно применять в комплексе с поиском по классификационному словарю. Сначала производится поиск по первому словарю, затем по второму. Новые номера понятий, найденные при поиске по классифика ционному словарю, заменяются на пословные «оды сло восочетаний, и эти коды используются для повторного поиска по словарю наименований понятий. Далее про цесс поиска по обоим словарям повторяется до тех пор, пока не перестанут находиться номера новых понятий или пока не будет выполнено заданное число повторе ний. В заключение результаты, полученные на всех эта пах, объединяются.
Поиск наименований понятий, более широких по объ ему, чем исходные словосочетания, производится анало гичным образом, но перед обращением к словарю наи менований понятий для каждого слова исходного слово сочетания по таблице родо-видовых отношений выбира ется перечень номеров смысловых эквивалентов подчи няющих слов.
Эксперименты, проведенные автором совместно с Е. А. Зигика и В. А. Чиркиным, показали, что поиск по словарю наименований понятий с использованием смысловых связей слов в три раза эффективнее, чем поиск без использования этих связей. Уровень шумов при поиске понятий, эквивалентных по смыслу и подчи ненных исходным, в среднем составляет 2%, а при поиске подчиняющих понятий— 10%. Совместный циклический поиск по словарю наименований понятий п классифика ционному словарю с использованием смысловых связей слов позволяет выявить больше связей между словосо четаниями, чем применение аналогичных процедур без
использования связей слов. При этом |
эквивалентных |
|||
по смыслу |
и подчиненных |
понятий находится |
на 17% |
|
больше, а |
подчиняющих |
понятий — на |
12% |
больше. |
Уровень шумов при поиске эквивалентных по смыслу и подчиненных понятий возрастает до 20%, при поиске подчиняющих понятий — до 46%.
Процедуры циклического поиска в тезаурусе целесо-
194
образно применять прежде всего для улучшения каче ства классификационного словаря понятий. При этом результаты работы машины должны корректироваться человеком. В документальных поисковых системах иног да допустимо использование этих процедур и без конт роля со стороны человека-.
Г л а в а 11 |
АВТОМАТИЗАЦИЯ РАБОТ |
ПО СОСТАВЛЕНИЮ СЛОВАРЕЙ
При работе автоматизированных ИПС широко ис пользуются словари различного назначения (словари словоформ, словари основ, слов, словари наименований понятий). Составление словарей — задача весьма трудо емкая. Естественным поэтому является стремление авто матизировать этот процесс. Но если процесс составле ния словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и слово сочетаний.
Задача составления словарей формулируется следую щим образом: по заданной совокупности текстов вы брать попарно-различные элементы (словоформы, осно вы слов, словосочетания), определить их грамматиче ские характеристики и расположить эти элементы в за ранее обусловленном порядке. При необходимости (если составляется частотный словарь) подсчитать количест во повторений одинаковых элементов. Полученный та ким образом перечень элементов и их грамматических характеристик далее может подвергаться дополнитель ной обработке (например, он может редактироваться человеком). Не всякая работа по составлению словарей может быть автоматизирована (нельзя, например, пока еще точно определять с помощью машины все грамма тические и семантические признаки слов). Но большая часть работ по выявлению, отбору и упорядочению эле ментов текстов, включаемых в словарь, может быть вы полнена автоматически.
Составление словарей словоформ и словарей основ слов с помощью счетно-перфорационных машин
Счетно-перфорационные машины (СПМ) могут слу жить эффективным средством автоматизации работ по составлению словарей.' Наиболее удобны для этой цели
13* |
195 |
алфавитно-цифровые СПМ. В случае использования цифровых машин приходится кодировать каждую букву ее порядковым номером но алфавиту (двумя десятичны ми цифрами), а составленный словарь расшифровывать.
Исходным материалом для составления словаря сло воформ должна быть некоторая совокупность текстов определенной тематики. Сдова текста перфорируются одно за другим в порядке их следования в текстах. При
этом каждая |
словоформа |
исходного текста |
наносится |
на отдельную |
перфокарту. |
Полученный в |
результате |
перфорации массив перфокарт сортируется таким обра зом, чтобы слова располагались в алфавитном порядке или, при цифровом кодировании букв, в порядке возра стания численных значений кодов. После сортировки одинаковые словоформы располагаются рядом и пере считываются на табуляторе (если составляется частот ный словарь). Из каждой пачки одинаковых перфокарт отбирается по одной перфокарте, на которую наносится частота встречаемости словоформы. Образовавшийся массив перфокарт табулируется и при необходимости расшифровывается. Если цель составления словарей — только получение списков различных словоформ, то под счет количества карт не делается.
Частотный словарь основ составляется по частотному словарю словоформ. При этом для каждой словоформы на табуляграмме отмечается граница между основой и окончанием. Далее основы слов перфорируются вместе с частотами соответствующих словоформ и сортируются по алфавиту. Затем суммируются частоты по группам перфокарт с одинаковыми основами и перфорируются итоги суммирования на одну из перфокарт в каждой группе. Итоговые перфокарты выделяются из общего массива и с них частотный словарь основ печатается на рулонную бумагу.
Полученные с помощью СПМ словари служат исход ным материалом для составления машинных словарей словоформ и основ слов. Дальнейшая работа выполня ется человеком, который назначает соответствующие Грамматические и семантические признаки каждой сло воформе и каждой основе слова. Если в машинном сло варе словоформ или основ слов применяется порядок следования элементов, отличный о^ алфавитного, то не обходимая перестройка исходного материала произво дится также с помощью СПМ.
196
Составление словарей словоформ и словарей основ слов на ЭВМ с большой оперативной памятью
Процедуры автоматического составления словарей словоформ и словарей основ слов имеют много общих черт. Поэтому в дальнейшем изложении мы сосредото чим основное внимание на способах .составления слова рей словоформ.
Под большой оперативной памятью мы будем пони мать оперативную намять такого объема, который по зволяет разместить в ней весь словарь. Составление сло варя в машине с большой оперативной памятью проис ходит следующим образом. Элементы текста один за другим ищутся среди элементов словаря. Если они там находятся, то словарь оставляется без изменений. Если нет, то в него включаются новые элементы. Исходным состоянием словаря является такое, когда он не содер жит ни одного элемента, конечным состоянием — когда все элементы текста оказываются включенными в сло варь.
При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется зано во, «с нуля», то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется на базе ранее составленного сло варя, то поиск в исходном словаре производится с по
мощью |
процедуры точного |
морфологического |
анализа, |
а поиск |
в дополнительной |
части словаря — с |
помощью |
процедуры приближенного |
анализа. Обращение к до |
полнительной части словаря происходит после того, как очередное слово не было найдено в исходном словаре.
Конкретный вид алгоритма составления словаря за висит от принятого порядка расположения его элемен тов и от способа поиска в нем. Можно, например, упо рядочить элементы словаря по их длине, а в пределах группы элементов одинаковой длины — по возрастанию кодов. Тогда нужный участок словаря можно искать по таблице разделителей, а поиск на участке — способом «деления пополам».
Таблица разделителей составляется заранее, исходя из предполагаемого объема словаря и данных о распре делении длин его элементов. Объем словаря и распреде
197