Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 148

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

By, в третьем столбцё — отсылки к каноническим формам

слов

(согласно

системе нумерации первого столбца),

а в

четвертом

столбце — номера наборов грамматиче­

ской информации (согласно табл. 7.3).

Процесс морфологического синтеза слов с основами типа IV состоит из двух этапов: этапа замены канониче­ ской формы основы на вариантную, если такая замена необходима, и этапа флективного синтеза. Второй этап синтеза описан выше, поэтому здесь ограничимся лишь изложением особенностей его первого этапа.

Для слов с супплетивными основами необходимость выбора канонической или вариантной формы іможет быть определена по грамматической информации и типу

 

Т а б л и ц а

7.13

распределения

(см.

стол­

С л о в а р ь канонических ф орм

слов

бец 4

табл.

7.11).

При

этом номер основы синте­

д л я

м орф ологического

синт еза

 

 

 

 

зируемого

слова

отожде­

к»

Каноническая форма

Отсыл*

ствляется

с одним

из но­

п/п.

слова

 

ка

меров

основ

столбца 2

 

 

 

 

табл. 7.11, а из столбца 4

1

КТО

 

1

выбирается соответствую­

2

чей

 

7

щий индекс типа

распре­

 

 

 

 

деления.

 

Если сочетанию

 

 

 

 

грамматической

инфор­

мации и индекса типа распределения соответствует кано­ ническая форма основы, то следует переходить к этапу флективного синтеза; если вариантная форма основы — то исходный номер основы необходимо заменить на но­ мер основы, следующий непосредственно за отождест­ вленным номером столбца 2 табл. 7.11.

Синтез супплетивных форм слов производится с по­ мощью табл. 7.13, 7.14.

При морфологическом анализе и синтезе супплетив­ ные основы и супплетивные формы слов различаются по номерам флективных классов (супплетивные формы слов не имеют окончаний и относятся либо к неизменяемым существительным, либо к неизменяемым прилагатель­ ным).

Втабл. 7.13 перечислены канонические формы слов

иуказано, с какого номера в табл. 7.14 начинаются суп­

плетивные формы слов, соответствующие каноническим формам табл. 7.13. Табл. 7.14 содержит перечень раз­ личных наборов грамматической информации и соответ­ ствующих им супплетивных форм слов.

126


Т а б л и д

а 7.14

С л о в а р ь суп п л ет и в н ы х ф орм слов д л я морф ологического

синт еза

Грамматическая

п/п. информация

1п

212

313

414

515

616

711

812

913

1014

1115

1216

1321

1422

1523

Форма слова

Грамматическая

Форма слова

п/п.

информация

КТО

іб

24

ч ье

КОГО

17

25

ч ь и м

к о м у

18

26

ч ь е м

КОГО

19

31

ч ья

к е м

20

32

ч ьей

ком

21

33

ч ь е й

ч ей

22

34

ч ь ю

ч ь е го

23

35

ч ьей

ч ь е м у

24

36

ч ь е й

чей

25

41

чьи

ч ьи м

26

42

ч ь и х

ч ь е м

27

43

ч ьи м

ч ь е

28

44

чьи

ч ь е го

29

45

ч ьи м и

ч ь е м у

30

46

ч ь и х

Для выбора необходимой формы слова требуется сначала по номеру основы войти в табл. 7.13, а затем по числу, содержащемуся в третьей графе этой таблицы, и по грамматической информации войти в табл. 7.14.

Формы хранения словарей и грамматических таблиц в памяти информационно-логической машины

При программировании алгоритмов морфологическо­ го анализа и синтеза существенную роль играет выбор удобных и экономичных способов записи словарей и раз­ личного рода таблиц в памяти электронной информаци­ онно-логической машины. Здесь целесообразно широко использовать равномерные коды (коды равной длины) в сочетании с упорядоченной записью этих кодов. Рав­ номерные коды и упорядоченная их запись позволяют применять методы ускоренного поиска информации.

Для кодовых комбинаций, имеющих различную дли­ ну (например, для кодов основ слов), обычно отводится целое число ячеек памяти. Если число различных кодо­ вых комбинаций невелико, а используются они в табли­ цах в большом количестве, то вместо исходных кодовых комбинаций в таблицы записываются их порядковые но­ мера по перечню (словарю) этцх комбинаций.

127


Целесообразно также применять принцип раздель­ ной записи входов и выходов таблиц, что приводит, как правило, к уменьшению времени поиска, упрощению алгоритмов и более экономному использованию емкости ЗУ ЭВМ.

Словарь

основ слов

записывается в памяти

ЭВМ

в виде двух

массивов:

массива буквенных кодов

основ

и массива кодов морфологических классов слов. Массив кодов морфологических классов слов записывается от­ дельно от массива буквенных кодов основ и, в свою очередь, разделяется на два массива: массив кодов основоизменительных классов и массив кодов флектив­ ных классов слов. Массив кодов флективных классов представляет собой перечень их номеров (согласно табл. 7.1), поставленных в соответствие кодам основ слов. Различные сочетания номеров флективных классов, соответствующие омонимичным основам, перенумерова­ ны, и эти (последние) номера включены в состав масси­ ва флективных классов. Нумерация сочетаний кодов флективных классов является продолжением нумерации флективных классов, приведенной в табл. 7.1.

Таким образом, массив кодов флективных классов представляет собой последовательность кодов равной длины (в нашем случае длина кода равна восьми дво­ ичным разрядам). Эти коды могут записываться по не­ сколько в одну ячейку, а их местоположение легко вы­ числяется по номеру основы. В случае необходимости номера сочетаний флективных классов по специальной таблице заменяются на сочетания кодов этих классов.

Массив кодов основоизменительных классов записы­ вается в памяти ЭВМ аналогично массиву кодов флек­ тивных классов. Он представляет собой последователь­ ность шестиразрядных номеров кодовых комбинаций, ха­ рактеризующих особенности морфологического анализа и синтеза слов с изменяемыми основами. Для единооб­ разия неизменяемым основам слов ставится в соответ­ ствие нулевая кодовая комбинация. Сочетание номеров классов для омонимичных основ записывается так же, как и в случае флективных классов.

При линейной развертке морфологической таблицы (табл. 7.4) уже была учтена необходимость экономии емкости памяти ЭВМ. Последовательность номеров окон­ чаний (чисел, стоящих слева от дефиса) и последова­ тельность номеров наборов грамматической информации

128


Р и с. 7.1. М орф ологический анализ.

9 - 3 J 0

129


Рис. / .!. М орф ологический анализ ( продолж ение).

130

Рис. 7.1. М орф ологический анализ (окончание).

У

131

Р и с. 7.2. М орф ологический синтез.

132

Р и с. 7.2. М орф ологический синтез (окончание).

133

табл. 7.4 записываются в памяти ЭВМ в виде двух отдельных массивов одинаковой структуры, причем в од­ ной ячейке размещается несколько номеров окончаний или номеров наборов грамматической информации. Но­ мера флективных классов (подчеркнутые числа табл. 7.4) нигде не записываются. Они используются в качестве разделителей при поиске в массиве номеров окончаний слов. Разделителям поставлена в соответствие таблица чисел, указывающих для различных классов границы столбцов окончаний (см. табл. 7.4).

При обращении к морфологической таблице сначала по коду флективного класса и коду окончания опреде­ ляется порядковый номер необходимой позиции в масси­ ве номеров окончаний. Затем по найденному номеру по­ зиции окончания вычисляется соответствующая позиция в массиве номеров наборов грамматической информа­ ции.

Участки обращенной морфологической - таблицы (табл. 7.5) целесообразно записывать в ячейки ЗУ по строкам (например, часть А) или по столбцам (часть Б)., разделив их предварительно на несколько фрагментов вертикальными или горизонтальными линиями. При этом входы участков таблиц могут нигде ие записываться, а необходимые позиции таблицы могут вычисляться по значениям входных данных.

Среди таблиц, используемых при морфологическом

анализе и синтезе, встречаются одномерные

таблицы,

входные данные которых представляют

собой

последо­

вательность чисел натурального ряда

(табл.

7.2, 7.3).

У таких таблиц можно хранить в памяти ЭВМ только их правую часть, а адреса необходимых выходных дан­ ных определять по численным значениям входных вели­ чин.

Укрупненные схемы алгоритмов морфологического анализа и синтеза представлены на рис. 7.1 и 7.2.

Сравнение различных «точных» методов автоматического отождествления и синтеза слов

В начале главы было указано, что автоматическое отождествление форм слов в процессе перевода тексто­ вых сообщений с русского языка на информационный и формирование буквенных кодов слов при переводе с ин­ формационного языка на русский может производиться

134