Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

Скачать файл (13,62Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 154

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

как на базе словаря словоформ, так и на базе словаря основ слов. Поэтому представляет интерес сравнение основных количественных показателей, характеризующих эти подходы, — объема словаря и времени работы алго ритма отождествления.

Объем машинного словаря, предназначенного для отождествления форм слов, зависит от многих факторов. Однако при сравнении вариантов структуры словаря не обходимо прежде всего учитывать соотношение количест ва словарных единиц при некоторых фиксированных условиях.

Известно, что в русском языке число различных сло воформ значительно больше числа различных основ слов. Так, существительные могут иметь 7—10 различ ных форм, полные прилагательные— 10—12 форм, гла голы настоящего и будущего времени — 6 форм, глаголы прошедшего времени и краткие прилагательные — 4 фор мы и т. д. Если фиксировать объем словаря основ и потребовать, чтобы словарь словоформ включал все формы слов, которые могут быть образованы на базе ■словаря основ, то отношение числа словоформ к числу основ слов определяется выражением

			П
			К = Лі М - і Р і ,	(7.1)
			і=1
в	котором	п — количествофлективных классов		слов
в	русском	языке;	Л4, — количество попарно-различных
форм у слов /-го			флективного класса; Рі — вероятность

появления /-го флективного класса в слозаре. По дан ным табл. 7.1 и таблицы, приведенной в приложении 1, находим, что К ~ 8.

Однако в речевой практике не все формы слов ис пользуются в равной степени. Это приводит к тому, что при фиксированном тексте достаточно большой протя женности объем словаря словоформ оказывается при мерно в два раза больше объема словаря основ (мы на блюдали это явление на текстах протяженностью от 20 до 500 тыс. слов). Если в словарь включаются не все, а только наиболее часто встречающиеся словарные еди ницы, то при изменении коэффициента заполнения тек стов в пределах 0,5—0,95 отношение объема словаря словоформ к объему словаря основ колеблется в преде лах 3—3,8, причем максимум величины этого отношения соответствует коэффициенту заполнения, равному 0,8.

135

Время работы алгоритмов автоматического отождест вления слов зависит от типа ЭВМ, которая используется для обработки текстовой информации, и от конкретной программной реализации этих алгоритмов. Имеет значе ние іи объем словаря. Однако при прочих равных усло виях программа морфологического анализа работает в несколько раз медленнее, чем программа отождествле ния слов с помощью словаря словоформ. Это обусловле но большей сложностью алгоритмов морфологического анализа и необходимостью многократного . поиска по словарю при выделении основы из состава изменяемого слова.

Дополнительное сокращение объема словаря может быть получено путем использования закономерностей словообразования и изменений основ слов при измене нии их формы. Так, за счет исключения повторений оди наковых основ после отсечения суффиксов «ть», «ти», «чь» у инфинитива, суффикса «л» у глаголов прошедше го времени, суффиксов «а», «я», ^в», «вши» и т. п. у деепричастия можно уменьшить объем словаря основ на 7,7%; за счет исключения сложных слов без внутрен ней флексии, компоненты которых содержатся в слова

ре,— на 2,3%';	за счет исключения вариантных	форм
основ глаголов	с чередованием согласных — на	0,26%;

за счет исключения основ прилагательных, которые мо гут быть образованы от основ существительных, — на 6,3%. В целом, если учесть все возможные регулярные способы преобразования основ слов при словоизменении и при трансформациях словосочетаний, объем словаря

можно сократить			на 23% (приведенные данные					получе-
К оличест венны е			характ ерист ики изм ен яем ы х				Т а б л и ц а 7.15
							основ сл овар я
п/п,							Длина (количество
	Типы изменяемых основ слов					Частота	букв в основе)
								максималь
№							средняя
								ная
1	Основы	типа		II	(чередование	0,04	6,9	15
2	гласных)	типа		III (чередование		0,02	5,5	9
	Основы
3	согласных)	типа		IV	(нерегуляр	0,0!	3,9	10
	Основы

ные основы)

1 3 6

ны itо словарю об.ъемом около 8000 наиболее ynofpeбительных основ слов).

Таким образом, наиболее существенное сокращение необходимого объема памяти (в 2—3 раза) достигается при переходе от словаря словоформ к словарю основ слов в том виде, каким он принят в настоящей главе. Дальнейшие шаги в этом направлении малоэффектив ны и связаны с существенным усложнением алгоритмов морфологического анализа и синтеза.

Более того, как следует из табл. 7.15, доля изменяе мых основ в словаре невелика и составляет примерно 7%. Поэтому при практической реализации процедур морфологического анализа и синтеза с целью упрощения алгоритмов допустимо хранить в словаре все формы из меняемых основ слов и относить их к типу IV (нерегу лярные основы).

Интересно отметить, что в словаре изменяемые осно вы в среднем имеют меньшую длину, чем неизменяемые: 6,1 буквы против 8,5 букв у неизменяемых основ (более дифференцировано распределение длин изменяемых основ приведено в табл. 7.15).

Глава 8 ПРИБЛИЖЕННЫЕ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ

Определение обобщенных грамматических классов слов по их конечным буквосочетаниям. Выделение основ слов

Процедуры морфологического анализа и синтеза слов могут быть точными и приближенными. Точные процеду ры морфологического анализа и синтеза основаны на использовании словарей, в которых для каждого слова указано правило изменения его формы (см. гл. 7). Эти процедуры .могут применяться только к словам, основы которых включены в словарь. Между тем в реальных текстах всегда будут встречаться «новые» слова — слова, не содержащиеся в словаре. Такие слова либо должны исключаться из текста как «неинформативные», либо их

необходимо включать в словарь.			выявляться
«Новые»	слова	могут автоматически
в процессе	точного морфологического анализа и выда
ваться на печать		для ручной обработки	и включения

137

в словарь. Но такая организация работы не позволит полностью автоматизировать процессы обработки тексто вой информации. Необходима процедура автоматическо го пополнения словарей. А это, в свою очередь, связано с необходимостью автоматического выделения основ слов и получения к ним грамматической информации.

Т а б л и ц а 8.1

Распределения частот появления грамматических классов, ассоциированны х с конечными буквосочетаниями слов

( фрагмент таблицы распределений)

Появление «новых» слов в тексте может помешать правильному выполнению его синтаксического анализа. Между тем для выявления синтаксической структуры фразы в большинстве случаев достаточно получить ин формацию о принадлежности «незнакомого» слова толь ко к определенному грамматическому классу и не тре буется более подробных сведений о форме слова. .Возни кает вопрос, нельзя ли, не прибегая к помощи словаря, определять грамматический класс слова по его буквен ному составу? Задача подобного рода была поставлена и решена автором совместно с И. М. Давыдовой. В про цессе исследования был проанализирован обратный сло варь словоформ объемом около 30 000 единиц, состав ленный по деловым текстам протяженностью 500 000 слов (см. приложение 3). В результате были построены рас пределения частот появления грамматических классов, ассоциированных с различными буквами и буквосоче таниями, стоящими в конце слова. Фрагмент перечня распределений частот появления грамматических клас сов приведен в табл. 8.1.

138

Буква или буквосочетание считались отличительным признаком, того класса, который имел максимальную ча стоту. При этом использовался следующий перечень


грамматических классов слов:
С	— существительное,		количественное числительное;
П	— прилагательное,		порядковое	числительное, пол
	ная	форма причастия;
Гл — личная форма глагола;				краткое прилага
Гп — глагол		прошедшего времени,
	тельное, краткое причастие;
Ги — инфинитив; -

Н— наречие, деепричастие, сравнительная степень прилагательного;

Сл — служебные слова (предлоги, союзы, частицы). Выяснилось, что по некоторым конечным буквам и

буквосочетаниям слова можно практически однозначно, определять его грамматический класс, по другим — это можно делать с меньшей определенностью. Так, если

слова	оканчиваются	на буквы	б, г, ж,	п, р, с, ф, ц, ч,
ш, э,	то можно с	большой	степенью	достоверности

утверждать, что это существительные, тогда как по бук вам е, и, й, м, о, у, X , ы, ю, я, стоящим в конце слов; нельзя сказать что-либо определенное относительно при надлежности этих слов к грамматическим классам. Ана логично, конечные двухбуквенные сочетания ов, ке, ни, ам, ям, ку, ах, ях, ры, ию, ия можно считать признака ми существительных, сочетания букв ое, ые, ый, ым, го, их, ых, ую — признаками прилагательных, тогда как сочетания ла, на, ие, ми, ей, ий, ом, ен, ся непригодны в качестве надежных признаков для определения клас сов слов из-за их «многозначности».

В табл. 8.2 приведены вероятности однозначного определения классов слов в словаре словоформ по одной, двум, трем и т. д. последним буквам, а также объемы списков буквосочетаний, необходимые для достижения указанных значений вероятностей.

Определение грамматических классов слов по одной и по дзум последним буквам производилось с помощью полных перечней однобуквенных и двухбуквенных при знаков, объемы которых указаны в табл. 8.2. Для более

точного определения	грамматических	классов	прежде
всего использовался	список двухбуквенных признаков,
а трехбуквенные и четырехбуквенные		признаки	привле
кались только тогда,	когда количество словоформ сло-

139

Смотрите также файлы

Блок М. Апология истории или ремесло историка.pdf

Контрольная работа по теме Евразия.docx

Сынып Малім.docx

Сынып Ю. Гагарин атындаы 16 мектеплицейі.docx

Архивные гистологические препараты доброкачественных и злокачественных опухолей, подозрительные на опухолевый рост, со специфическим воспалением (туберкулёз, сифилис и т д.) хранятся в патологоанатомическом отделении B.docx

Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно