Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 138
Скачиваний: 3
по коду свертки, а адреса остальных слов в группе — по кодам связи.
В информационно-поисковых системах наряду со сло варями слов применяются словари словосочетании. Эти словари обычно хранятся в памяти машины в пословных кодах и каждому словосочетанию ставится в соответст вие его номер. Количество слов в словосочетаниях может быть различным. Соответственно этому пословные коды словосочетаний имеют разную длину и могут записы ваться в одной, двух и т. д. ячейках памяти ЭВМ.
Словосочетания могут упорядочиваться по различным признакам: по длине кодов, по численным значениям ко дов, по длине и по численным значениям кодоводновре менно и т. д. Для поиска в словаре могут применяться способы, рассмотренные в гл. 5 (способ деления пополам, способ разделителей и др.). Если состав словаря часто изменяется, то наиболее удобным оказывается узловой способ поиска. По этому способу словосочетания, содер жащие одинаковые коды слов, объединяются в ассоциа тивные цепочки. Каждое словосочетание может входить одновременно в несколько ассоциативных церочек (по числу слов, входящих в его состав), а общее число цепо чек определяется количеством разных слов, встречаю щихся в словаре словосочетаний. В адресной части сло варя (см. рис. 5.2) для каждого кода слова указывается адрес его первого вхождения в словосочетание. Обраще ние к адресной части производится по сверткам кодов слов. В качестве сверток могут быть выбраны, например, п младших разрядов кода слова.
Группы (узлы) адресных отсылок, представляющие в памяти машины словосочетания, могут иметь разную длину. Поэтому для обнаружения границ словосочетаний необходимо ввести разделительные знаки. В качестве таковых могут выступать кодовые комбинации, отличные от кодов адресных отсылок, или кодовые комбинации, записываемые в специально отведенные для этого участ ки ячеек памяти. Для удобства поиска в словаре рядом с каждой группой адресных отсылок, представляющей словосочетание, может записываться пословный код это го словосочетания.
94
Г л а в а 7 ТОЧНЫЕ ПРОЦЕДУРЫ МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ
Морфологическая классификация слов
При автоматическом переводе текстовых сообщений с русского языка на информационный возникает задача отождествления различных форм одного и того же слова и получения к ним грамматической информации. Эта задача может быть выполнена как путем морфологиче
ского анализа слов, так и без |
него. |
В последнем случае |
в словаре необходимо хранить |
все |
(или наиболее часто |
встречающиеся) формы слов. Принципы автоматического отождествления слов и их синтез с помощью словаря словоформ описаны в работе [24] и здесь не рассматри ваются. В настоящей главе и гл. 8 основное внимание уделяется способам автоматического морфологического анализа и синтеза слов.
Различные способы морфологического анализа раз рабатывались в связи с задачей автоматического пере вода текстовых сообщений с русского языка на иностран ные или с иностранных языков на русский (см., например, работы [48, 62, 90, 133]). Мы проиллюстрируем идею морфологического анализа и синтеза русских слов на примере того алгоритма, который был разработан авто ром совместно с Т. С. Белоноговой и А. К. Родионовой
ипроверен на ЭВМ.
Врезультате морфологического анализа основы слов заменяются их порядковыми номерами по словарю и сопровождаются грамматической информацией, которую могут нести формы слов без учета окружения в тексте. Морфологический синтез слов является заключительным этапом процесса декодирования сообщений, записанных на информационном языке, в результате которого осу ществляется формирование буквенного кода слова по номеру основы и сопровождающей его грамматической информации. В основу построения алгоритмов автомати ческого морфологического анализа и синтеза положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слов. Эти классы
условно названы м о р ф о л о г и ч е с к ими.
95
Изменения форм слов могут носить различный ха рактер. Они могут быть связаны как с изменением ос новы слова, так и с изменением его окончания. Измене
ние буквенного состава основ |
имеет место, например, |
в следующих парах форм слов: |
сижу— сидишь, шел — |
шли, тренировка — тренировок, |
нес — несли, кто — кого, |
время — времени, судно— суда, |
человек—люди. Измене |
ние окончаний является основным способом образова ния различных форм слов. В русском языке оно исполь зуется как самостоятельно, так и в сочетании с измене нием основ слов.
По характеру изменения буквенного состава все ос новы слов могут быть отнесены к одному из следующих
четырех |
типов: |
тип I— неизменяемые |
основы |
слов; |
||||
тип |
II — основы |
слов, у которых |
имеет |
место чередова |
||||
ние |
гласных; тип |
III — основы |
слов, |
у |
которых |
имеет |
||
место |
чередование |
согласных; |
тип |
IV — изменяемые |
||||
основы слов, не отнесенные к типам II |
и III. К основам |
типа IV относятся, в частности, супплетивные формы слов (например, следующие формы слов: кто, кого, кем, что, чего, он, ему и др.).
Морфологические классы слов делятся на два вида: 1) основоизменительные классы, характеризующие систе му изменения основ, и 2) флективные классы слов. Флективные классы изменяемых слов выделялись на ос нове анализа их синтаксической функции и систем падеж ных, личных и родовых окончаний. Классы неизменяе мых слов выделялись только по синтаксическому принци пу. Список флективных классов слов приведен в табл. 7.1, а распределение частот их появления в текстах и в сло варях— в приложении 1.
По своей синтаксической функции изменяемые слова объединены в следующие группы: 1) существительные; 2) прилагательные; 3) глаголы в личной форме; 4) гла голы прошедшего времени, краткие прилагательные и причастия; 5) количественные числительные. Группа «существительные», в свою очередь, состоит из несколь ких подгрупп, выделенных по признакам рода и одушев ленности (для существительных мужского и женского рода). В каждой группе и подгруппе слова распределе ны по флективным классам.
Флективный класс может быть охарактеризован либо некоторой системой признаков, либо словом-представи- телем, которое является носителем этих признаков
96
Т а б л и ц а 7.1
ФЛ ЕКТИВНЫ Е КЛАССЫ СЛ О В
А. Существительные
|
|
1) |
Окончания: |
|
п/п. |
Слово-представитель |
и\т. пад., ед. число, |
Примечание |
|
2) |
тв. пад., ед. число, |
|||
N ° |
|
|
|
|
|
|
3) им. пад., мн. число, |
|
|
|
|
А ) |
род. пад., мн. число |
|
Сущ ест вит ельны е м уж ского рода неодуш евленны е
001 |
телефон |
|
+ * , ом, |
ы, OB |
|
|
|
|||
002 |
тираж |
|
+ |
, |
ом, |
и, |
ей |
См . п. |
012 |
|
003 |
огонь |
|
ь, |
|
ем, |
и, |
ей |
|
||
004 |
перебой |
|
й, |
|
ем, |
и, |
ев |
См. п. |
005 |
бук |
005 |
санаторий |
|
й, |
, |
ем, |
и, |
ев |
Основы |
на |
|
006 |
бланк |
|
+ |
ом, |
и, |
ов |
ву „и“ |
|
||
007 |
сапог |
|
+ |
, |
ом, |
и, |
-f- |
|
|
|
010 |
лес |
|
+ , |
ом, |
а, |
ов |
|
|
|
|
011 |
колодец |
|
4 -, ем, ы, |
ев |
|
|
|
|||
012 |
путь (класс состоит |
из |
— |
|
|
|
|
|
|
|
013 |
одного слова) |
|
й, |
|
ем, |
я, |
ев |
|
|
|
край |
|
|
|
|
|
|||||
014 |
брус |
|
+ , |
ом, |
я, |
ев |
|
|
|
|
015 |
глаз |
|
4 -, |
ом, |
а, |
+ |
|
|
|
|
016 |
зародыш |
|
4 -, |
ем, |
и, |
ей |
|
|
|
|
017 |
волос |
|
4 -, |
ом, |
ы, |
+ |
|
|
|
|
020 |
лагерь |
м уж скогоь, ем,родая, |
одушей |
|
|
|
||||
021 |
Сущ ест вит ельны е |
евленны е |
|
|
||||||
кузнец |
|
+ |
, |
ом, |
ы, |
ов |
|
|
|
|
022 |
солдат |
|
4 -, |
ом, |
ы, |
+ |
См. п. |
024. |
|
|
023 |
сосед |
|
4 -, |
ом, |
и, |
ей |
ж, |
|||
024 |
врач |
|
4 -, ом, и, |
ей |
Основы |
на |
||||
025 |
пролетарий |
|
й, |
|
ем, |
и, |
ев |
ч, ш, щ |
|
|
026 |
воробей |
|
ей, |
ем, |
и, |
ев |
|
|
|
|
027 |
конь |
|
ь, |
ем, |
и, |
ей |
|
|
|
|
030 |
учитель |
|
ь, |
ем, |
я, |
ей |
|
|
|
|
031 |
сапожник |
|
+ |
, |
ом, |
и, |
ов |
|
|
|
032 |
испанец |
|
+ , |
ем, |
ы, |
ев |
|
|
|
|
033 |
юноша |
|
а, |
ей, |
и, |
ей |
|
|
|
|
034 |
мужчина |
|
а, |
ой, |
ы, |
+ |
|
|
|
|
035 |
судья |
|
я, |
ей, |
и, |
ей |
|
|
|
|
036 |
товарищ; |
|
+ |
, |
ем, |
и, |
ей |
|
» |
|
037 |
гражданин |
|
4 -, |
ом, |
е, |
+ |
|
|
||
040 |
профессор |
|
4 -, |
ом, |
а, |
ов |
|
|
|
|
04 і |
муж |
|
4 -, |
ем, |
я, |
ей |
|
|
|
|
042 |
Иванов |
|
4 -, ым, ы, ых |
|
|
|
||||
043 |
сын |
|
4 -, |
ом, |
я, |
ей |
|
|
|
* Символ . + * обозначает нулевое окончание.
7 -3 1 0 |
97 |
П р о д о л ж е н и е т а б л . 7.1
м? |
|
1) |
Окончания: |
|
Словопредставитель |
им. пад., ед. число, |
Примечание |
||
п/п. |
2) тв. пад., ед. число, |
|||
|
3) |
им. пад., мн. число, |
|
|
|
|
4) |
род. пад., мн. число |
|
044 |
Сущ ест вит ел ьны е ж ен ского рода |
|
одуш евленны е |
|
|
|||||
женщина |
а, |
ой, |
ы, |
+ |
|
|
|
|
||
045 |
переводчица |
а, |
ей, |
ы, |
+ |
Основы |
на |
бук |
||
046 |
нутрия |
я, |
ей, |
и, |
й |
|||||
047 |
швея |
я, |
ей, |
и, |
й |
ву |
„и“ |
|
||
См . |
п. |
046 |
|
|||||||
050 |
цапля |
я, |
ей, |
и, |
ь |
|
|
|
|
|
051 |
санитарка |
а, |
ой, |
и, |
+ |
|
|
|
|
|
052 |
мышь |
ь, |
ю, |
и, |
ей |
|
|
|
|
|
053 |
Иванова |
а, |
ой, |
ы, |
ых |
|
|
|
|
|
054 |
Сущ ест вит ельны е |
ж енского |
рода |
неодуш евленны е |
|
|
||||
речь |
ь, |
ю, |
и, |
ей |
Основы на ж , ч, |
|||||
055 |
грань |
ь, |
ю, |
и, |
ей |
ш , |
щ. |
|
||
См. п. |
054 |
|
||||||||
056 |
колба |
а, |
ой, |
ы, + |
|
|
|
|
||
057 |
задача |
а, |
ей, |
и, |
+ |
|
|
|
|
|
060 |
заготовка |
а, |
ой, |
и, |
+ |
Основы |
на |
бук |
||
061 |
линия |
я, |
ей, |
и, |
й |
|||||
062 |
галерея |
я, |
ей, |
и, |
|
й |
ву |
„и“ |
|
|
|
См . п. |
061 |
|
|||||||
063 |
земля |
я, |
ей, |
и, |
ь |
|
|
|
|
|
064 |
эскадрилья |
я, |
ей, |
и, |
ий |
|
|
|
|
|
065 |
статья |
я, |
ей, |
и, |
ей |
|
|
|
|
|
066 |
башня |
я, |
ей, |
и, |
+ |
|
|
|
|
|
067 |
улица |
а, |
ей, |
ы, |
+ |
|
|
|
|
|
070 |
Сущ ест вит ельны е |
среднего рода |
|
|
|
|
||||
место |
о, |
ом, |
а, |
+ |
|
|
|
|
||
071 |
облако |
о, |
ом, |
а, |
ов |
|
|
|
|
|
072 |
поле |
е, |
ем, |
я, |
ей |
|
|
|
|
|
073 |
сомнение |
е, |
ем, |
я, |
й |
|
|
|
|
|
074 |
жилище |
е, |
ем, |
а, |
+ |
|
|
|
|
|
075 |
перо |
о, |
ом, |
я, |
ев |
|
|
|
|
|
076 |
время |
я, |
ем, |
а, |
+ |
|
|
|
|
|
077 |
побережье |
е, |
ем, |
я, |
ий |
|
|
|
|
|
100 |
колено |
о, |
ом, |
и, |
ей |
|
|
|
|
|
101 |
очко |
о, |
ом, |
и, |
ов |
|
|
|
|
|
102 |
ружье |
е, |
ем, |
я, |
ей |
|
|
|
|
99
fc . П р и л а г а т е л ь н ы е
п/п. |
|
|
|
Окончания: |
|
||
Слово-представитель |
1) им. п., муж. р., ед. ч., |
||||||
2) им. п., жен. р., ед. ч., |
|||||||
|
|
4) им, п., множ. ч. |
|
||||
№ |
|
|
3) род. п., муж. р., ед. ч., |
||||
103 |
главный |
ый, ая, |
ого, |
ые |
|||
105 |
|||||||
104 |
передний |
ий, |
яя, |
его, |
ие |
||
106 |
|||||||
107 |
хороший |
ий, |
ая, |
его, |
ие |
||
ПО |
легкий |
ий, |
ая, |
ого, |
ие |
||
111 |
годовой |
ой, |
ая, |
ого, |
ые |
||
112 |
плохой |
ой, |
ая, |
ого, |
ие |
||
113 |
третий |
ий, |
я, |
его, |
и |
||
114 |
этот, |
сам |
+ , |
а, |
ого, |
и |
|
115 |
мой, |
твой, свой |
й, |
я, |
его, |
и |
|
|
наш, |
ваш |
+ , |
а, |
его, |
и |
|
|
весь |
|
ь, |
я, |
его, |
е |
|
|
|
В . Глаголы в личной форме |
|
|
|||
п/п. |
Слово-представитель |
Окончания 1, 2 и 3-го лица ед. ч. и |
|||||
3-го лица ми. ч. |
|||||||
№ |
делать |
||||||
116 |
ю, |
ешь, |
ет, |
ют |
|||
120 |
|||||||
117 |
строить |
ю, |
ишь, |
ит, |
ят |
||
121 |
|||||||
122 |
писать |
у , |
ешь, |
ет, |
ут |
||
123 |
стучать |
у , ишь, ит, ат |
|||||
124 |
бежать |
у, |
ишь, |
ит, |
ут |
||
|
хотеть |
у, |
ешь, |
ет, |
ят |
||
|
зависеть |
у, |
ишь, |
ит, |
ят |
Г. Глаголы прошедшего врем ени, краткие прилагательны е
ипричастия9
№ |
Слово-представитель |
Окончания ед. и множ, числа |
|||||
п/п. |
ехал |
(глагол) |
+ . |
о, |
а, |
и |
|
127 |
|||||||
125 |
силен |
(прилагательное) |
+ , |
о, |
а, |
ы |
|
126 |
|||||||
130 |
|||||||
|
присущ |
(прилагательн.) |
+ . |
е> а, |
и |
||
|
краток |
(прилагательн.) |
+ , о, а, и |
||||
|
|
|
Д . Количественные |
числительные |
|
|
|
п/п. |
|
|
Слово-представитель |
|
|
|
|
№ |
два, |
две |
|
|
|
|
|
13! |
|
|
|
|
|||
132 |
|
|
|
|
|||
|
три |
|
|
|
|
|
|
7 |
99 |