Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 153
Скачиваний: 3
|
|
|
Т а б л и ц а 8.2 |
Вероятность |
однозначного определения |
грамматических |
|
классов |
слов |
по их конечным буквосочетаниям |
|
Максимальное количество |
Вероятность однозначного |
Объемы списков букв и |
|
буквосочетаний, необходи |
|||
букв в признаках грамма |
определения классов |
мые для определения |
|
тических классов |
|
слов |
классов слов |
1 |
|
0,635 |
31 |
2 |
|
0,837 |
481 |
3 |
|
0,928 |
1137 |
4 |
|
0,974 |
3184 |
5 |
|
0,976 |
3282 |
варя, неправильно расклассифицированных по двухбук венным признакам, превосходило заданный порог (число девять). Этот порог выбирался таким образом, чтобы общее количество слов, неправильно расклассифициро ванных по двухбуквенным признакам без привлечения третьей и четвертой буквы, было меньше 5% от объема словаря. Количество отобранных согласно этому усло вию трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков
приведено |
в третьей |
и четвертой |
строках табл. |
8.2 |
(в третьем |
столбце). |
Пятая буква |
привлекалась |
для |
уточнения класса слова только тогда, когда количество словоформ, неправильно расклассифицированных по двухбуквенным и четырехбуквенным признакам, было больше двух. Суммарный объем перечней двухбуквен ных, четырехбуквенных и пятибуквенных признаков ука зан в пятой строке табл. 8.2.
В табл. 8.2 приведены результаты статистического анализа словаря без учета частоты встречаемости слов в текстах. Аналогичные подсчеты, проведенные раздель
но для редких слов (для слов |
с частотой |
употребления |
||
в текстах, равной единице) и |
для |
всех остальных |
слов |
|
частотного словаря, показали, |
что |
вероятность правиль |
||
ного определения классов по |
последним |
буквам |
слов |
практически не зависит от частоты их встречаемости в текстах.
Многоступенчатая система признаков для определе ния классов слов по их концам неудобна для практиче ского использования, да и объемы списков буквосочета
140
ний, приведенные в табл. 8.2, довольно велики. Поэтому было принято решение использовать в алгоритме авто матического опознавания классов слов только двухбук
венные и четырехбуквенные |
признаки: |
двухбуквенные |
||
признаки — в |
полном |
объеме, а четырехбуквенные — |
||
в сокращенном |
(только |
в тех |
случаях, |
когда число сло |
воформ словаря с неправильно определенными по двух буквенному признаку классами оказывалось больше сорока пяти). Получилось двадцать списков четырехбук венных признаков (по числу наиболее «неточных» двух буквенных признаков).
Было введено также следующее ограничение: если список четырехбуквенных признаков включал менее 64 элементов, то он сохранялся неизменным, в против ном случае в нем оставлялись только 64 наиболее часто встречающихся элемента.
Списки двухбуквенных и четырехбуквенных призна ков для определения классов слов приведены в табл. 8.3 и 8.4. Каждой строке 8.3 поставлена в соответствие вто
рая |
от конца буква слова, а каждому столбцу — послед |
няя |
буква слова. На пересечении строк и столбцов ука |
заны классы слов или (в случае многозначности двух буквенного признака) сочетания из двух классов. В сочетании классов на первом месте стоит более веро ятный класс, а на втором — менее вероятный. В круглых скобках указаны номера списков из таблицы четырех буквенных признаков (табл. 8.4).
Таблица четырехбуквенных признаков классов (табл. 8.4) построена по иному принципу, чем табл. 8.3. Она расчленена на двадцать списков, а в каждом списке дан перечень сочетаний четвертой и третьей букв от кон ца слова с указанием соответствующих им грамматиче ских классов.
Алгоритм автоматического определения грамматиче ских классов слов работает в следующем порядке:
1)Выделить две последние буквы анализируемого слова. Перейти к п. 2.
2)По сочетанию букв, выделенных в п. 1, обратить
ся к табл. 8.3 и выбрать соответствующую клетку этой таблицы. Перейти к п. 3.
3) Проверить содержимое клетки, выбранной в п. 2, на наличие отсылочного номера к табл. 8.4. При наличии отсылочного номера перейти к п. 5, при отсутствии — к. п. 4.
141
|
|
|
|
|
|
|
|
Т а б |
л и ц а 8 . 3 |
||
|
Таблица |
двухбук вен н ы х признаков |
для определения |
|
|||||||
|
грамматических классов слов |
по |
их концам |
|
|
||||||
2-я буква |
|
|
1-я буква |
|
|
|
|
||||
б |
в |
г |
д |
е |
ж |
3 |
|||||
|
а |
||||||||||
а |
с |
с |
н ,с |
с |
с, н |
с |
|
с |
с |
||
б |
— |
— |
— |
с |
с |
|
— |
— |
|||
в |
С, Гп |
— |
с |
__ |
с, н |
— |
— |
||||
г |
С |
_ |
_ |
_ |
_ |
с |
|
_ |
_ |
||
д |
С, н |
— |
— |
-__ |
— |
|
с, н |
с |
— |
||
е |
-— |
с |
с ,н |
с |
с, н |
п ,н |
с |
С, Сл |
|||
ж |
С, Гп |
с |
— — |
— |
(3) |
— |
— |
||||
н ,с |
|||||||||||
3' |
С, Сл |
— ■— _ |
— |
с |
|
— |
— |
||||
и |
. Сі |
— |
н .с |
с, Гп |
с |
с, п |
с |
С, Сл |
|||
й |
— |
— |
— |
— |
с |
(4) |
—* |
— |
|||
с |
|
||||||||||
к |
с, н |
.— |
с |
__. |
— |
|
с |
|
— |
— |
|
л |
Гп, С |
с |
|
с |
— |
С, Сл |
— |
— |
|||
м |
(1) |
с |
— |
— |
— |
С, Сл |
— |
— |
|||
С, Гп |
|||||||||||
Гп, С |
— |
— |
с |
С, Сл |
С, II |
— |
— |
||||
II |
(2) |
С, Сл |
с, и |
С, 1п |
с, н |
н, |
п |
Гп |
с |
||
0 |
■-- |
||||||||||
С |
— |
|
— |
— |
с |
|
|
_ |
|||
II |
|
|
— |
|
|
|
|
|
— |
— |
|
С, Гп |
с |
с |
С, Гп |
с |
С, |
II |
с |
_ |
|||
р |
С, г |
— |
с |
— |
— |
С, Гл |
— |
||||
с |
С |
— |
.— |
_ |
— |
С, II |
— |
_ |
|||
— |
— |
|
|
|
|
|
|
|
|
||
т |
|
|
н |
с, н |
С, Гп |
с |
|
с |
с |
||
У |
с |
|
|
||||||||
ф |
— |
— |
|
— |
с |
|
— |
— |
|||
Ц |
с |
|
с, |
н |
|||||||
ч |
|
_ |
,. − |
_ |
_ |
|
|
_ |
|
||
с |
— |
— |
— |
— |
II, с |
— |
— |
||||
с, л |
— |
.— |
— |
.— |
с, |
II |
— |
— |
|||
ш |
|
— |
— |
— |
|
|
|
— |
_ |
||
С, Гп |
с |
с, н |
.— |
— |
н, с |
|
— |
||||
Щ |
— |
—. |
|
|
II |
— |
|
||||
ы |
с |
__ |
|
|
|
с |
|
|
|||
ь |
— |
— |
|
|
|
|
— |
|
— |
|
|
э |
|
с |
С |
|
с |
||||||
ю |
|
|
|
|
|
|
|
|
|
|
я— — н — с ,н — — —
Пробел |
Сл |
Сл |
Сл |
— |
|
буква |
— |
— |
— |
|
|
|
|
|
— |
||||
2-я буква |
И |
й |
к |
І-я |
м |
н |
о |
II |
|
ва |
|
|
л |
|
|
|
|||
с |
— |
— |
— |
|
— |
С, Гп |
с, н |
с |
|
б |
— |
— |
— |
|
|
11 |
— |
|
— |
с |
— |
— |
с |
|
— |
С |
с, н |
— |
|
г |
с |
|
— |
|
— |
II, с |
|||
д |
с, н |
— |
— |
|
с |
— |
с , н |
— |
|
|
|
|
142
П р о д о л ж ен и е т а б л . 8 .3
І-я буква
2-я буква |
и |
|
й |
|
к |
л |
|
м |
н |
о |
|
II |
|
|
|
|
|
|
|||||||||
е |
с |
|
с , |
п |
с |
Гп, |
С |
с , п |
Гп, С |
— |
|
с |
|
|
|
|
(7) |
|
— |
— |
|
(10) |
(12) |
|
|
— |
|
ж |
с , н |
— |
|
|
■—■ |
— |
— |
|
|||||
з |
с , н |
|
— |
— |
|
с |
— • |
— |
|
__ |
|||
и |
t , |
С л |
II, |
С |
С , Гп |
Гп, |
С |
П , Гл |
С, Гп |
с |
|
С , Гп |
|
й |
с |
|
(8) |
|
— |
— |
|
с |
с |
.— |
с |
||
|
|
|
|
||||||||||
к |
с , |
н |
— |
|
— |
— |
|
— |
— |
II, |
с |
____ |
|
л |
Гп, |
С |
— |
|
с |
с |
|
с |
с |
Гп, |
С |
с |
|
|
(5) |
|
|
|
|
|
|
|
|
|
|
||
м * |
П , |
С |
—— |
с |
■— |
|
с |
с |
Гп, |
Н |
с |
||
|
(С) |
|
|
|
|
|
_ |
|
Н , Гп |
|
|||
н |
С , С л |
— |
|
с |
— |
|
с |
— |
|||||
|
|
|
|
|
|
|
|
|
|
(13) |
|
||
0 |
С , п |
п , С С , Гп |
с |
|
п , с |
с |
— |
|
с |
||||
|
|
|
(9) |
|
|
|
|
(11) |
|
|
|
|
|
п |
с |
|
. --- |
|
— ■ , |
— |
|
— |
— |
С , |
С л |
__ |
|
р |
с , н |
— |
|
с |
— |
|
с |
с |
с, н |
__ |
|||
с |
с |
— |
|
с |
с |
|
с |
__ |
С, |
сл |
__ |
||
С , Гп |
— |
|
с |
— . |
|
с |
__ |
С , Гп |
__ |
||||
С , С л |
С , Г л |
с |
__ |
||||||||||
у |
с |
— |
|
с |
|
|
с |
с |
|
||||
с |
|
— |
— |
|
|
— |
н |
— |
|||||
ф |
с |
|
— |
|
— |
— |
|||||||
т |
— |
|
— |
С |
|
— |
— |
||||||
X |
С , |
С л |
|
— |
с |
|
— |
— |
с |
— |
|||
ц |
— |
— |
|
с |
— |
|
— |
__ |
с,нн |
__ |
|||
с, п |
— |
|
|
— |
|||||||||
ч |
|
|
— |
|
— |
|
|
— |
__ |
|
|
__ |
|
С , |
Гп |
— |
|
— |
— |
|
__ |
__ |
__ |
__ |
|||
ы |
— |
п |
с |
Гп, |
С |
— |
с |
__ |
'__ |
||||
ш |
с |
с |
__ |
||||||||||
Щ |
с |
— |
|
|
— |
|
__ |
__ |
— |
||||
— |
|
|
|
п |
|||||||||
э |
— |
с |
— |
|
|
|
— |
— |
|||||
ь |
— |
— |
|
— |
|
— |
__. |
— |
|
||||
я |
— |
— |
|
с |
Гп, |
С |
с |
|
— ' |
__ |
|||
ю |
|
|
— |
|
— |
|
С , Гп |
|
|
1 |
|||
|
|
|
|
|
|
1-я |
— |
— |
|
|
|||
П робел |
С л |
|
|
С л |
|
|
|
|
С л |
— |
|||
2-я буква |
|
|
|
|
|
|
|
буква |
|
|
|
|
|
р |
с |
т |
У |
ф |
X |
ц |
ч |
||||||
|
|||||||||||||
а |
С, |
Гп |
с, |
н |
С, Гл |
|
|
с |
\ |
|
|
с |
|
С |
|
с |
— |
|
|||||||||
б |
— |
|
— |
|
— |
|
_ |
_ |
|
— |
|||
в |
с |
— |
— |
С |
|
— |
— |
— |
— |
||||
г |
— |
|
— |
|
— |
с |
|
— |
— |
— - |
— ■ |
||
д |
с |
— |
|
— |
С, Сл |
_ |
с |
— |
н |
— . |
|||
е |
С, |
Сл |
с , |
Гп Гл, С |
— |
с |
с, п |
с, |
—■ |
||||
ж |
— |
— |
|
(14) |
с |
|
— |
— |
—- |
— |
|||
|
— |
|
|||||||||||
3 |
— |
|
— |
|
— |
с, н |
— |
— . |
— |
с |
— . |
||
и |
с |
с |
|
Гл, С |
с |
|
с |
п, с |
|
с |
143
|
|
|
|
|
|
П родолж е нив т а б л . 8 -3 |
||||
2-» буква |
|
|
|
|
1-ябуква |
|
|
|
||
р |
с |
т |
У 1 |
ф |
X |
ц |
ч |
|||
|
||||||||||
й |
— |
с |
с |
с |
— |
— |
— |
— |
||
к |
— |
с |
с, |
н |
с |
— . |
— |
— |
||
л |
— |
с |
с |
|
||||||
м |
— |
— |
— |
п, с |
с |
с |
— |
.— |
||
н |
с |
с |
с |
п |
|
Сл |
с |
— |
— |
|
ѳ |
С, Гп |
с, п |
— |
с, н |
||||||
п |
с |
— |
— |
с |
|
— |
— |
— |
— |
|
р |
с |
с |
с |
с |
— |
н, с |
— |
— |
||
с |
с |
с |
С, Гл |
с |
— |
— |
— |
— |
||
т |
с |
— |
.— |
с, п |
— |
— |
— |
— |
||
у |
с |
с |
Гл, С |
— |
— |
с |
— |
с |
||
ф |
с |
—- |
с |
с |
— |
— ■ |
— |
— |
||
X |
— |
с |
с |
с |
— |
— |
— |
— |
||
д |
— - |
— |
_ |
С, Гл |
|
_ |
— |
— |
||
ч |
— |
|||||||||
ш |
— |
— |
с |
с |
— |
— |
— |
|||
щ |
— |
с |
С, Гп |
L. |
_ |
п, н |
_ |
с |
||
ы |
— |
|||||||||
ь |
— |
с |
с |
— |
— |
— |
— |
|||
э |
— |
с |
с |
— — — — — |
||||||
ю |
— |
с |
Гл, С |
— |
— |
— |
— |
с |
||
я |
— |
— |
Гл, Гп |
— |
— |
с |
— |
с |
||
Пробел |
— |
Сл |
— |
Сл |
— |
— |
— |
— |
||
2-я буква |
|
|
|
|
1-я буква |
|
|
|
||
ш |
щ |
ы |
ь |
э |
ю |
я |
|
|||
|
|
|||||||||
а |
п |
|
|
|
|
|
Гл, С |
II, н |
|
|
б |
— |
— |
С, Сл |
с, н |
— |
|
419) |
|
||
— |
с |
|
||||||||
в |
— |
— |
С, Гп |
н |
|
— |
с |
Н , |
|
|
д |
_ |
_ |
с |
С, Сл |
_ |
_. |
н, с |
|
||
е |
п |
— |
— |
с |
|
— |
с |
с |
|
|
3 |
_ |
_ |
с |
LJ |
__ |
_ |
н |
|
||
С, н |
|
|||||||||
и |
— |
с |
— |
|
|
— |
с, н |
с |
|
|
й |
- |
— |
— |
|
|
— |
с |
с |
|
|
л |
_ |
_ |
С, Гп |
с, |
н |
_ |
С, Гл |
С, Сл |
|
|
м |
— |
— |
С, Гп |
с |
н |
— |
_ |
С, Сл |
|
|
н |
— |
— |
Гп, С |
с, |
с |
с |
с |
|
||
ѳ |
— |
— |
(16) |
|
|
— |
п, с |
с |
|
|
п |
|
|
|
|||||||
|
с |
|
Li |
с, н |
— |
|
сГн |
|
||
р |
|
с |
С, Гл |
|
144