Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 153

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

Т а б л и ц а 8.2

Вероятность

однозначного определения

грамматических

классов

слов

по их конечным буквосочетаниям

Максимальное количество

Вероятность однозначного

Объемы списков букв и

буквосочетаний, необходи­

букв в признаках грамма­

определения классов

мые для определения

тических классов

 

слов

классов слов

1

 

0,635

31

2

 

0,837

481

3

 

0,928

1137

4

 

0,974

3184

5

 

0,976

3282

варя, неправильно расклассифицированных по двухбук­ венным признакам, превосходило заданный порог (число девять). Этот порог выбирался таким образом, чтобы общее количество слов, неправильно расклассифициро­ ванных по двухбуквенным признакам без привлечения третьей и четвертой буквы, было меньше 5% от объема словаря. Количество отобранных согласно этому усло­ вию трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков

приведено

в третьей

и четвертой

строках табл.

8.2

(в третьем

столбце).

Пятая буква

привлекалась

для

уточнения класса слова только тогда, когда количество словоформ, неправильно расклассифицированных по двухбуквенным и четырехбуквенным признакам, было больше двух. Суммарный объем перечней двухбуквен­ ных, четырехбуквенных и пятибуквенных признаков ука­ зан в пятой строке табл. 8.2.

В табл. 8.2 приведены результаты статистического анализа словаря без учета частоты встречаемости слов в текстах. Аналогичные подсчеты, проведенные раздель­

но для редких слов (для слов

с частотой

употребления

в текстах, равной единице) и

для

всех остальных

слов

частотного словаря, показали,

что

вероятность правиль­

ного определения классов по

последним

буквам

слов

практически не зависит от частоты их встречаемости в текстах.

Многоступенчатая система признаков для определе­ ния классов слов по их концам неудобна для практиче­ ского использования, да и объемы списков буквосочета­

140


ний, приведенные в табл. 8.2, довольно велики. Поэтому было принято решение использовать в алгоритме авто­ матического опознавания классов слов только двухбук­

венные и четырехбуквенные

признаки:

двухбуквенные

признаки — в

полном

объеме, а четырехбуквенные —

в сокращенном

(только

в тех

случаях,

когда число сло­

воформ словаря с неправильно определенными по двух­ буквенному признаку классами оказывалось больше сорока пяти). Получилось двадцать списков четырехбук­ венных признаков (по числу наиболее «неточных» двух­ буквенных признаков).

Было введено также следующее ограничение: если список четырехбуквенных признаков включал менее 64 элементов, то он сохранялся неизменным, в против­ ном случае в нем оставлялись только 64 наиболее часто встречающихся элемента.

Списки двухбуквенных и четырехбуквенных призна­ ков для определения классов слов приведены в табл. 8.3 и 8.4. Каждой строке 8.3 поставлена в соответствие вто­

рая

от конца буква слова, а каждому столбцу — послед­

няя

буква слова. На пересечении строк и столбцов ука­

заны классы слов или (в случае многозначности двух­ буквенного признака) сочетания из двух классов. В сочетании классов на первом месте стоит более веро­ ятный класс, а на втором — менее вероятный. В круглых скобках указаны номера списков из таблицы четырех­ буквенных признаков (табл. 8.4).

Таблица четырехбуквенных признаков классов (табл. 8.4) построена по иному принципу, чем табл. 8.3. Она расчленена на двадцать списков, а в каждом списке дан перечень сочетаний четвертой и третьей букв от кон­ ца слова с указанием соответствующих им грамматиче­ ских классов.

Алгоритм автоматического определения грамматиче­ ских классов слов работает в следующем порядке:

1)Выделить две последние буквы анализируемого слова. Перейти к п. 2.

2)По сочетанию букв, выделенных в п. 1, обратить­

ся к табл. 8.3 и выбрать соответствующую клетку этой таблицы. Перейти к п. 3.

3) Проверить содержимое клетки, выбранной в п. 2, на наличие отсылочного номера к табл. 8.4. При наличии отсылочного номера перейти к п. 5, при отсутствии — к. п. 4.

141


 

 

 

 

 

 

 

 

Т а б

л и ц а 8 . 3

 

Таблица

двухбук вен н ы х признаков

для определения

 

 

грамматических классов слов

по

их концам

 

 

2-я буква

 

 

1-я буква

 

 

 

 

б

в

г

д

е

ж

3

 

а

а

с

с

н ,с

с

с, н

с

 

с

с

б

с

с

 

в

С, Гп

с

__

с, н

г

С

_

_

_

_

с

 

_

_

д

С, н

-__

 

с, н

с

е

-—

с

с ,н

с

с, н

п ,н

с

С, Сл

ж

С, Гп

с

— —

(3)

н ,с

3'

С, Сл

— ■— _

с

 

и

. Сі

н .с

с, Гп

с

с, п

с

С, Сл

й

с

(4)

—*

с

 

к

с, н

.—

с

__.

 

с

 

л

Гп, С

с

 

с

С, Сл

м

(1)

с

С, Сл

С, Гп

Гп, С

с

С, Сл

С, II

II

(2)

С, Сл

с, и

С, 1п

с, н

н,

п

Гп

с

0

■--

С

 

с

 

 

_

II

 

 

 

 

 

 

 

С, Гп

с

с

С, Гп

с

С,

II

с

_

р

С, г

с

С, Гл

с

С

.—

_

С, II

_

 

 

 

 

 

 

 

 

т

 

 

н

с, н

С, Гп

с

 

с

с

У

с

 

 

ф

 

с

 

Ц

с

 

с,

н

ч

 

_

,. −

_

_

 

 

_

 

с

II, с

с, л

.—

.—

с,

II

ш

 

 

 

 

_

С, Гп

с

с, н

.—

н, с

 

Щ

—.

 

 

II

 

ы

с

__

 

 

 

с

 

 

ь

 

 

 

 

 

 

э

 

с

С

 

с

ю

 

 

 

 

 

 

 

 

 

 

я— — н — с ,н — — —

Пробел

Сл

Сл

Сл

 

буква

 

 

 

 

 

2-я буква

И

й

к

І-я

м

н

о

II

ва

 

 

л

 

 

 

с

 

С, Гп

с, н

с

б

 

 

11

 

с

с

 

С

с, н

г

с

 

 

II, с

д

с, н

 

с

с , н

 

 

 

142


П р о д о л ж ен и е т а б л . 8 .3

І-я буква

2-я буква

и

 

й

 

к

л

 

м

н

о

 

II

 

 

 

 

 

е

с

 

с ,

п

с

Гп,

С

с , п

Гп, С

 

с

 

 

 

(7)

 

 

(10)

(12)

 

 

ж

с , н

 

 

■—■

 

з

с , н

 

 

с

— •

 

__

и

t ,

С л

II,

С

С , Гп

Гп,

С

П , Гл

С, Гп

с

 

С , Гп

й

с

 

(8)

 

 

с

с

.—

с

 

 

 

 

к

с ,

н

 

 

II,

с

____

л

Гп,

С

 

с

с

 

с

с

Гп,

С

с

 

(5)

 

 

 

 

 

 

 

 

 

 

м *

П ,

С

——

с

■—

 

с

с

Гп,

Н

с

 

(С)

 

 

 

 

 

_

 

Н , Гп

 

н

С , С л

 

с

 

с

 

 

 

 

 

 

 

 

 

 

(13)

 

0

С , п

п , С С , Гп

с

 

п , с

с

 

с

 

 

 

(9)

 

 

 

 

(11)

 

 

 

 

п

с

 

. ---

 

— ■ ,

 

С ,

С л

__

р

с , н

 

с

 

с

с

с, н

__

с

с

 

с

с

 

с

__

С,

сл

__

С , Гп

 

с

— .

 

с

__

С , Гп

__

С , С л

С , Г л

с

__

у

с

 

с

 

 

с

с

 

с

 

 

 

н

ф

с

 

 

т

 

С

 

X

С ,

С л

 

с

 

с

ц

 

с

 

__

с,нн

__

с, п

 

 

ч

 

 

 

 

 

__

 

 

__

С ,

Гп

 

 

__

__

__

__

ы

п

с

Гп,

С

с

__

'__

ш

с

с

__

Щ

с

 

 

 

__

__

 

 

 

п

э

с

 

 

 

ь

 

 

__.

 

я

 

с

Гп,

С

с

 

— '

__

ю

 

 

 

 

С , Гп

 

 

1

 

 

 

 

 

 

1-я

 

 

П робел

С л

 

 

С л

 

 

 

 

С л

2-я буква

 

 

 

 

 

 

 

буква

 

 

 

 

р

с

т

У

ф

X

ц

ч

 

а

С,

Гп

с,

н

С, Гл

 

 

с

\

 

 

с

С

 

с

 

б

 

 

 

_

_

 

в

с

С

 

г

 

 

с

 

— -

— ■

д

с

 

С, Сл

_

с

н

— .

е

С,

Сл

с ,

Гп Гл, С

с

с, п

с,

—■

ж

 

(14)

с

 

—-

 

 

3

 

 

с, н

— .

с

— .

и

с

с

 

Гл, С

с

 

с

п, с

 

с

143


 

 

 

 

 

 

П родолж е нив т а б л . 8 -3

2-» буква

 

 

 

 

1-ябуква

 

 

 

р

с

т

У 1

ф

X

ц

ч

 

й

с

с

с

к

с

с,

н

с

— .

л

с

с

 

м

п, с

с

с

.—

н

с

с

с

п

 

Сл

с

ѳ

С, Гп

с, п

с, н

п

с

с

 

р

с

с

с

с

н, с

с

с

с

С, Гл

с

т

с

.—

с, п

у

с

с

Гл, С

с

с

ф

с

—-

с

с

— ■

X

с

с

с

д

— -

_

С, Гл

 

_

ч

ш

с

с

щ

с

С, Гп

L.

_

п, н

_

с

ы

ь

с

с

э

с

с

— — — — —

ю

с

Гл, С

с

я

Гл, Гп

с

с

Пробел

Сл

Сл

2-я буква

 

 

 

 

1-я буква

 

 

 

ш

щ

ы

ь

э

ю

я

 

 

 

а

п

 

 

 

 

 

Гл, С

II, н

 

б

С, Сл

с, н

 

419)

 

с

 

в

С, Гп

н

 

с

Н ,

 

д

_

_

с

С, Сл

_

_.

н, с

 

е

п

с

 

с

с

 

3

_

_

с

LJ

__

_

н

 

С, н

 

и

с

 

 

с, н

с

 

й

-

 

 

с

с

 

л

_

_

С, Гп

с,

н

_

С, Гл

С, Сл

 

м

С, Гп

с

н

_

С, Сл

 

н

Гп, С

с,

с

с

с

 

ѳ

(16)

 

 

п, с

с

 

п

 

 

 

 

с

 

Li

с, н

 

сГн

 

р

 

с

С, Гл

 

144