Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 134
Скачиваний: 3
|
|
|
|
Т а б л и ц а 1 6 .5 |
|
Зависим ост ь объем а сл о в а р я |
зн а ч ен и й |
ха р а к т ер и ст и к |
|||
от |
объем а |
массива эл ем ен т а р н ы х |
сообщ ений |
|
|
|
в |
ф акт ограф ической И П С |
|
||
Объем мас |
Объем |
Объем мас |
Объем |
Объем мас |
Объем |
сива сообще |
словаря |
сива сообще |
словаря |
сива сообще |
словаря |
ний |
ний |
ний |
1608 |
||
500 |
177 |
6500 |
1004 |
12500 |
|
1000 |
275 |
7000 |
1047 |
13000 |
1654 |
1500 |
342 |
7500 |
1090 |
13500 |
1708 |
2000 |
436 |
8000 |
1137 |
14000 |
1773 |
2500 |
514 |
8500 |
1189 |
14500 |
1871 |
3000 |
589 |
9000 |
1260 |
15000 |
1963 |
3500 |
643 |
9500 |
1341 |
15500 |
2041 |
4000 |
720 |
10000 |
1396 |
16000 |
2113 |
4500 |
824 |
10500 |
1453 |
16500 |
2160 |
5000 |
867 |
11000 |
1498 |
17000 |
2240 |
5500 |
908 |
11500 |
1522 |
17500 |
2280 |
6000 |
945 |
12000 |
1557 |
18000 |
2350 |
А. Определение объема памяти, необходимой для записи массива кодов переменной длины
Будем исходить из следующих предположений:
1.Известно максимальное количество п символов кода, которое может быть записано в одной ячейке памяти. ЭВМ .
2.Каждый код записывается с начала ячейки и при необхо димости размещается в нескольких соседних ячейках. При этом последняя ячейка может быть заполнена не до конца.
3.Разделительные знаки между кодами учитываются при опре делении количества символов п, размещаемых в одной ячейке (они могут быть учтены также отдельно).
Т а б л и ц а 16.6
Зависим ост ь |
объем а |
классиф икационного сл о в а р я |
) |
||||
п он я т и й К С П |
от объем а сл о в а р я |
наим енований |
|||||
п онят и й |
(объем |
К С П |
и зм ер я е т ся числом кодов |
п о н я т и й |
|||
( |
) |
|
|
|
|
||
Объем |
Объем |
Объем |
Объем |
Объем |
Объем |
||
снп |
КСП |
СНП |
КСП |
СНП |
КСП |
||
500 |
1548 |
|
4500 |
14235 |
8500 |
29002 |
|
1000 |
2807 |
|
5000 |
15000 |
9000 |
35771 |
|
1500 |
3937 |
|
5500 |
16909 |
9500 |
38901 |
|
2000 |
6172 |
|
6000 |
19218 |
10000 |
41627 |
|
2500 |
7772 |
|
6500 |
20311 |
10500 |
45720 |
|
3000 |
9614 |
|
7000 |
22147 |
11000 |
48367 |
|
3500 |
10483 |
|
7500 |
23433 |
11500 |
51478 |
|
4000 |
12707 |
|
8000 |
27739 |
11635 |
53041 |
271
|
|
|
|
|
|
|
|
Т а б л и ц а |
16.7 |
||
Р а сп р ед ел ен и е |
словоф орм |
и основ слов в им енны х |
|
||||||||
|
сл овосочет ан иях (объем |
вы борки |
30000 сл ов)* |
|
|
|
|||||
|
|
F ( x ) |
|
|
|
|
|
F ( x ) |
|
|
|
X |
|
|
Основы |
X |
|
Словоформы |
Основы |
||||
Словоформы |
слов |
|
|
|
слов |
||||||
1 |
0,016 |
|
0,018 |
800 |
|
|
0,879 |
|
0,969 |
||
10 |
0,111 |
|
0,145 |
900 |
|
|
0,895 |
|
0,977 |
||
20 |
0,185 |
|
0,241 |
1000 |
|
0,909 |
|
0,983 |
|||
30 |
0,237 |
|
0,312 |
1100 |
|
0,919 |
|
0 ,9S6 |
|||
40 |
0,287 |
|
0,374 |
1200 |
|
0,930 |
|
0,989 |
|||
50 |
0,329 |
|
0,422 |
1300 |
|
0,937 |
|
0,997 |
|||
100 |
0,478 |
|
0; 613 |
1450 |
|
|
— |
|
1,000 |
||
200 |
0,628 |
|
0,783 |
1500 |
|
0,951 |
|
— |
|
||
300 |
0,710 |
|
0,859 |
2000 |
|
|
0,968 |
|
— |
|
|
400 |
0,763 |
|
0,909 |
2500 |
|
0,991 |
|
|
|||
|
|
|
— |
|
|||||||
500 |
0,805 |
|
0,931 |
2687 |
|
|
1,000 |
|
— |
|
|
700 |
0,861 |
|
0,962 |
— |
|
|
|
— |
|
— |
|
* Здесь X —порядковый номер словарной |
единицы |
при |
расположении |
словарных |
|||||||
единиц по убыванию частот; F(*)—относительная |
накопленная частота. |
|
|
|
|||||||
|
|
|
|
|
|
|
|
Т а б л и ц а |
16.8 |
||
Р а сп р ед ел ен и е длин словоф орм |
и основ |
слов в сл овар е |
|
||||||||
Длина |
|
Вероятность появления |
Длина |
|
Вероятность появления |
||||||
|
словарной единицы |
|
словарной‘ единицы |
||||||||
словарной |
заданной длины |
словарной |
|
заданной длины |
|||||||
единицы |
|
|
единицы |
|
|
|
|
|
|||
(количество |
слово |
основы |
(количество |
|
слово |
|
ОСНОВЫ |
||||
букв) |
|
формы |
слов |
букв) |
|
|
формы |
|
СЛОВ |
||
1 |
|
0,0009 |
0,0010 |
. |
17 |
|
|
0,0114 |
|
0,0045 |
|
2 |
|
0,0026 |
0,0063 |
18 |
|
|
0,0090 |
|
0,0027 |
||
3 |
|
0,0108 |
0,0315 |
' |
19 |
|
|
0,0042 |
|
0,0030 |
|
4 |
|
0,0266 |
0,0649 |
|
20 |
|
|
0,0027 |
|
0,0027 |
|
5 |
|
0,0586 |
0,0951 |
|
21 |
|
|
0,0029 |
|
0,0010 |
|
6 |
|
0,0904 |
0,1242 |
|
22 |
|
|
0,0030 |
|
0,0008 |
|
7 |
- |
0,1110 |
0,1304 |
|
23 |
|
|
0,0031 |
|
0,0001 |
|
8 |
|
0,1220 |
0,1392 |
|
24 |
|
|
|
|
0,0003 |
|
9 |
|
0,1207 |
0,1199 |
|
|
|
|
0,0011 |
|
0,0004 |
|
10 |
|
0,1135 |
0,0872 |
|
26 |
|
|
. 00,0005,0 0 ГО |
|
0,0004 |
|
12 |
|
0,0971 |
0,0648 |
|
2527 |
|
|
0,0004 |
|
0,0004 |
|
|
0,0702 |
0,0456 |
|
28 |
|
|
0,0004 |
|
|
|
|
1113 |
|
|
|
|
|
|
— |
||||
14 |
|
0,0522 |
0,0336 |
|
29 |
|
|
0,0003 |
|
0,0001 |
|
|
0,0381 |
0,0200 |
|
30 |
|
|
0,0003 |
|
|
— |
|
15 |
|
0,0284 |
0,0132 |
|
31 |
|
|
0,0002 |
|
|
— |
16 |
|
0,0173 |
0,0094 |
|
32 |
|
|
0,0001 |
|
|
— |
272
Т а б л и ц а 16.9
Р а сп р ед ел ен и е дл ин им енны х сл овосочет ан ий в сл овар е
Длина слово |
Вероятность появления |
Длина словосоче |
Вероятность появления |
сочетания |
|||
(количество |
словосочетаний |
тания (количество |
словосочетаний |
слов) |
заданной длины |
слов) |
заданной длины |
1 |
0,06108 |
7 |
0,00923 |
2 |
0,40164 |
8 |
0,00422 |
3 |
0,27810 |
9 |
0,00371 |
4 |
0,14243 |
10 |
0,00033 |
5 |
0,07290 |
11 |
0,00009 |
6 |
0,02827 |
— |
--- ' |
4. |
Распределение длин кодов описывается |
Р і |
формулой (16.2) |
(см. тш. |
5— 13 табл. 16.2). |
|
выполнения |
Из |
формулы (16.2) следует, что вероятность |
|
|
условия |
определяется выражением |
|
|
P t |
|
F |
|
F |
|
-fcef |
|
- к х |
? |
|
|
|
|
|
|
|
п ), |
[п, п ), |
[2п, |
|
|||
= |
х , |
(х2) — |
(Xj) = |
е 1 — е |
2 . |
|
|
||||
|
|
полуинтервалов |
(0, |
|
2 |
|
Зга)... |
||||
Для последовательных |
|
|
|||||||||
изменения величины |
|
|
с |
|
|
|
|
|
|
|
|
|
Р |
соответствующих случаям записи кодов в од |
|||||||||
ной, двух, трех и т. д. ячейках памяти, получим последовательность |
|||||||||||
значений вероятности |
|
|
|
|
-к(п)т |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
Р г = |
е— fe(«)m _ |
e-fe(2ra)m > |
|
(16.6) |
|||||
|
|
р |
г = |
е—k |
( 2 n ) m _ |
e-ft(3ra)m> |
|
|
|
|
|
|
|
Т а б л и ц а 16.10 |
|
Р аспределение числа подчиненны х понятий в тезаурусе |
|||||
Количество |
Относительная накоп |
Количество |
Относительная накоп |
||
подчиненных |
подчиненных |
||||
ленная частота |
ленная частота |
||||
понятий |
понятий |
|
|||
|
|
|
|||
1 |
0,331 |
25 |
’ |
0,891 |
|
2 |
0,482 |
30 |
|
0,905 |
|
3 |
0,564 |
40 |
|
0,928 |
|
4 |
0,621 |
50 |
|
0,940 |
|
5 |
0,666 |
70 |
|
0,958 |
|
6 |
0,723 |
100 |
|
0,972 |
|
10 |
0,780 |
150 |
|
0 ,983 |
|
15 |
0,837 |
1347 |
|
1,000 |
|
20 |
0,872 |
— |
|
— |
18— 310 |
273 |
п№
/п
1
2
3
4
5
6
7
8
9
10
11
|
|
|
|
|
Т а б л и ц а |
16.11 |
Н ек о т о р ы е |
числовые ха ракт ери ст ики |
элем ент ов |
|
|||
инф орм ационны х массивов |
|
|
||||
Наименование |
|
Значение характери стики |
Примечание |
|
||
Средняя длина слова в неформали |
6,67 |
|
|
|||
зованных текстах |
(в буквах без учета |
|
|
|
||
пробелов между |
словами) |
в ело- |
9,56 |
С м . п. 5 табл. |
16.2 |
|
Средняя длина |
словоформы |
|||||
варе (в буквах) |
|
|
|
8,20 |
См. п. 6 табл. 16.2 |
|
Средняя длина основы слова в |
||||||
словаре (в буквах) |
|
|
2,92 |
См. п. 7 табл. |
16.2 |
|
Средняя длина именного словосоче- |
||||||
танин в словаре (в словах) |
|
4,25 |
С м . п. 8 табл. |
16.2 |
||
Среднее число подчиненных понятий |
||||||
в классификационном |
словаре |
(коли |
|
|
|
|
чество подчиненных |
понятий, |
прихо |
|
|
|
|
дящихся на один термин тезауруса) |
7,25 |
См. п. 9 табл. |
16.2 |
|||
Средняя длина значения характери- |
||||||
стики в массиве сообщений Ф И П С (в |
|
|
|
|||
символах) |
|
|
|
12,6 |
См. п. ^ т а б л . |
16.2 |
Средняя длина значения характери- |
||||||
стики по словарю (в символах) |
1,87 |
См. п. 10 табл. |
16-.2 |
|||
Среднее число слов в значении |
||||||
характеристики по тексту |
|
3,1 |
См . п. 11 табл. 16.2 |
|||
Среднее число слов в значении |
||||||
характеристики по словарю |
в мае- |
3,9 |
С м . п. 13 табл. 16.2 |
|||
Средняя длина |
словоформы |
|||||
сиве значений характеристик |
(в сим |
|
|
|
||
волах) |
|
|
|
4 ,3 |
— |
|
Средняя длина словоформы в слова |
|
|||||
ре значений характеристик (в симво |
|
|
|
|||
лах) |
|
|
|
|
|
|
В среднем один код будет записываться в /Ср ячейках памяти:
00
|
|
/ер = £ ‘‘- Л |
(16.7) |
|||
Подставляя в (16.7) вместо* Р,- |
1=0 |
части |
формул (16.6), полу |
|||
правые |
||||||
чим |
|
/ер = 2 |
|
|
|
(16.8> |
Окончательно объем |
|
1=0 |
из |
|
кодов |
определится выраже |
ѵ |
массива |
W |
||||
|
|
|
|
|
нием v = W lcр.
274
|
|
|
Б. Определение среднего значения коэффициента |
|
|
|||||||||||||||
|
|
|
сжатия именных словосочетаний при переходе |
|
|
|
||||||||||||||
|
|
|
от их |
пословных |
кодов |
к порядковым номерам |
|
|
|
|||||||||||
|
|
|
|
|
|
по |
словарю |
наименований понятий |
|
понятий |
у |
|||||||||
от |
Пусть зависимость |
объема |
словаря |
наименований |
|
|||||||||||||||
количества формализованных |
сообщений |
х |
определяется выра |
|||||||||||||||||
жением |
у = к у Х т', |
а |
зависимость |
объема |
условаря |
основ |
слов |
z |
от |
|||||||||||
объема |
словаря |
|
наименований2у, |
понятий |
— выражением |
z = k 2 |
у т‘ |
|||||||||||||
(ki, |
|
т и |
к2, |
т 2 |
— параметры). Тогда длина кода |
|
номераh =словосочеr a P \og2z, |
|||||||||||||
тания будет |
/i = log |
|
а средняя |
длина |
пословных |
кодов словосо |
||||||||||||||
четаний (если слова кодируются номерами их основ)k am |
— |
|
|
|
||||||||||||||||
где |
г |
ср — среднее количество слов в словосочетании. |
|
|
|
|
||||||||||||||
|
Среднее |
значение |
коэффициента сжатия |
|
|
при переходе |
от |
пословных кодов именных словосочетаний к их номерам по словарю наименований понятий определится как отношение величин 12 и l t:
|
|
|
|
|
|
|
|
|
, |
_ |
гср |
logg 2 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
еж - |
log2 У |
' |
|
у |
и |
|
z |
через |
х |
и произ |
|||
Выразив в полученной формуле величины |
|
|
|
|
|
||||||||||||||||||
ведя |
элементарные преобразования,( |
получим»logo К |
|
окончательно\ |
(16.9) |
||||||||||||||||||
|
|
|
kQm |
|
= |
Л* [ т 2 + |
1о2г ^ + |
|
log2х J . |
|
|||||||||||||
|
Величина |
|
К т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
изменяется в пределах от |
К при |
|
|
1 |
|
|
||||||||||||||
|
Ксж т іп = г срт2 |
|
|
|
|
|
|
10g2 К |
|
|
|
|
|||||||||||
до |
при |
1ср |
|
logs |
К |
X |
= |
|
|
||||||||||||||
|
|
|
|
|
|
X— >-оо. Полагая |
|
=А Ъ \ |
|
Оті=0,319;k cm* 2 =тах==6,54J |
|||||||||||||
m2=0,681; kr0pc ж |
=т2,92іп |
|
(см. пп. 4, |
6 табл. |
16.1 |
и |
п. |
|
4 |
табл. |
16.11), най |
||||||||||||
дем, |
что коэффициент |
сжатия |
изменяется |
|
в |
пределах от |
результаты |
||||||||||||||||
= 3,3 |
до |
|
|
|
= 2,0. |
Формула |
|
(16.9) |
дает хорошие |
||||||||||||||
при х>100. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
В. Определение коэффициента сжйтия информации |
|||||||||||||||||||||
|
Состав основных |
в фактографической |
И П С |
|
|
|
|
• |
|||||||||||||||
|
массивов |
фактографической |
И П С следующий: |
||||||||||||||||||||
|
1) массив |
|
сообщений |
(каждое |
|
сообщение |
состоит из |
|
кода объ |
екта, кода характеристики, кода значения характеристики и кода
отношения между элементами сообщения); |
|
для перевода |
сооб |
|||||
|
2) |
словарь |
наименований понятий (СНП ) |
|||||
щений |
с русского языка на информационный |
(наименования |
поня |
|||||
тий |
представлены в словаре в виде |
сочетаний |
номеров основ |
слов); |
||||
. |
3) |
классификационный |
словарь понятий |
(КСП ) — наименования |
||||
понятий представлены в словаре их номерами по С Н П ; |
|
|||||||
|
4) |
словарь |
основ слов |
(основы |
слов |
представлены в словаре |
впобуквенном коде);
5)словарь значений характеристик (значения характеристик представлены в побуквенном коде);
6)словарь наименований понятий для декодирования сообщений
(наименования понятий представлены сочетаниями номеров слово форм);
18* |
275 |