Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 134

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

 

Т а б л и ц а 1 6 .5

Зависим ост ь объем а сл о в а р я

зн а ч ен и й

ха р а к т ер и ст и к

от

объем а

массива эл ем ен т а р н ы х

сообщ ений

 

 

в

ф акт ограф ической И П С

 

Объем мас­

Объем

Объем мас­

Объем

Объем мас­

Объем

сива сообще­

словаря

сива сообще­

словаря

сива сообще­

словаря

ний

ний

ний

1608

500

177

6500

1004

12500

1000

275

7000

1047

13000

1654

1500

342

7500

1090

13500

1708

2000

436

8000

1137

14000

1773

2500

514

8500

1189

14500

1871

3000

589

9000

1260

15000

1963

3500

643

9500

1341

15500

2041

4000

720

10000

1396

16000

2113

4500

824

10500

1453

16500

2160

5000

867

11000

1498

17000

2240

5500

908

11500

1522

17500

2280

6000

945

12000

1557

18000

2350

А. Определение объема памяти, необходимой для записи массива кодов переменной длины

Будем исходить из следующих предположений:

1.Известно максимальное количество п символов кода, которое может быть записано в одной ячейке памяти. ЭВМ .

2.Каждый код записывается с начала ячейки и при необхо­ димости размещается в нескольких соседних ячейках. При этом последняя ячейка может быть заполнена не до конца.

3.Разделительные знаки между кодами учитываются при опре­ делении количества символов п, размещаемых в одной ячейке (они могут быть учтены также отдельно).

Т а б л и ц а 16.6

Зависим ост ь

объем а

классиф икационного сл о в а р я

)

п он я т и й К С П

от объем а сл о в а р я

наим енований

п онят и й

(объем

К С П

и зм ер я е т ся числом кодов

п о н я т и й

(

)

 

 

 

 

Объем

Объем

Объем

Объем

Объем

Объем

снп

КСП

СНП

КСП

СНП

КСП

500

1548

 

4500

14235

8500

29002

1000

2807

 

5000

15000

9000

35771

1500

3937

 

5500

16909

9500

38901

2000

6172

 

6000

19218

10000

41627

2500

7772

 

6500

20311

10500

45720

3000

9614

 

7000

22147

11000

48367

3500

10483

 

7500

23433

11500

51478

4000

12707

 

8000

27739

11635

53041

271


 

 

 

 

 

 

 

 

Т а б л и ц а

16.7

Р а сп р ед ел ен и е

словоф орм

и основ слов в им енны х

 

 

сл овосочет ан иях (объем

вы борки

30000 сл ов)*

 

 

 

 

 

F ( x )

 

 

 

 

 

F ( x )

 

 

 

X

 

 

Основы

X

 

Словоформы

Основы

Словоформы

слов

 

 

 

слов

1

0,016

 

0,018

800

 

 

0,879

 

0,969

10

0,111

 

0,145

900

 

 

0,895

 

0,977

20

0,185

 

0,241

1000

 

0,909

 

0,983

30

0,237

 

0,312

1100

 

0,919

 

0 ,9S6

40

0,287

 

0,374

1200

 

0,930

 

0,989

50

0,329

 

0,422

1300

 

0,937

 

0,997

100

0,478

 

0; 613

1450

 

 

 

1,000

200

0,628

 

0,783

1500

 

0,951

 

 

300

0,710

 

0,859

2000

 

 

0,968

 

 

400

0,763

 

0,909

2500

 

0,991

 

 

 

 

 

 

500

0,805

 

0,931

2687

 

 

1,000

 

 

700

0,861

 

0,962

 

 

 

 

 

* Здесь X —порядковый номер словарной

единицы

при

расположении

словарных

единиц по убыванию частот; F(*)—относительная

накопленная частота.

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

16.8

Р а сп р ед ел ен и е длин словоф орм

и основ

слов в сл овар е

 

Длина

 

Вероятность появления

Длина

 

Вероятность появления

 

словарной единицы

 

словарной‘ единицы

словарной

заданной длины

словарной

 

заданной длины

единицы

 

 

единицы

 

 

 

 

 

(количество

слово­

основы

(количество

 

слово­

 

ОСНОВЫ

букв)

 

формы

слов

букв)

 

 

формы

 

СЛОВ

1

 

0,0009

0,0010

.

17

 

 

0,0114

 

0,0045

2

 

0,0026

0,0063

18

 

 

0,0090

 

0,0027

3

 

0,0108

0,0315

'

19

 

 

0,0042

 

0,0030

4

 

0,0266

0,0649

 

20

 

 

0,0027

 

0,0027

5

 

0,0586

0,0951

 

21

 

 

0,0029

 

0,0010

6

 

0,0904

0,1242

 

22

 

 

0,0030

 

0,0008

7

-

0,1110

0,1304

 

23

 

 

0,0031

 

0,0001

8

 

0,1220

0,1392

 

24

 

 

 

 

0,0003

9

 

0,1207

0,1199

 

 

 

 

0,0011

 

0,0004

10

 

0,1135

0,0872

 

26

 

 

. 00,0005,0 0 ГО

 

0,0004

12

 

0,0971

0,0648

 

2527

 

 

0,0004

 

0,0004

 

0,0702

0,0456

 

28

 

 

0,0004

 

 

 

1113

 

 

 

 

 

 

14

 

0,0522

0,0336

 

29

 

 

0,0003

 

0,0001

 

0,0381

0,0200

 

30

 

 

0,0003

 

 

15

 

0,0284

0,0132

 

31

 

 

0,0002

 

 

16

 

0,0173

0,0094

 

32

 

 

0,0001

 

 

272


Т а б л и ц а 16.9

Р а сп р ед ел ен и е дл ин им енны х сл овосочет ан ий в сл овар е

Длина слово­

Вероятность появления

Длина словосоче­

Вероятность появления

сочетания

(количество

словосочетаний

тания (количество

словосочетаний

слов)

заданной длины

слов)

заданной длины

1

0,06108

7

0,00923

2

0,40164

8

0,00422

3

0,27810

9

0,00371

4

0,14243

10

0,00033

5

0,07290

11

0,00009

6

0,02827

--- '

4.

Распределение длин кодов описывается

Р і

формулой (16.2)

(см. тш.

5— 13 табл. 16.2).

 

выполнения

Из

формулы (16.2) следует, что вероятность

 

условия

определяется выражением

 

 

P t

 

F

 

F

 

-fcef

 

- к х

?

 

 

 

 

 

 

 

п ),

[п, п ),

[2п,

 

=

х ,

(х2) —

(Xj) =

е 1 — е

2 .

 

 

 

 

полуинтервалов

(0,

 

2

 

Зга)...

Для последовательных

 

 

изменения величины

 

 

с

 

 

 

 

 

 

 

 

 

Р

соответствующих случаям записи кодов в од­

ной, двух, трех и т. д. ячейках памяти, получим последовательность

значений вероятности

 

 

 

 

-к(п)т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р г =

е— fe(«)m _

e-fe(2ra)m >

 

(16.6)

 

 

р

г =

е—k

( 2 n ) m _

e-ft(3ra)m>

 

 

 

 

 

 

 

Т а б л и ц а 16.10

Р аспределение числа подчиненны х понятий в тезаурусе

Количество

Относительная накоп­

Количество

Относительная накоп­

подчиненных

подчиненных

ленная частота

ленная частота

понятий

понятий

 

 

 

 

1

0,331

25

0,891

2

0,482

30

 

0,905

3

0,564

40

 

0,928

4

0,621

50

 

0,940

5

0,666

70

 

0,958

6

0,723

100

 

0,972

10

0,780

150

 

0 ,983

15

0,837

1347

 

1,000

20

0,872

 

18— 310

273


п№

/п

1

2

3

4

5

6

7

8

9

10

11

 

 

 

 

 

Т а б л и ц а

16.11

Н ек о т о р ы е

числовые ха ракт ери ст ики

элем ент ов

 

инф орм ационны х массивов

 

 

Наименование

 

Значение характери­ стики

Примечание

 

Средняя длина слова в неформали­

6,67

 

 

зованных текстах

(в буквах без учета

 

 

 

пробелов между

словами)

в ело-

9,56

С м . п. 5 табл.

16.2

Средняя длина

словоформы

варе (в буквах)

 

 

 

8,20

См. п. 6 табл. 16.2

Средняя длина основы слова в

словаре (в буквах)

 

 

2,92

См. п. 7 табл.

16.2

Средняя длина именного словосоче-

танин в словаре (в словах)

 

4,25

С м . п. 8 табл.

16.2

Среднее число подчиненных понятий

в классификационном

словаре

(коли­

 

 

 

чество подчиненных

понятий,

прихо­

 

 

 

дящихся на один термин тезауруса)

7,25

См. п. 9 табл.

16.2

Средняя длина значения характери-

стики в массиве сообщений Ф И П С (в

 

 

 

символах)

 

 

 

12,6

См. п. ^ т а б л .

16.2

Средняя длина значения характери-

стики по словарю (в символах)

1,87

См. п. 10 табл.

16-.2

Среднее число слов в значении

характеристики по тексту

 

3,1

См . п. 11 табл. 16.2

Среднее число слов в значении

характеристики по словарю

в мае-

3,9

С м . п. 13 табл. 16.2

Средняя длина

словоформы

сиве значений характеристик

(в сим­

 

 

 

волах)

 

 

 

4 ,3

 

Средняя длина словоформы в слова­

 

ре значений характеристик (в симво­

 

 

 

лах)

 

 

 

 

 

 

В среднем один код будет записываться в /Ср ячейках памяти:

00

 

 

/ер = £ ‘‘- Л

(16.7)

Подставляя в (16.7) вместо* Р,-

1=0

части

формул (16.6), полу­

правые

чим

 

/ер = 2

 

 

 

(16.8>

Окончательно объем

 

1=0

из

 

кодов

определится выраже­

ѵ

массива

W

 

 

 

 

 

нием v = W lcр.

274


 

 

 

Б. Определение среднего значения коэффициента

 

 

 

 

 

сжатия именных словосочетаний при переходе

 

 

 

 

 

 

от их

пословных

кодов

к порядковым номерам

 

 

 

 

 

 

 

 

 

по

словарю

наименований понятий

 

понятий

у

от

Пусть зависимость

объема

словаря

наименований

 

количества формализованных

сообщений

х

определяется выра­

жением

у = к у Х т',

а

зависимость

объема

условаря

основ

слов

z

от

объема

словаря

 

наименований2у,

понятий

— выражением

z = k 2

у т‘

(ki,

 

т и

к2,

т 2

— параметры). Тогда длина кода

 

номераh =словосоче­r a P \og2z,

тания будет

/i = log

 

а средняя

длина

пословных

кодов словосо­

четаний (если слова кодируются номерами их основ)k am

 

 

 

где

г

ср — среднее количество слов в словосочетании.

 

 

 

 

 

Среднее

значение

коэффициента сжатия

 

 

при переходе

от

пословных кодов именных словосочетаний к их номерам по словарю наименований понятий определится как отношение величин 12 и l t:

 

 

 

 

 

 

 

 

 

,

_

гср

logg 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

еж -

log2 У

'

 

у

и

 

z

через

х

и произ­

Выразив в полученной формуле величины

 

 

 

 

 

ведя

элементарные преобразования,(

получим»logo К

 

окончательно\

(16.9)

 

 

 

kQm

 

=

Л* [ т 2 +

1о2г ^ +

 

log2х J .

 

 

Величина

 

К т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

изменяется в пределах от

К при

 

 

1

 

 

 

Ксж т іп = г срт2

 

 

 

 

 

 

10g2 К

 

 

 

 

до

при

1ср

 

logs

К

X

=

 

 

 

 

 

 

 

 

X— >-оо. Полагая

 

=А Ъ \

 

Оті=0,319;k cm* 2 =тах==6,54J

m2=0,681; kr0pc ж

=т2,92іп

 

(см. пп. 4,

6 табл.

16.1

и

п.

 

4

табл.

16.11), най­

дем,

что коэффициент

сжатия

изменяется

 

в

пределах от

результаты

= 3,3

до

 

 

 

= 2,0.

Формула

 

(16.9)

дает хорошие

при х>100.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В. Определение коэффициента сжйтия информации

 

Состав основных

в фактографической

И П С

 

 

 

 

 

массивов

фактографической

И П С следующий:

 

1) массив

 

сообщений

(каждое

 

сообщение

состоит из

 

кода объ­

екта, кода характеристики, кода значения характеристики и кода

отношения между элементами сообщения);

 

для перевода

сооб­

 

2)

словарь

наименований понятий (СНП )

щений

с русского языка на информационный

(наименования

поня­

тий

представлены в словаре в виде

сочетаний

номеров основ

слов);

.

3)

классификационный

словарь понятий

(КСП ) — наименования

понятий представлены в словаре их номерами по С Н П ;

 

 

4)

словарь

основ слов

(основы

слов

представлены в словаре

впобуквенном коде);

5)словарь значений характеристик (значения характеристик представлены в побуквенном коде);

6)словарь наименований понятий для декодирования сообщений

(наименования понятий представлены сочетаниями номеров слово­ форм);

18*

275