Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 136

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

 

 

 

 

 

 

 

 

П родолж ени& т а б л . 16.1

 

 

 

 

 

 

 

 

 

 

 

 

 

Относитель­

 

 

 

 

 

 

 

 

 

 

 

Параметры

ные ошижи

 

 

 

 

 

 

 

 

 

 

 

аппроксимации,

 

 

 

Наименование

 

 

 

 

 

 

%Мак­

п/п

 

 

 

 

 

 

 

k

т

сред«

 

 

 

 

 

 

 

 

 

 

 

няя

сималь­

9

 

Зависимость

объема

 

словаря

 

дес­

305,4

0,278

ная

 

 

 

3

7 ,6

 

 

крипторов от

объема массива

поиско­

 

 

 

 

 

 

вых

образов

документов (получена

 

 

 

 

 

 

А . П . Веревченко по массиву объе­

 

 

 

 

10

 

мом 18 000 поисковых

образов

доку­

 

 

 

 

!

ментов)

 

объема

словаря

слово­

6,86

0,586

4

9

 

Зависимость

 

 

форм,

встречающихся в значениях

ха­

 

 

 

 

 

 

рактеристик, от объема

массива

 

эле­

 

 

 

 

 

 

ментарных сообщений

фактографичес­

 

 

 

 

 

 

кой

И П С

(получена

 

по

массиву

 

 

 

 

 

 

объемом

17 690 сообщений)

 

основ

7,45

0,573

3,5

8

 

 

Зависимость

объема

словаря

 

 

слов,

встречающихся в

 

значениях

ха­

 

 

 

 

 

 

рактеристик, от объема

 

массива

 

эле­

 

 

 

 

 

 

ментарных сообщений

в фактографи­

 

 

 

 

12

 

ческой

И П С

(получена

по

массиву

 

 

 

 

 

 

объемом

17 690 сообщений)

 

 

 

3,88

0,822

3

8

 

 

Зависимость объема словаря слово­

 

 

форм от объема словаря значений

ха­

 

 

 

 

 

 

рактеристик

(получена

 

по

словарю

 

 

 

 

13

 

объемом

2400 значений характеристик)

3,99

0,814

3,5

10

 

Зависимость объема

словаря

основ

 

 

слов от объема словаря

 

значений

ха­

 

 

 

 

 

 

рактеристик

(получена

 

по

словарю

 

 

 

 

 

 

объемом

2400 значений характеристик)

 

 

 

 

ксимировать такие распределения,

которые на графике

приобретают вид линейной функции, если по оси абсцисс откладывать величины \пх, а по оси ординат — величи­ ны 1п{—1п[1—/Дл:)]}.

В табл. 16.1 и 16.2 приведены значения параметров формул (16.1) и (16.2) для ряда случайных функций и распределений, полученных эмпирически. Даны оценки точности аппроксимации. В табл. 16.3—16.10 для некото­ рых случайных функций и распределений приведены исходные данные, по которым определялись параметры формул (16.1), (16.2). Средние значения случайных ве­ личин приведены в табл. 16.11.

267


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

16.2

 

 

 

 

 

е л е н и я

а п п роксим ируем ы е аналит ическим

 

 

 

Р а с а р е д

вы раж ением,

 

вида

F ( x ) = \

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

—e'

 

Относитель­

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметры

ные ошибки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

аппроксимации,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

п/п

 

 

 

Наименование

 

 

 

 

 

 

 

сред­' %макси­

 

 

 

 

 

 

 

 

 

 

 

 

 

k

т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

няя

маль­

1

Распределение

частот

 

появле­

0,0607

0,405

ная

 

1

 

ния словоформ

в текстах (получе­

 

 

 

 

 

но по неформализованным

текстам

 

 

 

 

 

объемом

500 000

слов)

 

 

 

 

 

 

0,386

 

1

2

Распределение частот

появления

0,1129

 

 

основ слов

в

текстах

(получено

 

 

 

 

 

по

неформализованным

 

текстам

 

 

 

 

3 -■

объемом

500 000

слов)

 

 

 

 

 

 

'0,692

1

о-

Распределение частот появления

0,0208

 

словоформ в

именных

словосоче­

 

 

 

 

 

таниях (получено по словарю сло­

 

 

 

 

4

восочетаний

объемом 30 000

слов)

 

0,807

1

9

Распределение

частот появления

0,0192

 

основ слов в именных словосоче­

 

 

 

 

таниях

(получено

по словарю

 

объ­

 

 

 

 

5

емом 30 000 слов)

 

 

 

 

 

 

 

2,792

3,2

8

Распределение

длин

словоформ

0,00156

 

в словаре

(получено

по

словарю

 

 

 

 

6

объемом

30 000 словоформ)

слов

 

2,689

3,87

9,7

Распределение

длин основ

0,00305

 

в словаре (получено

по

словарю

 

 

 

7

объемом

8000 основ слов)

именных

 

1,48

2,77

16

Распределение

длин

 

0,119

 

словосочетаний

(получено

 

по сло­

 

 

 

 

варю,

включающему

11 635 слово­

 

 

 

 

8

сочетаний)

 

 

числа

подчинен­

 

0,445

 

3

Распределение

0,502

 

 

ных понятий в тезаурусе (получе­

 

 

 

 

но по

классификационному

слова­

 

 

 

 

 

рю,

 

построенному

на

 

основе

 

 

 

 

9

11 635 понятий

тезауруса)

 

 

сим­

0,265

0,736

1,55

13,4

Распределение

количества

 

волов в

буквенных

кодах

значе­

 

 

 

 

 

ний

характеристик

(получено

по

 

 

 

 

 

массиву

17 690 сообщений)

 

 

 

 

 

 

263


 

 

 

 

 

 

 

 

 

 

П р о д о л ж ен и е т а б л . 16.2

 

 

 

 

 

 

 

 

 

 

 

 

Относитель­

 

 

 

 

 

 

 

 

 

 

Параметры

ные ошибки

 

 

 

 

 

 

 

 

 

 

аппроксимации,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Наименование

 

 

 

k

т

Сред-

%макси­

п/п

 

 

 

 

 

 

 

 

 

маль­

 

 

 

 

 

 

 

 

 

 

 

 

няя

ная

10

Распределение

количества

слов

1,07

0,653

0 ,6

7,4

 

в значениях

характеристик

(полу­

 

 

 

 

 

чено по массиву

объемом

17 690

 

 

 

 

 

сообщений)

 

 

 

 

 

 

 

0,40

1,02

2 .4 .

10

11

Распределение

количества

слов

 

в значениях

характеристик

(полу­

 

 

 

 

 

чено по

словарю

объемом

2350

 

 

 

 

12

значений характеристик)

 

 

 

0,0191

1,53

11,7

 

Распределение количества симво­

 

 

лов в буквенных кодах значений

 

 

 

 

 

характеристик

(получено

по

сло­

 

 

 

 

 

варю объемом

2350 значений ха­

 

 

 

 

13

рактеристик)

 

длин

словоформ

0,254

1,108

1,6

4

Распределение

 

в массиве значений

характеристик

 

 

 

 

 

(получено

по

массиву

объемом

 

 

 

 

14

17 690 сообщений)

 

 

 

 

0,163

0,403

4,4

8 ,7

Распределение

частот появления

 

значений

характеристик

в массиве

 

 

 

 

 

сообщений

Ф И П С

(объем

выбор­

 

 

 

 

15

ки 17 690 элементов)

появления

0,1452

0,920

3

11,8

Распределение частот

 

флективных классов слов в тексте

 

 

 

 

 

(получено

по

 

тексту

объемом

 

 

 

 

16

500 000 слов)

 

 

 

 

 

 

0,1482

0,916

2,8

15

Распределение,частот появления

 

флективных классов слов в слова­

 

 

 

 

 

ре основ (получено по словарю

 

 

 

 

17

объемом

5 000 основ слов)

появле­

 

 

 

 

Распределение

 

частот

0,314

0,640

2,9

'9

 

ния в текстах

различных

наборов

 

грамматической информации к сло­

 

 

 

 

 

вам (получено по тексту объемом

 

 

 

 

18

500 000 слов)

 

букв

в

текстах

0,097

1,122

3,5

7,6

Распределение

 

(получено

йо

 

текстам

объемом

 

 

 

 

30 000 слов)

269



 

 

 

 

 

 

Т а б л и ц а 1 6 .3

 

Зависим ост ь

объема

сл о в а р я

словоф орм и

сл о в а р я

основ

слов от

объем а

сл о в а р я

наименований

понят ий

Объем

 

Объем

 

(С Н П )

Объем

Объем

Объем слова­

 

словаря

Объем слова­

словаря

^СНП

 

ря основ слов

СНП

ря основ слов

 

словоформ

словоформ

500

 

527

436

6500

4367

 

2665

1000

 

918

686

7000

4654

 

2811

1500

 

1292

922

7500

4872

 

2922

2000

 

1717

1187

8000

5033

 

2995

2500

4

1989

1356

8500

5232

 

3095

3000

2333

1571

90С0

5394

 

3172

3500

 

2672

1747

9500

5633

 

3305

4000

 

2942

1908

10000

5862

 

3416

4500

 

3282

2116

10500

6091

 

3527

5000

 

3596

2276

11000

6160

 

2552

5500

 

3837

2378

11500

6251

 

3596

6000

 

4032

2515

11620

6283 .

3612

Следует оговорить, что при описании распределений элементов сообщений с помощью формулы (16.2) эти элементы располагаются по убыванию частот их появле­ ния в выборке. Затем каждому элементу присваивается его порядковый номер, который в дальнейшем рассма­ тривается в качестве случайной величины.

Покажем на нескольких примерах, как полученные нами аналитические выражения для эмпирических функ­ ций могут быть использованы для решения ряда задач, возникающих при проектировании АИС.

Т а б л и ц а 16.4

Зави си м ост ь

объем а

сл о в а р я

наим енований понят ий

от

объема

массива

элем ент арны х,

сообщ ений

в

 

 

 

ф акт ограф ической И П С

 

 

Объем мас­

Объем

Объем мас­

Объем

Объем мас­

Объем

сива сообще­

словаря

сива сообще­

словаря

сива сообще­

словаря

ний

ний

ний

100

164

 

 

6000

713

14000

933

500

361

 

 

7000

751

15000

956

1000

444

 

 

8000

789

16000

973

1500

501

 

 

9000

819

17000

989

2000

542

 

10000

845

17600

996

3000

596

 

11000

867

17690

1002

4000

637

 

12000

894

5000

670

 

13000

913

 

 

2 7 0