Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 136
Скачиваний: 3
|
|
|
|
|
|
|
|
|
|
|
П родолж ени& т а б л . 16.1 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
Относитель |
|
|
|
|
|
|
|
|
|
|
|
|
Параметры |
ные ошижи |
||
№ |
|
|
|
|
|
|
|
|
|
|
|
аппроксимации, |
||
|
|
|
Наименование |
|
|
|
|
|
|
%Мак |
||||
п/п |
|
|
|
|
|
|
|
k |
т |
сред« |
||||
|
|
|
|
|
|
|
|
|
|
|
няя |
сималь |
||
9 |
|
Зависимость |
объема |
|
словаря |
|
дес |
305,4 |
0,278 |
ная |
||||
|
|
|
3 |
7 ,6 |
||||||||||
|
|
крипторов от |
объема массива |
поиско |
|
|
|
|
||||||
|
|
вых |
образов |
документов (получена |
|
|
|
|
||||||
|
|
А . П . Веревченко по массиву объе |
|
|
|
|
||||||||
10 |
|
мом 18 000 поисковых |
образов |
доку |
|
|
|
|
||||||
! |
ментов) |
|
объема |
словаря |
слово |
6,86 |
0,586 |
4 |
9 |
|||||
|
Зависимость |
|||||||||||||
|
|
форм, |
встречающихся в значениях |
ха |
|
|
|
|
||||||
|
|
рактеристик, от объема |
массива |
|
эле |
|
|
|
|
|||||
|
|
ментарных сообщений |
фактографичес |
|
|
|
|
|||||||
|
|
кой |
И П С |
(получена |
|
по |
массиву |
|
|
|
|
|||
|
|
объемом |
17 690 сообщений) |
|
основ |
7,45 |
0,573 |
3,5 |
8 |
|||||
|
|
Зависимость |
объема |
словаря |
||||||||||
|
|
слов, |
встречающихся в |
|
значениях |
ха |
|
|
|
|
||||
|
|
рактеристик, от объема |
|
массива |
|
эле |
|
|
|
|
||||
|
|
ментарных сообщений |
в фактографи |
|
|
|
|
|||||||
12 |
|
ческой |
И П С |
(получена |
по |
массиву |
|
|
|
|
||||
|
|
объемом |
17 690 сообщений) |
|
|
|
3,88 |
0,822 |
3 |
8 |
||||
|
|
Зависимость объема словаря слово |
||||||||||||
|
|
форм от объема словаря значений |
ха |
|
|
|
|
|||||||
|
|
рактеристик |
(получена |
|
по |
словарю |
|
|
|
|
||||
13 |
|
объемом |
2400 значений характеристик) |
3,99 |
0,814 |
3,5 |
10 |
|||||||
|
Зависимость объема |
словаря |
основ |
|||||||||||
|
|
слов от объема словаря |
|
значений |
ха |
|
|
|
|
|||||
|
|
рактеристик |
(получена |
|
по |
словарю |
|
|
|
|
||||
|
|
объемом |
2400 значений характеристик) |
|
|
|
|
|||||||
ксимировать такие распределения, |
которые на графике |
приобретают вид линейной функции, если по оси абсцисс откладывать величины \пх, а по оси ординат — величи ны 1п{—1п[1—/Дл:)]}.
В табл. 16.1 и 16.2 приведены значения параметров формул (16.1) и (16.2) для ряда случайных функций и распределений, полученных эмпирически. Даны оценки точности аппроксимации. В табл. 16.3—16.10 для некото рых случайных функций и распределений приведены исходные данные, по которым определялись параметры формул (16.1), (16.2). Средние значения случайных ве личин приведены в табл. 16.11.
267
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
16.2 |
|
|
|
|
|
|
е л е н и я |
а п п роксим ируем ы е аналит ическим |
|
||||||||||
|
|
Р а с а р е д |
вы раж ением, |
|
вида |
F ( x ) = \ |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
—e' |
|
Относитель |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Параметры |
ные ошибки |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
аппроксимации, |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
п/п |
|
|
|
Наименование |
|
|
|
|
|
|
|
сред' %макси |
|||||
№ |
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
т |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
няя |
маль |
||
1 |
Распределение |
частот |
|
появле |
0,0607 |
0,405 |
ная |
||||||||||
|
— |
1 |
|||||||||||||||
|
ния словоформ |
в текстах (получе |
|
|
|
|
|||||||||||
|
но по неформализованным |
текстам |
|
|
|
|
|||||||||||
|
объемом |
500 000 |
слов) |
|
|
|
|
|
|
0,386 |
|
1 |
|||||
2 |
Распределение частот |
появления |
0,1129 |
|
|||||||||||||
|
основ слов |
в |
текстах |
(получено |
|
|
|
|
|||||||||
|
по |
неформализованным |
|
текстам |
|
|
|
|
|||||||||
3 -■ |
объемом |
500 000 |
слов) |
|
|
|
|
|
|
'0,692 |
1 |
о- |
|||||
Распределение частот появления |
0,0208 |
||||||||||||||||
|
словоформ в |
именных |
словосоче |
|
|
|
|
||||||||||
|
таниях (получено по словарю сло |
|
|
|
|
||||||||||||
4 |
восочетаний |
объемом 30 000 |
слов) |
|
0,807 |
1 |
9 |
||||||||||
Распределение |
частот появления |
0,0192 |
|||||||||||||||
|
основ слов в именных словосоче |
|
|
|
|||||||||||||
|
таниях |
(получено |
по словарю |
|
объ |
|
|
|
|
||||||||
5 |
емом 30 000 слов) |
|
|
|
|
|
|
|
2,792 |
3,2 |
8 |
||||||
Распределение |
длин |
словоформ |
0,00156 |
||||||||||||||
|
в словаре |
(получено |
по |
словарю |
|
|
|
|
|||||||||
6 |
объемом |
30 000 словоформ) |
слов |
|
2,689 |
3,87 |
9,7 |
||||||||||
Распределение |
длин основ |
0,00305 |
|||||||||||||||
|
в словаре (получено |
по |
словарю |
|
|
|
|||||||||||
7 |
объемом |
8000 основ слов) |
именных |
|
1,48 |
2,77 |
16 |
||||||||||
Распределение |
длин |
|
0,119 |
||||||||||||||
|
словосочетаний |
(получено |
|
по сло |
|
|
|
||||||||||
|
варю, |
включающему |
11 635 слово |
|
|
|
|
||||||||||
8 |
сочетаний) |
|
|
числа |
подчинен |
|
0,445 |
|
3 |
||||||||
Распределение |
0,502 |
|
|||||||||||||||
|
ных понятий в тезаурусе (получе |
|
|
|
|||||||||||||
|
но по |
классификационному |
слова |
|
|
|
|
||||||||||
|
рю, |
|
построенному |
на |
|
основе |
|
|
|
|
|||||||
9 |
11 635 понятий |
тезауруса) |
|
|
сим |
0,265 |
0,736 |
1,55 |
13,4 |
||||||||
Распределение |
количества |
||||||||||||||||
|
волов в |
буквенных |
кодах |
значе |
|
|
|
|
|||||||||
|
ний |
характеристик |
(получено |
по |
|
|
|
|
|||||||||
|
массиву |
17 690 сообщений) |
|
|
|
|
|
|
263
|
|
|
|
|
|
|
|
|
|
П р о д о л ж ен и е т а б л . 16.2 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
Относитель |
|
|
|
|
|
|
|
|
|
|
|
Параметры |
ные ошибки |
||
|
|
|
|
|
|
|
|
|
|
аппроксимации, |
|||
|
|
|
|
|
|
|
|
|
|
|
|
||
№ |
|
|
Наименование |
|
|
|
k |
т |
Сред- |
%макси |
|||
п/п |
|
|
|
|
|
|
|
|
|
маль |
|||
|
|
|
|
|
|
|
|
|
|
|
|
няя |
ная |
10 |
Распределение |
количества |
слов |
1,07 |
0,653 |
0 ,6 |
7,4 |
||||||
|
в значениях |
характеристик |
(полу |
|
|
|
|
||||||
|
чено по массиву |
объемом |
17 690 |
|
|
|
|
||||||
|
сообщений) |
|
|
|
|
|
|
|
0,40 |
1,02 |
2 .4 . |
10 |
|
11 |
Распределение |
количества |
слов |
||||||||||
|
в значениях |
характеристик |
(полу |
|
|
|
|
||||||
|
чено по |
словарю |
объемом |
2350 |
|
|
|
|
|||||
12 |
значений характеристик) |
|
|
|
0,0191 |
1,53 |
11,7 |
|
|||||
Распределение количества симво |
|
||||||||||||
|
лов в буквенных кодах значений |
|
|
|
|
||||||||
|
характеристик |
(получено |
по |
сло |
|
|
|
|
|||||
|
варю объемом |
2350 значений ха |
|
|
|
|
|||||||
13 |
рактеристик) |
|
длин |
словоформ |
0,254 |
1,108 |
1,6 |
4 |
|||||
Распределение |
|||||||||||||
|
в массиве значений |
характеристик |
|
|
|
|
|||||||
|
(получено |
по |
массиву |
объемом |
|
|
|
|
|||||
14 |
17 690 сообщений) |
|
|
|
|
0,163 |
0,403 |
4,4 |
8 ,7 |
||||
Распределение |
частот появления |
||||||||||||
|
значений |
характеристик |
в массиве |
|
|
|
|
||||||
|
сообщений |
Ф И П С |
(объем |
выбор |
|
|
|
|
|||||
15 |
ки 17 690 элементов) |
появления |
0,1452 |
0,920 |
3 |
11,8 |
|||||||
Распределение частот |
|||||||||||||
|
флективных классов слов в тексте |
|
|
|
|
||||||||
|
(получено |
по |
|
тексту |
объемом |
|
|
|
|
||||
16 |
500 000 слов) |
|
|
|
|
|
|
0,1482 |
0,916 |
2,8 |
15 |
||
Распределение,частот появления |
|||||||||||||
|
флективных классов слов в слова |
|
|
|
|
||||||||
|
ре основ (получено по словарю |
|
|
|
|
||||||||
17 |
объемом |
5 000 основ слов) |
появле |
|
|
|
|
||||||
Распределение |
|
частот |
0,314 |
0,640 |
2,9 |
'9 |
|||||||
|
ния в текстах |
различных |
наборов |
||||||||||
|
грамматической информации к сло |
|
|
|
|
||||||||
|
вам (получено по тексту объемом |
|
|
|
|
||||||||
18 |
500 000 слов) |
|
букв |
в |
текстах |
0,097 |
1,122 |
3,5 |
7,6 |
||||
Распределение |
|||||||||||||
|
(получено |
йо |
|
текстам |
объемом |
|
|
|
|
30 000 слов)
269
|
|
|
|
|
|
Т а б л и ц а 1 6 .3 |
||
|
Зависим ост ь |
объема |
сл о в а р я |
словоф орм и |
сл о в а р я |
|||
основ |
слов от |
объем а |
сл о в а р я |
наименований |
понят ий |
|||
Объем |
|
Объем |
|
(С Н П ) |
Объем |
Объем |
Объем слова |
|
|
словаря |
Объем слова |
словаря |
|||||
^СНП |
|
ря основ слов |
СНП |
ря основ слов |
||||
|
словоформ |
словоформ |
||||||
500 |
|
527 |
436 |
6500 |
4367 |
|
2665 |
|
1000 |
|
918 |
686 |
7000 |
4654 |
|
2811 |
|
1500 |
|
1292 |
922 |
7500 |
4872 |
|
2922 |
|
2000 |
|
1717 |
1187 |
8000 |
5033 |
|
2995 |
|
2500 |
4 |
1989 |
1356 |
8500 |
5232 |
|
3095 |
|
3000 |
2333 |
1571 |
90С0 |
5394 |
|
3172 |
||
3500 |
|
2672 |
1747 |
9500 |
5633 |
|
3305 |
|
4000 |
|
2942 |
1908 |
10000 |
5862 |
|
3416 |
|
4500 |
|
3282 |
2116 |
10500 |
6091 |
|
3527 |
|
5000 |
|
3596 |
2276 |
11000 |
6160 |
|
2552 |
|
5500 |
|
3837 |
2378 |
11500 |
6251 |
|
3596 |
|
6000 |
|
4032 |
2515 |
11620 |
6283 . |
3612 |
Следует оговорить, что при описании распределений элементов сообщений с помощью формулы (16.2) эти элементы располагаются по убыванию частот их появле ния в выборке. Затем каждому элементу присваивается его порядковый номер, который в дальнейшем рассма тривается в качестве случайной величины.
Покажем на нескольких примерах, как полученные нами аналитические выражения для эмпирических функ ций могут быть использованы для решения ряда задач, возникающих при проектировании АИС.
Т а б л и ц а 16.4
Зави си м ост ь |
объем а |
сл о в а р я |
наим енований понят ий |
||||
от |
объема |
массива |
элем ент арны х, |
сообщ ений |
в |
||
|
|
|
ф акт ограф ической И П С |
|
|
||
Объем мас |
Объем |
Объем мас |
Объем |
Объем мас |
Объем |
||
сива сообще |
словаря |
сива сообще |
словаря |
сива сообще |
словаря |
||
ний |
ний |
ний |
|||||
100 |
164 |
|
|
6000 |
713 |
14000 |
933 |
500 |
361 |
|
|
7000 |
751 |
15000 |
956 |
1000 |
444 |
|
|
8000 |
789 |
16000 |
973 |
1500 |
501 |
|
|
9000 |
819 |
17000 |
989 |
2000 |
542 |
|
10000 |
845 |
17600 |
996 |
|
3000 |
596 |
|
11000 |
867 |
17690 |
1002 |
|
4000 |
637 |
|
12000 |
894 |
— |
— |
|
5000 |
670 |
|
13000 |
913 |
|
|
2 7 0