Файл: Конспект лекций Казань 2017 2 Модуль Компьютерные технологии первичной.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.10.2024

Просмотров: 10

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Министерство образования и науки Российской Федерации
КАЗАНСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ им. А.Н. ТУПОЛЕВА
Кафедра прикладной математики и информатики им. Ю.В. Кожевникова
Н.Е. РОДНИЩЕВ, С.Н. МЕДВЕДЕВА
Информационные технологии обработки экспериментальных данных
Конспект лекций
Казань 2017

2
Модуль 1.
Компьютерные технологии первичной
обработки статистической информации
Тема 1.2. Описательная (дескриптивная) статистика
Основные понятия математической статистики
Математическая статистика занимается статистическим анализом результатов опытов или наблюдений, а также построением и проверкой подходящих математических моделей процессов и систем на основе результатов экспериментов.
Статистический анализ и построение вероятностных моделей процессов и систем основаны на том, что измеряемые в процессе опыта или наблюдений физические (или иного смысла) величины X , характеризующие исследуемый процесс или систему, при повторении опытов подвержены некоторому неконтролируемому разбросу
n
x
x
x
,...,
,
2 1
. Этот разброс обусловлен главным образом действием случайных неучтенных факторов и ошибками измерений. Поэтому величина X рассматривается как одномерная случайная величина, а результаты измерения
n
x
x
x
,...,
,
2 1
этой величины, называемые в математической статистике ее основными признаками, –как эмпирическая реализация этого математического понятия.
Совокупность всех мыслимых значений, которые может принимать величина X при данном реальном комплексе условий, называют генеральной
совокупностью. Распределение признака X в генеральной совокупности совпадает с теоретическим распределением вероятностной величины X.
Последнее называется распределением генеральной совокупности, а его параметры – параметрами генеральной совокупности.

3
Генеральная совокупность может быть конечной (всего N мыслимых наблюдений) и бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых значений.
Выборка из данной генеральной совокупности – это результаты ограниченного ряда наблюдений
n
x
x
x
,...,
,
2 1
значений случайной величины
X.
Таким образом, выборку можно рассматривать как некий эмпирический аналог генеральной совокупности. На практике при исследованиях мы чаще всего имеем дело с выборками, поскольку обследование всей генеральной совокупности бывает слишком трудоемко (когда n – достаточно большое число), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).
Число n наблюдений, образующих выборку, называют объемом
выборки.
Разность между наибольшим и наименьшим значениями
i
x
)
,...,
1
(
n
i

из выборки называется размахом выборки.
Каждая выборка
n
x
x
x
,...,
,
2 1
значений X представляет собой, вообще говоря, случайную выборку из теоретически бесконечной генеральной
совокупности. Поэтому выборочные значения
n
x
x
x
,...,
,
2 1
признака X рассматривают также как реализации независимых случайных величин
n
X
X
X
,...,
,
2 1
, распределение признаков которых
)
,...,
1
(
n
i
X
i

в генеральной совокупности совпадает с теоретическим распределением вероятностной величины X. В этом случае
n
X
X
X
,...,
,
2 1
представляют собой взаимно
независимые случайные величины с одинаковой плотностью распределения
p(x) случайной величины X. К основным задачам математической статистики относятся:

определение закона распределения основного признака (наблюдаемой случайной величины);


4

нахождение оценок неизвестных параметров распределений и оценок числовых характеристик случайной величины;

проверка правдоподобия статистических гипотез;

оптимальная организация и проведение экспериментов и оптимальная обработка результатов экспериментов.
Статистическое распределение выборки
Пусть из генеральной совокупности извлечена выборка объемом
n = 20 . Наблюдаемые значения
i
x
называют вариантами, а последовательность значений (вариант), записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений
i
n
называют
частотами, а их отношения к объему выборки
i
n
/n =
*
i
p
относительными
частотами.
Статистическим распределением выборки называют перечень вариант
i
x и соответствующих им частот
i
n
i
x
2 6
12
i
n
3 10 7 или относительных частот
*
i
p
i
x
2 6
12
i
p
3/20 10/20 7/20
При больших объемах выборки n статистическое распределение выборки становится недостаточно наглядным. В этом случае статистические данные представляются в виде интервального вариационного ряда, который носит также название статистического ряда.
Для построения статистического ряда размах выборки разбивается на
r конечных (или бесконечных) подходящим образом выбранных интервалов

5
j
j
i
j
j
X
X
x
X
X






5
,
0 5
,
0
, длины которых (размахи) соответственно
j
j
X
h


, а середины интервалов
j
X , где j=1,...,r.
Количество интервалов выбирается в основном из практических соображений. В частности, рекомендуется, чтобы значение r было не менее 5
– 10 и более 20 – 25. В каждом интервале должно быть не менее 10 значений.
В том случае, если полученные из опыта данные группируются вокруг некоторых значений, то желательно, чтобы эти значения не находились вблизи узлов разбиения интервалов. Затем подсчитываются число значений выборки
j
n , попавших в интервал j, и относительная частота
*
j
p
значений, попавших в этот интервал.
Если данные попадают на границы интервалов, то их либо распределяют равномерно по двум соседним интервалам, либо относят только к одному из них (например, к левому). Выбор количества интервалов существенно зависит от объема выборки. Существуют также рекомендации по использованию формулы Старджеса
1
ln
32
,
3 1
log
2




n
n
m
или других формул:
n
m
lg
5

,
n
m

Все эти формулы следует рассматривать как нижнюю оценку m. Так как длина интервала
j
h может быть большой, а количество численных значений
j
n , попавших в него, сравнительно малым, то для сопоставления групп друг с другом вычисляется также величина
*
j
p
=
*
j
p
/
j
X

, называемая плотностью относительной частоты.
Полученные результаты сводятся в таблицу вида.
№ интервала
1 2
…….
j
…….
r
Длина интервала

j
X

1
X

2
X
…….

j
X
…….

r
X
Частота
j
n
1
n
2
n
…….
j
n
…….
r
n
Относительная. частота
*
j
p
*
1
p
*
2
p
…….
*
j
p
…….
*
r
p


6
Плотность относитель–
ной частоты
*
j
p
*
1
p
*
2
p
…….
*
j
p
…….
*
r
p
Для большей наглядности статистический ряд оформляют в виде
полигона частот или гистограммы.
Лекция 2
Полигон частот и гистограмма
Полигоном частот называют ломаную линию (рис.19.1), отрезки ко- торой соединяют точки (
1
x
,
1
n
),(
2
x
,
2
n
),…,(
n
x
,
n
n
). Для построения полигона частот на оси абсцисс откладывают варианты
i
x
, а по оси ординат – соответствующие им частоты
i
n
. Точки
i
x
,
i
n
соединяют отрезками прямых и получают полигон частот.
Полигоном
относительных
частот называют ломаную (рис.19.2), отрезки которой соединяют точки (
1
x
,
*
1
p
),(
2
x
,
*
2
p
),…,(
n
x
,
*
n
p
).
Гистограммой
частот называют ступенчатую фигуру (рис.19.3), состоящую из прямоугольников, основаниями которых служат интервалы длиною
j
j
X
h


, представленные в таблице вида
№ интервала
1 2
3
Границы интервала
0 – 4 4 – 8 8 – 14
Длина интервала
j
h
4 4
6
Частота
j
n
3 10 7
x
i
n
0
Рис.19.1 3
7 2
6 12 0.50
x
*
i
p
0
Рис.
19.2 0.15 0.35 2
6 12

7
Плотность частоты
j
j
h
n /
0,75 2,50 1,16
Плотность относительной частоты
j
j
h
p /
*
0,037 0,125 0,058 а высоты равны отношению
j
j
h
n /
(плотность частоты). Площадь j-го прямоугольника равна
j
h
j
j
h
n /
=
j
n – сумме частот j-го интервала.
Следовательно, площадь гистограммы частот равна сумме всех частот,
т.е. объему выборки n .
Гистограммой относительных частот называют ступенчатую фигуру
(рис.19.4), состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною
j
j
X
h


, а высоты равны отношению
j
j
h
p /
*
(плотность относительной частоты). Площадь j-го частичного прямоугольника равна
j
h
j
j
h
p /
*
=
*
j
p
– сумме относительных частот j-го интервала.
Следовательно, площадь гистограммы относительных частот равна
сумме всех относительных частот, т.е. единице.
Эмпирическая функция распределения
Эмпирической функцией распределения (функцией распределения выборки) называют функцию
)
(
*
x
F
, определяющую для каждого значения x относительную частоту события X < x , т.е.
n
n
x
F
x
/
)
(
*

,где
x
n
– число вариант (значений), меньших x; n – объем выборки.
2.50 0.75 1.16
x
j
j
h
n /
0
Рис 19.3 4
8 14 0.125 0
0.037 0.058
x
j
j
h
p /
*
0
Рис.19.4 4
8 14


8
Таким образом, для того чтобы найти, например
)
(
2
*
x
F
, надо число вариант, меньших
2
x
, разделить на объем выборки
n
n
x
F
x
/
)
(
2
*

Из теоремы Бернулли следует, что при неограниченном увеличении n относительная частота события X < x , т.е.
)
(
2
*
x
F
стремится по вероятности к F(x) этого события, так как
1
}
|
|
{
lim
*






p
p
P
n
Отсюда следует целесообразность использования эмпирической
(статистической) функции распределения выборки для приближенной оценки
(представления) теоретической (интегральной) функции распределения генеральной совокупности.
Это подтверждается тем, что
)
(
*
x
F
обладает всеми свойствами F(x):
- значения эмпирической функции принадлежат отрезку [0,1];
-
)
(
*
x
F
– неубывающая функция;
- если
1
x
– наименьшая варианта, то
)
(
*
x
F
= 0 при x <
1
x
;
- если
k
x – наибольшая варианта, то
)
(
*
x
F
= 1 при x
k
x .
Пример: Построить
)
(
*
x
F
по данному распределению
Варианты
i
x
2 6
12
Частоты
i
n
3 10 7
Решение. Определим объем выборки n = 3+10+7=20. Наименьшая варианта равна 2, следовательно,
)
(
*
x
F
= 0 при x < 2 . Значение X < 6, а именно, x = 2, наблюдалось 3 раза, следовательно
)
(
*
x
F
= 3/20 = 0,15 при значениях 2 ≤ x < 6. Значения X < 12, а именно, x = 2 и x = 6 , наблюдались 3 +
10 = 13 раз, следовательно,
)
(
*
x
F
= 13/20 = 0,65

9 при 6 ≤ x < 12. Наибольшая варианта равна 12, следовательно,
)
(
*
x
F
= 1 при x ≥ 12.
Таким образом:













12 1
12 6
65
,
0 6
2 15
,
0 2
0
)
(
*
x
при
x
при
x
при
x
при
x
F
и функция распределения имеет вид рис.19.5.
С увеличением объема выборки и количества интервалов, содержащих в пределе одну реализацию случайной величины, гистограмма приближается к плотности распределения исследуемой случайной величины.
Следует отметить, что полигон частот является статистическим аналогом ряда распределения случайной величины, а гистограмма
статистическим аналогом плотности распределения.
0 2
6 12
x
)
(
*
x
F
1,00
Рис.19.5 0,65 0,15

10
Тема 1.2 Выборочные статистики и интервальные оценки
Точечные оценки параметров распределений
Задача статистической оценки параметров распределения формулируется следующим образом.
Требуется на основе однородных независимых опытов и полученной случайной выборки значений
n
x
x
x
,...,
,
2 1
случайных величин
n
X
X
X
,...,
,
2 1
, представляющих собой признаки случайной величины X, найти оценки
a
параметров а распределения случайной величины X :
a
=
a
(
n
x
x
x
,...,
,
2 1
), которые в этом смысле представляют собой реализации некоторых
выборочных функций случайной величины
)
,...,
1
(
n
i
X
i

, распределенных по одному и тому же закону, совпадающему с законом распределения случайной величины X .
Поскольку элементы выборки являются случайными величинами, то и оценки
a
(параметров а) являются также случайными величинами. Для того, чтобы статистические оценки были объективными и давали "хорошие" приближения оцениваемых параметров, они должны быть состоятельными,
несмещенными и эффективными.
Оценка
a
=
n
a называется состоятельной, если ее значение при


n
с вероятностью единица сходится к истинному значению параметра, т.е. а.
1
}
|
|
{
lim






n
n
a
a
P
Состоятельность оценки означает, что при достаточно большом объеме выборки отклонение оценки
a
от истинного значения параметра а с большой достоверностью меньше заданной величины

. Состоятельность является лишь асимптотической характеристикой оценки при


n


11
Оценка называется несмещенной, если M[
a
] = а.
Несмещенность оценки означает, что для всех n математическое ожидание оценки
a
должно быть равно оцениваемому параметру а. Если это не удовлетворяется, то оценка называется смещенной.
Оценка
a
называется эффективной, если среди всех других возможных оценок она обладает наименьшей дисперсией, т.е.
D[
a
] = min M{(
a
M[
a
] )
2
}.
Оценка
a
называется достаточной статистикой, если вся полученная из выборки информация относительно параметра а содержится в
a
Оценка математического ожидания случайной величины
Пусть имеется n однородных (равноточных и независимых) измерений
n
x
x
x
,...,
,
2 1
случайной выборки
n
X
X
X
,...,
,
2 1
. Тогда оценка




n
i
i
x
x
n
m
x
1 1
называется статистическим (выборочным) средним.
Поскольку
n
X
X
X
,...,
,
2 1
являются признаком случайной величины X , то
M[
i
x
] =
x
m
, D[
i
x
] =
2


x
D
Рассмотрим некоторые характеристики оценки математического ожидания. Согласно теореме Чебышева
1 1
lim
1
















n
i
x
i
n
m
x
n
P
, т.е. оценка
x
m
является состоятельной.
Определим математическое ожидание выборочного среднего:
x
x
n
i
i
n
i
i
x
m
m
n
n
x
M
n
x
n
M
m
M
















1 1
1
]
[
1 1
]
[
Следовательно, оценка
x
m
является несмещенной.
Найдем дисперсию оценки
x
m
:

12
n
D
D
n
n
x
D
n
x
n
D
m
D
x
n
i
x
i
n
i
i
x
















1 2
2 1
1
]
[
1 1
]
[
Таким образом, дисперсия оценки
x
m в n раз меньше дисперсии случайной величины X, с ростом выборки при


n
дисперсия
]
[
x
m
D
среднего неограниченно убывает и является асимптотически эффективной.
Оценка дисперсии наблюдаемой случайной величины
Для того, чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг среднего значения
x
m
, вводят сводную характеристику
2
S
выборочную дисперсию.
В том случае, если известно
x
m
генеральной совокупности, то в качестве оценки дисперсии принимают выборочную дисперсию
2
S
, вычисляемую по формуле
2
S
=
2 1
)
(
1
x
n
i
i
m
x
n



Преобразуем это выражение к виду
2
S
=
n
m
x
n
m
x
n
n
i
x
i
x
n
i
i
2 2
1 2
2 1
)
(
1









 






χ
2
, где χ
2
– величина «хи-квадрат» с n степенями свободы с математическим ожиданием М(χ
2
) = n и дисперсией D(χ
2
) = 2n.
Найдем теперь математическое ожидание выборочной дисперсии:
М[
2
S
] =
 
n
M
n
n
M
2 2
2 2
2















n =
x
D

2

Отсюда следует, что выборочная дисперсия
2
S
является несмещенной оценкой.
Найдем дисперсию оценки
2
S
: