Файл: Матлин Г.М. Проектирование оптимальных систем производственной связи.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.04.2024
Просмотров: 203
Скачиваний: 0
Т а б л и ц а 2.4
РАСПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ ОТНОСИТЕЛЬНО ПРИЗНАКОВ А И Б
Показатели признака |
Частоты появления статических данных |
Суммарное значение |
|||||
при значениях показателя |
признака А |
|
частот появления |
||||
Б |
|
|
|
|
|
показателя признака |
|
|
|
* |
1 Уі |
У і |
Уп |
Б |
(сумма по строкам) |
|
|
|
|
||||
*і |
|
« а |
«12 |
« 1 / |
«14 |
|
ту |
|
|
х \ |
|||||
*2 |
|
«21 |
«22 |
↔ 2 / |
« 2 4 |
|
ту |
|
|
х% |
|||||
XI |
|
т ‘, |
т , |
тч |
|
|
«*і |
|
|
|
|
|
|
||
Хк |
|
"»Л, |
mkt |
mkj |
ткп |
|
mXk |
Суммарное значе |
|
|
|
|
|
|
|
ние частот |
появле |
|
|
|
|
|
N— объем выборки |
ния показателя |
< |
тУг |
тУ,- |
• , . тУп |
|
||
признака А |
(сумма |
|
|
|
|
|
|
по*столбцам) |
|
|
|
|
|
|
|
|
|
|
/ |
п |
тУ, (хУі - ХТ |
|
|
|
|
_ а {Бу) |
S |
|
|
||
|
|
/='_________ |
|
(2.36) |
|||
|
Цх' » ~ |
о (Б) |
к |
|
|
||
|
V |
mx . (x i —l c f |
|
|
|||
|
|
|
|
|
|
i = i
Корреляционное отношение обладает следующими свойствами:
1)оно всегда заключено между 0 и 1;
2)необходимое и достаточное условие отсутствия корреляцион ной зависимости признака А от признака Б состоит в том, что т]у/ж==0;
3)если %/х= 1, то между признаками А и Б существует функ циональная зависимость y — f(x);
4)коэффициент линейной корреляции между признаками А и
Бвсегда по абсолютной величине не больше корреляционных от ношений у\уіх и т\хіу;
5) если « = а (х—х0), a v — ß (у—уо), то |
и ци/ѵ= 'Цх/у |
(при а> 0 и ß>0). |
|
При определении формы зависимости по экспериментальным данным необходимо считаться с тем, что любая форма является только приближением (аппроксимацией) к некой теоретической за кономерности. Линейная зависимость имеет силу вблизи арифмети ческих средних. Однако если распределение эмпирических данных
— 71 —
в большей мере сконцентрировано вблизи геометрических средних, то лучшим приближением является не линейная, а степенная за висимость. Поэтому полезным аппаратом при выборе формы за висимости является сравнение значений средней арифметической и средней геометрической. Часто для описания одних и тех же дан ных можно использовать различные формулы, в особенности, если данные относятся только к части кривой регрессии.
Очень важно иметь теоретическое представление о том, какова должна быть эмпирическая форма зависимости. Если же такого представления нет, то существенную помощь нам может оказать анализ величин коэффициента корреляции и корреляционного от ношения. Из сказанного выше ясно, что эмпирическим данным наи лучшим образом соответствует кривая, имеющая наибольшее кор реляционное отношение. Однако при этом мы подходим к вопро су о том, каково должно быть значение корреляционного отноше ния, при котором можно признать найденное уравнение связи су щественным.
Определение степени существенности найденных связей и пог решностей результатов. За исключением крайних случаев, когда коэффициент корреляции или корреляционные отношения равны нулю или единице, трудно утверждать что-нибудь обоснованное о существенности связи между двумя переменными. Поэтому необхо димо ввести какое-то допущение, позволяющее преодолеть указан ную трудность. Подобное допущение вполне естественно формули руется если вспомнить, чго при корреляционной связи значения пе ременных находятся под воздействием случайных факторов. От клонения фактических значений переменных от их математическо го ожидания подчиняются тому или иному закону распределения. По закону больших чисел при увеличении числа наблюдений раз ность между эмпирическими величинами и их математическими ожиданиями становится бесконечно малой. По существу, здесь идет речь о необходимости предельного перехода, а именно — об опре делении предела той или иной величины при условии, что число наблюдений стремится к бесконечности.
В отношении коэффициента корреляции можно утверждать, что он отражает существенную, приближающуюся к функциональной, связь, если его пределом при названных выше условиях является + 1, и, напротив, если его пределом является нуль, то переменные стохастически независимы между собой. Условием практического решения этой задачи является знание закона распределения коэф фициента корреляции в зависимости от числа наблюдений. Для корреляционного отношения аналогичными пределами являются + 1 и 0 с требуемой степенью точности.
При анализе связи между двумя переменными (у, х) ошибки измерения будут влиять на дисперсии и коэффициент корреляции. Обозначим ошибки измерения через щ и ѵ2. Ошибки измерения стохастически независимы и не зависят от у, х, а их математиче ские ожидания (средние значения) в пределе равны нулю. Тогда
— 72 —
(2.37)
т. е. коэффициент корреляции переменных, на которых наложены ошибки измерения, всегда меньше по абсолютной величине, чем коэффициент корреляции этих переменных без ошибок. Отношение указанных коэффициентов корреляции зависит от отношений ди сперсий ошибок и дисперсий переменных. Поэтому большие пог решности в исходных данных маскируют имеющуюся корреляцию. С увеличением же числа наблюдений погрешности измерения ста новятся все менее существенными и эмпирический коэффициент ■корреляции приближается ік его теоретическому значению.
В математической статистике прибегают к иным методам оцен ки коэффициента корреляции, при которых описанная выше воз можность предельного перехода используется не непосредственно, а косвенно. Для этого используются критерии значимости опреде ленной гипотезы. Проверяется предположение о том, что различие между эмпирическим и теоретическим значениями коэффициента корреляции несущественно при определенном уровне вероятности (уровне значимости). В результате проверки не может быть сде лано категорического вывода о верности гипотезы по результатам наблюдений. Речь может идти только о том, что данная гипотеза не может быть отвергнута.
Для оценки коэффициента корреляции используется найденное Фишером преобразование, на основе которого построены таблицы критических значений коэффициентов корреляции при данном чис ле наблюдений и уровне значимости [184]. По этим таблицам мож но определить ту величину коэффициента, которая указывает на существенную связь между факторами ').
Следует рассмотреть вопрос об ошибках исходной информации и ошибках результатов, полученных при использовании формул парной корреляции. Как известно, ошибки исходной информации, если они являются случайными ошибками измерения, могут быть оценены только в среднем. Величина ошибки каждого отдельного наблюдения не может быть определена. Понятно, что ошибка ре зультата зависит от ошибки исходной информации. В среднем эту зависимость можно оценить путем сравнения средней ошибки ис ходной информации с отклонениями фактических значений функ ции от ее значений, рассчитанных по корреляционной формуле. Минимально возможная точность корреляционной формулы (с ве роятностью 0,997) дает отклонения расчетных значений от факти ческих, не превышающих трехкратной средней ошибки исходной информации. Вероятность же нахождения этих отклонений в пре-)*
*) При уровне значимости 0,01 и числе наблюдений без двух, равном 5, кри тическая величина коэффициента корреляции равна 0,8745; раи "м 10 — 0,7079равном 20 — 0,"68; равном 50 — 0,3541; равном 100 — 0,2540 и т. д.
— 73 —
Т а б л и ц а 2.5
РАСПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ ОТНОСИТЕЛЬНО ПРИЗНАКОВ
|
А, Б |
И |
В |
Значение показателей |
Частота |
||
|
признаков |
|
появления |
|
|
|
статисти |
А |
Б |
В |
ческих |
данных |
делах средней ошибки равна 0,683, т. е. в общем также достаточно велика.
Множественная корреляция. На практике часто приходится исследовать статистические связи между тремя и большим числом призна ков. Например, на стоимость АТС оказывают влияние система оборудования и емкость стан ции, на стоимость диспетчерского коммутато ра — емкость, масса, количество блоков в ком плекте, грроводнОсть абонентских линий и т. д.
*1 |
Уі |
Zl |
щ |
|
Пусть дана следующая статистическая со |
|||||||
х2 |
Уг |
z2 |
т 2 |
вокупность |
(табл. |
2.5). |
|
|
||||
Если предположить, что зависимость при |
||||||||||||
|
|
|
|
|
знака В от признаков А и Б имеет вид г = а х + |
|||||||
|
|
|
|
|
+ Ьу+с, |
а |
отклонения |
табличных |
значений |
|||
Хі |
Уі |
z; |
тс |
|
признака В от соответствующих значений при |
|||||||
|
веденной функции |
носят |
случайный |
характер, |
||||||||
|
|
|
|
|
то коэффициенты а, Ь, с могут быть определе |
|||||||
|
|
|
|
|
ны по методу наименьших квадратов, который |
|||||||
х п |
Уп |
Zn |
т п |
|
дает следующую систему линейных алгебраи |
|||||||
|
ческих уравнений: |
|
|
|
||||||||
|
|
|
|
ах2 + |
Ьху2 + |
сх = |
xz |
|
|
|
(2.38) |
|
|
|
|
|
аху + |
by2 + |
су — уг |
|
|
|
|||
|
|
|
|
|
|
|
|
|||||
|
|
|
|
ах -\- by -f- с = г |
|
|
|
|
|
|||
Решая эту систему, находим, что |
|
|
|
|
|
|
|
|||||
|
|
|
_ |
>•(*■ |
г) ~ г (У, |
z)r(x, |
у) |
ог |
|
(2.39) |
||
|
|
|
а |
|
1 — Г2 (X, |
у) |
|
|
Ох |
|
||
|
|
|
|
|
|
|
|
|||||
|
|
|
= |
г (У> |
г) ~ г (Х’ |
г) г (х, |
У) |
. |
|
(2.40) |
||
|
|
|
_ |
|
1— г2(х, |
у) |
|
|
|
|
||
|
|
|
|
|
|
О у |
|
|
||||
|
|
|
|
с — г — ах — by, |
|
|
|
(2.41) |
||||
где г(х, |
у) — |
коэффициент линейной |
корреляции |
между |
признаками А и Б; |
|||||||
г(у, г) — то же; между признаками £ |
и В; г(х, |
г) — то же, между признаками |
||||||||||
А и В; |
Ох, Оу, |
oz — |
средние квадратические |
отклонения показателей |
признаков |
А, Б и В; X, у, z — средние арифметические значения показателей признаков.
Характеристики линий регрессии. При применении регрессион ного анализа важно уметь определять математическое ожидание, дисперсию и последующие моменты, коэффициенты аеоиметрии и эксцесса, поскольку каждая из этих величин характеризует ту или иную особенность линии регрессии.
М о м е н т о м k -то по р я д к а ць(а) варьирующего признака А по отношению к значению а называют среднее арифметическое из
k-x степеней отклонений значений признака |
от а, т. е. |
И* (а) = (А — a)k. |
(2.42) |
— 74