Файл: Алабин М.А. Корреляционно-регрессионный анализ статистических данных в двигателестроении.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.07.2024
Просмотров: 117
Скачиваний: 1
При малом числе наблюдений (п<30) среднеквадратическая ошибка находится по формуле
аг |
1 — |
(51) |
|
у п — 1 |
|||
|
|
Величина этой ошибки может заметно отличаться от действи тельного значения средней ошибки. Определение средней ошиб ки коэффициента корреляции на основе весьма колеблющейся эмпирической величины коэффициента корреляции дает постоян ную погрешность, уменьшающую значение коэффициента корре ляции в генеральной совокупности.
При рассмотрении вместо коэффициента корреляции вели чины
z = — In * ± 1 = |
1,15129 lg !± -£ |
(52) |
|
2 |
1 — r |
s 1 — г |
v 1 |
было установлено [14], что распределение этой величины мало зависит от численности выборки и от значения коэффициента корреляции в генеральной совокупности, быстро приближаясь к нормальному распределению при возрастании числа наблюде ний. Для малых выборок можно принимать приближенно z-pac- пределение за нормальное с дисперсией
Благодаря этому величину z удобно использовать для вероят ностей оценки выборочного значения коэффициента корреляции, позволяющую и при малочисленных наблюдениях пользоваться таблицей значений интеграла вероятностей. Для этого достаточ но по таблице значений z определить z, соответствующее полу ченному коэффициенту корреляции, и затем вычислить значение
величины t, как отношение t к его средней ошибке — - 1 .
V п— 1
Используя z-преобразование, можно в вероятностном отно шении оценить разность между коэффициентами корреляции для двух независимых, случайных выборок. В этом случае ошибка разности для величин zL и z2 может быть определена по фор муле
|
|
( ® ) |
Тогда |
t = |
& — — . |
Если t < 2, |
то |
разность между выборочными коэффициентами |
корреляции случайна.
Для примера оценим существенность различия между значе ниями коэффициентов корреляции /'1= 0,876 и /'2= 0,719 для двух
37
независимых выборок с числом наблюдений /гх== 100 и «2=150. Пользуясь табл. I [24], находим значения z2=l,3587; zo= 1,0959.
О 9fi98
Тогда !4rfz~0,131; / ^ ^ ^ - s 2 , 0 . B таблице интеграла вероятно
стей такой величине t соответствует вероятность 0,8545. Таким образом, вероятность того, что разность между значениями двух коэффициентов корреляции, обусловленная случайными ошибка
ми, может быть большей, |
чем 0,2628, |
равна |
(1—0,9545) |
:2 = |
= 0,0227. Это достаточно |
малая вероятность |
и, следовательно,, |
||
полученную разность следует признать |
не случайной, т. е. |
обе |
выборки, для которых вычислены коэффициенты корреляции, взяты из имеющих разную корреляцию совокупностей.
В связи со случайным характером статистической информа ции определенный по ней коэффициент корреляции может быть отличен от нуля и для тех переменных, между которыми и не должно быть корреляционной связи. Следовательно, для провер ки гипотезы об отсутствии корреляции необходимо проверить, значимо лн получаемое значение коэффициента корреляции от нуля.
Поскольку значение коэффициента корреляции для генераль ной совокупности случайных значений неизвестно, то проверяется гипотеза об отсутствии корреляции для этой генеральной сово купности. Для этой цели используются таблицы квантилей Z- распределения, зависящего только от количества сопряженных пар .наблюдений. По этим таблицам находится значение выбо рочного коэффициента корреляции для определенной довери тельной вероятности в предположении, что корреляция в гене-
|
|
|
|
|
Таблица 3 |
|
|
Квантили /--распределения |
|
|
|
п |
0,99 |
0,999 |
п |
0,99 |
0,999 |
10 |
2,29 |
2,62 |
25 |
2,47 |
3,03 |
п |
2,32 |
2,68 |
30 |
2,49 |
3,07 |
12 ' |
2,35 |
2,73 |
35 |
2,50 • |
3,10 |
13 |
2,37 |
2,77 |
40 |
2,51 |
3,13 |
14 |
2,39 |
2,81 |
45 |
2,52 |
3,15 |
15 |
2,40 |
2,85 |
50 |
2,53 |
3,16 |
16 |
2,41 |
2,87 |
• 60 |
2,536 |
3,184 |
17 |
2,42 |
2,90 |
70 |
2,541 |
3,198 |
18 |
2,43 |
2,92 |
80 |
2,546 |
3,209 |
19 |
2,44 |
2,92 |
100 |
2,553 |
3,226 |
20 |
2,45 |
2,96 |
оо |
2,576 |
3,291 |
38
ральнои совокупности случайных значений параметров отсутст вует. Сравнивая это значение с произведением абсолютного зна
чения коэффициента корреляции на ]/"п — 1 , устанавливают зна чимость выборочного коэффициента корреляции. Если величина
I г |■ЧЛг — 1 |
будет больше табличного |
значения (табл. 3), |
то с вы |
|
бранном, доверительной вероятностью |
можно утверждать, |
что |
||
истинный |
коэффициент корреляции отличен от |
|
нуля. |
Так, для /г= 26, /'=0,793 произведение \г\Уп— 1=3,96.Если это число больше табличного значения даже для р = 0,999, то корре ляционная связь между параметрами существует.
Аналогично тому, как это было приведено для коэффициен та корреляции, оцениваются надежность и находятся гарантий ные границы корреляционного отношения, для которого средняя квадратическая ошибка вычисляется по формуле
и коэффициента регрессии, для которого средняя квадратическая ошибка будет
sx, УI — г2
(54)
sx? -/п
Смысл этой формулы может быть уяснен, если представить квадрат ошибки коэффициента регрессии
DxSxt
В числителе формулы квадрата ошибки фигурирует остаточная дисперсия значений зависимой переменной, характеризующая их колебания около линии регрессии, в знаменателе — сумма квад ратов отношений значений независимой переменной. Ошибка тем меньше, чем меньше остаточная колеблемость значений за висимой переменной по отношению к колебаниям значений не зависимой переменной. Иными словами, величина ошибки коэф фициента регрессии определяется случайными колебаниями зна чений зависимой переменной около линии регрессии, для которых в общей колеблемости этой переменной тем меньше, чем точнее определена линия регрессии.
Проверка статистической значимости i] при малой инфор мации проводится по z-преобразованию Фишера:
* = i l n |
l ± i , |
(55) |
2 |
1— л |
|
так как ^-распределение близко к нормальному уже при малом
39
числе наблюдений со средней z и среднеквадратической ошиб кой:
zг--------------
уп — т— 2.
где т — число учитываемых в модели параметров .(независимых переменных).
Если отношение — превышает соответствуйте пределы /при
Sz
заданной вероятности P (t), то гипотеза о равенстве т) нулю в ге неральной совокупности отвергается и т) признается значимым. Выражение (55) позволяет рассчитать ошибку г| и с задан ной вероятностью, т. е. оценить пределы значении этих величин
в генеральной совокупности. |
Нижнее |
и верхнее |
значения |
этих |
||
пределов определяются по формулам |
|
|
|
|||
|
22 - tsz _ |
Л |
2z + tsz |
|
(56) |
|
|
22 — t s. -f 1 |
|
2z |
4- tS7 +■ 1 |
|
|
е |
|
|
|
|||
|
5 о2ет = |
( 1 - |
Т12) ^ |
1- |
|
(57) |
Для получения |
пределов |
5 ^ |
необходимо |
в формулу |
(57) |
соответственно подставлять значения нижнего и верхнего преде лов т), полученных по формуле (56).
Средняя ошибка определения результирующего параметра по
уравнению регрессии равна |
|
|
° = ° х . У 1 |
|
(58) |
При этом истинное значение результирующего параметра |
будет |
|
= |
+ о. |
(59) |
На практике часто возникает необходимость в получении до верительных интервалов для значений Ь0 и bi2 уравнения рег рессии, а также в оценке отклонения истинной прямой регрессии от эмпирической при некотором заданном значении независимой переменной Х2—Х20.
Истинное значение Ь0 лежит в пределах доверительных гра
ниц |
ист b0-|-1pSba, |
(60) |
bQ tpSi,a |
где tp — нормированное отклонение, определяемое по таблице интеграла вероятностей для выбранной степени доверия и числа степеней свободы п— 2 ;
Sbo — исправленное среднеквадратическое отклонение
40