Опираясь на указанные измерения, необходимо найти линейную зависимость между у и Xi, х2, . . хп, которая согласно принципу
наименьших квадратов, наилучшим образом соответствует этим материалам. Решение получается более простым, если рассматри ваются не исходные величины у и ли, х2, ..., хп, а отклонения их
от своих средних значений:
о |
_ |
о |
_ |
у « = У /-у ; |
х ^ х ц - x f , |
j = |
1. |
2, . . |
п, |
i = 1, |
2, . . |
т. |
В таком случае уравнение множественной линейной регрессии
У =У -И 1 (х и — ^ )-Ь &2 (х2i — лг2)-{- . . . + |
|
-\-kj (Xji — Xj)~f- . . . -\-kn{xni — x ni) . . . |
(6.26) |
величины у относительно ее аргументов xi, |
х2, ..., хп записывается |
о |
_ |
как уравнение регрессии величин г/г = г/г — У относительно отклоне- |
|
|
|
о ' о |
о |
ний аргументов от их средних значений хи х2, . . |
хп |
0 |
0 |
0 |
о |
(6.27) |
y x= k lx {Jr k2X2 Jr |
. . . -\-knx n. |
Таких уравнений, очевидно, будет т в соответствии с числом |
наблюдений над величинами у, Xi, х2, ..., хп- При этом т^>п. При |
т < п задача определения параметров становится неразрешимой; |
при т = п получается решение, в точности |
удовлетворяющее ис |
ходным данным, однако это решение имеет |
смысл лишь для точ |
ных функциональных связей.
Случай системы уравнений с числом их, большим числа неиз вестных входящих в них параметров, является основным при по строении уравнений регрессии. Вопрос о наилучшем решении си стемы с избыточным числом уравнений сводится к нахождению таких значений неизвестных величин, связанных между собой уравнениями, составляющими рассматриваемую систему, при под становке которых в данные уравнения будем иметь наименьшее уклонение рассчитанных величин от наблюденных. Принимая в ка честве оценки указанных отклонений их сумму, можно встретиться с такой ситуацией, когда большие отклонения, но имеющие раз ные знаки, могут компенсировать друг друга, в то время как абсо лютные значения отдельно рассматриваемых отклонений могут быть значительными.
Поэтому за наилучшее решение системы уравнений принима ется такое, при котором сумма квадратов всех отклонений (или ошибок расчета с использованием уравнения регрессии) будет иметь
минимальную величину, вследствие чего и способ, дающий такое решение, носит название способа наименьших квадратов.
Как указано в |
§ 2 настоящей главы, коэффициент регрессии |
в корреляционном |
уравнении, связывающем две переменные, ра |
вен - 2 у. Гху. В уравнении множественной регрессии величина коэф-
0х
фициента корреляции между х и у заменяется комбинацией этих
коэффициентов, вычисленных между каждыми двумя входящими в уравнение регрессии п величинами. Так, в частности, для случая трех переменных у, xi, х2 уравнение регрессии примет вид
о |
Г |
— г |
г |
О |
Г — г г |
о |
У= |
УХ\ |
|
УХ 2 X j X 2 |
Хх |
УХ2 yXj Х хХ 2 |
(6.28) |
1 |
Г2 |
' Х \ Х 2 |
|
|
|
х хх 2 |
|
|
Для случая четырех переменных имеем
о
У- |
1_ |
Г Х , У О |
Г Х 2Х з ) |
Г Х 2 У Г Х 2 Х , |
Г |
Г Х , Х г |
■+ |
Х 2Х з |
_ /*^ |
_!_ O’* |
Г |
|
1 |
Х :х 2 |
X i X 3 ~ |
А Х хХ 2 ' Х хХ з ' Х 2Х г |
|
Г х 2х 3 ( г у х / х , х , Т г у х / х , х 2) |
|
о |
|
|
|
Х \ |
- |
|
|
|
х,Хъ |
|
|
|
|
|
х 2х 3 |
x t x 2 |
|
Х хХ 2 |
XiXz |
х 2х 3 |
|
|
Г у х 2 О |
r x , x i ) |
r y x , r x , x 2 |
Г у х Т х 2х 3 |
|
х 2 |
1 |
' Х 2Хз |
__ г^ |
-L 9 Г |
Г |
Г |
|
|
1 |
Х хХ 2 |
Х хХ 3 > |
Х хХ 2 Х хХ л Х 2Х3 |
|
ГХ, Хз ( г у х , г Х 2Х, + |
г у х / х 2х , ) |
|
|
|
|
|
■r\_r - r l г. - г ХхХг1 |
+ 2гх |
|
|
|
|
|
X i X 'i |
х , х г |
|
|
|
|
|
|
|
|
Г у х 3 ( ^ |
г х , х 2) |
г у х , г х 3х , |
г у х / . Х з Х 2 |
Хг |
г х 2х 3 |
Г х , х 2 |
г Х хХ ъ Т " <^ г х 1х 2Г х , х 3г х 2х 3 |
|
Г х , х 2 ( г у |
х / х , х 7 Т |
г у х 2г ХзХ,) |
|
1 — Г * |
— Г ^ |
— Г * |
-I- 9/* |
Г |
Г |
' Х 2Хз |
' Х \ Х 2 |
1 Х 1Х 3~ |
Х }х 2 |
Х хХз Х 2Хз |
Приведенная система записи уравнений (6.28) и (6.29) может быть существенно упрощена и обобщена на общий случай пере менных с использованием детерминантов или определителей. В та ком случае общее выражение для коэффициента регрессии (k,)
можно записать в форме
D yxj
где о у — среднее квадратическое отклонение зависимой перемен
ной (функции); |
о х .— среднее квадратическое отклонение независп- |
|
|
VXj и D у у — миноры определителя |
|
|
1 |
Г ух , |
г у х 2 ■ • • |
r y x j |
■ • |
. |
r vV |
|
|
|
|
Ух п |
|
|
Гх , у |
1 |
ГХ,Х2 |
• • • |
|
• ■• Г х . х |
|
|
|
|
|
|
|
|
х Iх п |
|
|
Г«- |
ГХ 2Х, |
1 |
|
. . . |
Г х 2x j ' ' ■ Г х 2х п |
|
|
|
|
|
|
D |
= |
|
|
|
|
|
|
|
(6.31) |
|
|
Г х ]У |
Г х ; х 1 |
ГХ]Х2 ■ ■ |
1 |
. . ' T x j x n |
|
|
r * n y |
Г х пх 1 |
Г х п х2 ■■■Г * п * Г |
. |
1 |
|
|
|
|
|
Минор |
представляет |
собой |
часть исходного |
определителя (D ), |
у которого |
в рассматриваемом |
случае |
вычеркнута первая строка |
и столбец, соответствующий переменной, указанной в обозначе нии минора.
В частности, первый минор |
D v y |
означает исходный |
определи |
тель D , у которого вычеркнута |
первая строка и первый столбец. |
|
1 |
Г г V • • r x i x J |
■ ■ Г х Хх п |
|
|
Г х 2х , |
1 |
|
|
■ Г х 2х п |
|
|
|
|
|
|
D y y = |
ГГ .Г, |
|
. . 1 |
• Г х . х |
п |
|
|
|
|
|
х Г 1 Г х ] х 2 |
■ |
|
х г |
|
|
Г х п х \ |
Г х п х 2 |
. . |
Г х х |
. . 1 |
|
|
|
' |
Х п х j |
|
|
|
Минор D Vx , представляет исходный определитель D , |
у которого |
вычеркнута первая строка и второй столбец. Это второй минор. Третий минор ( D y x i ) получается вычеркиванием в определителе D
первой строки и треть «го столбца, четвертый (D yx3) — первой
строки и четвертого столбца и т. д. Указанные пояснения отно сятся к рассматриваемому случаю определения коэффициентов регрессии. В общем виде минор определителя D i j получается вы
черкиванием i-той строки и /-того столбца.
Рассмотрим связь системы определителей с формой записи, представленной уравнением (6.28). В соответствии с выражением
(6.30) коэффициенты регрессии для уравнения с тремя переменными
0 |
|
0 |
0 |
(6.32) |
у --- - k\X\ —j—коХ2 |
будут: |
|
|
|
|
£ ____ |
С У |
|
° У Х , |
|
|
СХ, |
|
D y y |
|
k |
Су |
■ ® у х 2 |
|
|
°Х, |
|
D y y |
|
|
|
|
|
Применительно к рассматриваемому случаю определитель имеет вид
|
1 |
УХх |
\ ' Х 2 |
|
|
|
|
D = |
г. |
1 |
Х гХ 2 |
(6.33) |
УХх |
|
|
у х 2 |
х ,х 2 |
1 |
|
Миноры этого определителя, входящие в выражение коэффици ента регрессии, равны:
|
|
|
= Г |
ух, |
г |
г |
х ,х 2* |
|
|
|
ух 2 |
|
|
у х 2 |
|
|
|
|
|
|
|
|
|
D |
У * \ |
= — Гг г |
—г 1 = /* „ —г _ г |
|
ух 2 |
I ух, х,х2 |
y*aj |
У * 2 |
У*1 |
|
У Х г |
Х , Х 2 |
|
|
|
|
|
|
|
DУУ |
X \ Х 2 |
|
1 |
Г*1*2* |
|
|
|
1 |
= |
|
|
|
|
|
|
|
|
|
|
Уравнение регрессии примет вид (6.28). Элементами опреде лителя (6.33) являются коэффициенты парной корреляции между рассматриваемыми переменными, определяемые по уравнению
|
2 |
( X J — x i ) (■** ~ |
■**) |
ГИ<= ' |
Г т |
|
т |
(6.34) |
у |
2 |
(xj ~ |
2 |
— jr*)2 |
Полный, или сводный, коэффициент корреляции между зави симой переменной и всеми независимыми переменными определя ется по выражению
Если парные коэффициенты корреляции, характеризующие сте пень линейной связанности между двумя переменными, изменя ются от —1 до 1, то полный коэффициент корреляции имеет пре делы изменения от 0 до 1.
Линейная (а не всякая) зависимость между двумя перемен ными отсутствует при г = Опри R = Омежду п переменными. В слу
чае наличия функциональной зависимости между переменными r = ± i , o , /г= 1,0 .
Полный коэффициент корреляции R при п> 1 всегда больше
любого парного коэффициента корреляции, входящего в опреде
литель D, |
кроме диагональной линии, где г |
=г |
= г |
=••• = |
= г |
= |
УУ |
Х\Х\ |
|
Х 2Х 2 |
1. |
|
|
|
х п х п
Заметим, что полный коэффициент корреляции может быть рассчитан как парный коэффициент корреляции между наблюден ными величинами зависимой переменной и рассчитанными по урав нению регрессии.
Среднее квадратическое отклонение наблюденных величин (ум) от рассчитанных по уравнению регрессии (г/р), характери
зующее точность используемого уравнения регрессии, может быть рассчитано по формуле
У (>'н — Ур) 2
|
j_____ |
(6.36) |
|
т |
|
|
|
или |
|
|
Оу= а 0] / Ь = Ж |
(6.37) |
При R = 1 cTy = 0, что свидетельствует о полном совпадении на блюденных и вычисленных по уравнению (6.30) величин. При R = 0 оу= а0 и, следовательно, использование уравнения регрессии не
имеет смысла.
Для оценки средней |
квадратической ошибки коэффициента ре |
грессии ( k j ) используется формула |
|
|
ЧГ Y- |
(т — п) Р к. |
У = 1, |
(6.38) |
|
|
где т — число членов ряда, использованных при составлении урав нения регрессии; п — число независимых переменных;
/ 4 =
л/7
А — определитель, равный
/газ*, п г с х Р х Т х 2х, |
• |
■ ■ fn a XiaXnr XnXl |
n i l x p x 2г х ,х 2 т - х 2 |
■ • |
• т а х р Хпг х пх 2 |
mox aXnrXlXn maXtoXnrXtXa . . . т с 2Хп
Ал — минор определителя А, полученный в рассматриваемом слу
чае вычеркиванием в определителе А /-той строки и /-того столбца.