Файл: Лакин Г.Ф. Биометрия учеб. пособие.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 302

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

одного признака на основе известных изменений другого, связан­ ного с ним корреляционно варьирующего признака. Таковы отли­ чительные черты регрессионного анализа, играющего важную роль в биометрии.

ЭМПИРИЧЕСКИЕ РЯДЫ РЕЕРЕССИИ

На больших выборках, чтобы выразить в виде регрессии по­ ведение одного признака в зависимости от изменений другого, приходится группировать выборочную совокупность в виде кор­ реляционной таблицы, как это делается и при вычислении пока­ зателей корреляции. Затем по значениям одного признака нужно рассчитать групповые средние другого признака, что и дает в ре­ зультате эмпирический ряд регрессии. Покажем методику постро­ ения эмпирических рядов регрессии на примере корреляции меж­ ду ростом (длиной тела) мужчин и окружностью их грудной клетки. Соответствующие данные, сгруппированные в виде кор­ реляционной таблицы, приведены в табл. 77 (по А. А. Малинов­ скому, 1948, с сокращениями). В этой таблице, включающей 727 случаев парных измерений мужчин, приведены и эмпирические ряды регрессии — Y по X (в крайнем справа столбце) и А по У (нижняя строка таблицы). Отдельные значения эмпирических рядов регрессии есть не что иное, как групповые средние ариф­ метические, вычисленные для каждой строки и каждого столбца корреляционной таблицы. Например, средняя у*= 81,5, что нахо­ дится сверху последнего столбца таблицы, получена следующим образом:

 

1 X 77,5

+ 1 X 85,5

81,5.

Ух =

 

2

 

 

 

Следующая за ней

величина

ух—82,0 вычислена аналогичным

способом:

 

,5 + 2X 83,5

 

1 X 7 9 ,5 + 1 X 8 1

 

Групповые средние роста мужчин по окружности груди, пред­ ставляющие эмпирический ряд регрессии X по Y, рассчитаны тем же способом. Например, величина 155,8 что стоит первой в ниж­ ней строке таблицы, вычислена так:

1 X 154,5 + 2 X 156,5 , гго

Следующая за ней величина 158,0 получена в результате сле­ дующего расчета:

2 X 152,5 + 1 X 154,5 + 1 X 156,5 + 1 X 158,5 + ... ->

-<-...+ 2 X 162,5 + 1 X 164,5

158,0 и т. д.

8

228


Будучи нанесены на график, эмпирические ряды групповых средних ух и Ху выражаются в .виде эмпирических линий регрес­ сии (рис. 22).

Обычно, как это видно и на рис. 22, эмпирические ряды рег­ рессии, изображаемые графически, выглядят в системе координат в виде не плавно идущих, а ломаных линий. Причина этого явле­ ния заключается в том, что наряду с основными причинами, опре-

Рис. 22. Регрессия окружности груди по длине тела у мужчин:

на оси абсцисс — длина тела (рост) мужчин (см), на оси ординат — окружность груди (см). Прямые линии изображают теоретически вы­ численные линии регрессии X по У и У по X

деляющими главное направление регрессии, на ней сказывается влияние многочисленных второстепенных (случайных) факторов, нарушающих плавный ход линии регрессии. Отсюда возникает необходимость выравнивания эмпирических рядов и линий рег­ рессии, т. е. нахождение наиболее устойчивых, узловых точек ли­ нии связи, отображающих функциональную зависимость между переменными величинами X и Y при полной изоляции действую­ щих на нее случайных причин.

ВЫРАВНИВАНИЕ ЭМПИРИЧЕСКИХ РЯДОВ РЕГРЕССИИ

Под выравниванием подразумевается способ замены ломаной линии или ряда — регрессии, динамики, распределения — на плавно текущую, сглаженную линию, или освобожденный от ко­ леблющихся значений численный ряд. Существуют разные спосо­ бы выравнивания рядов.

229

Графический способ

Наиболее простым, не требующим вычислительной работы, является способ графического выравнивания эмпирических рядов и линий регрессии. Сущность его проста. После того как эмпири­ ческий ряд нанесен на график— в виде ломаной линии, или в ви­ де отдельных точек, соответствующих групповым средним, на глаз, определяются срединные точки линии регрессии, которые затем соединяются при помощи линейки или лекала сплошной линией или пунктиром, в результате чего и получается выравнен­ ная линия регрессии.

Недостаток этого способа заключается в том, что он не исклю­ чает влияние индивидуальных свойств исследователя на резуль­ таты выравнивания. Поэтому там, где требуется большая точ­ ность выравнивания рядов, этому способу предпочитают другие.

Способ скользящей средней

Более точные результаты получаются при выравнивании эмпи­ рических рядов последовательным исчислением средних арифме­ тических из двух или трех соседних значений ряда. Например, имеются следующие данные о возрастных изменениях веса дете­ нышей гамадрилов:

Возраст

(мес.):

0

1

2 3

4

5

6

Средний

вес (кг):

0,7 1,0 1,6 1,4 1,9

2,0

2,6

Сначала находим сумму первых трех значений ряда:

0,7 +1,0 +

+ 1,6= 3,3. Затем определяем

сумму следующих

трех

значений,

стоящих за первым: 1,0+1,6+1,4 = 4,0. Далее берем сумму дру­ гих последующих значений: 1,6+ 1,4+1,9 = 4,9 и так до конца ря­ да. Проделав эту операцию, делим каждую полученную сумму на число слагаемых, т. е. на 3, и находим усредненные значения ряда: 1,1 1,3 1,6 1,8 и 2,2.

Способ скользящей средней прост и особенно удобен в тех слу­ чаях, когда эмпирический ряд представлен многим числом членов и потеря двух из них (крайних) заметно не сказывается на его общей структуре. Ценность этого способа заключается также в том, что он позволяет себя модифицировать: усредненные величи­ ны можно получать из двух, трех и большего числа членов эмпи­ рического ряда.

Способ наименьших квадратов

Из всех способов выравнивания эмпирических рядов наиболее точным является способ наименьших квадратов, предложенный Гауссом в 1806 г. В основу этого способа положено требование, чтобы сумма квадратов отклонений вариант от средней арифме­ тической была наименьшей, т. е. 2(г/< — г/)2 = тіп . Отсюда и на­ звание метода.

230


Регрессионный анализ тесно связан с методом наименьших квадратов. При решении конкретных задач применение этого способа сводится к следующим практическим операциям:

1.Исходя из геометрического места точек двух переменных А

иУ, подбирается соответствующее математическое уравнение, возможно полнее отображающее существующую между ними за­ висимость. Этот вопрос решается путем логического анализа фактического материала, посредством группировки его в эмпи­ рические ряды. Более наглядное представление о форме суще­ ствующей зависимости между переменными А и Y дает графиче­ ское изображение эмпирических рядов.

2.В исходное уравнение подставляют соответствующие эмпи­ рические данные, образуя систему нормальных уравнений.

3.Решая совместно полученные уравнения, определяют их параметры.

4.Подставив значения параметров в общее уравнение, полу­ чают эмпирическое уравнение регрессии, выражающее функцио­

нальную зависимость между переменными X и Y.

5. Подставляя в эмпирическое уравнение значение перемен­ ной X, находят соответствующие (ожидаемые) средние значения другой переменной величины У. Таким способом получают сгла­ женный ряд регрессии У по А. А подставляя в уравнение значе­ ния У, можно рассчитать ряд регрессии X по У.

Способ наименьших квадратов имеет широкое применение в области статистического анализа массовых явлений.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Как уже сообщалось, для математического выражения связи

между переменными А и

У служит уравнение общего вида

Y = f(А), где символом f(X)

обозначается подбираемая форма

уравнения, более или менее полно выражающая функциональную зависимость средней величины одной переменной (ух) от значе­ ний другой переменной величины А. Такого рода математические уравнения называются корреляционными или, как их впервые на­ звал Ф. Гальтон, регрессионными уравнениями. Корреляционные уравнения или уравнения регрессии позволяют аналитически оп­ ределять ожидаемые (средние) значения одного признака по за­ данным числовым значениям другого, сопряженного с ним приз­ нака.

Зависимость между биологическими признаками может быть самой разнообразной. В большом числе случаев эмпирические регрессии выражаются простым уравнением линейной зависи­ мости:

ух — a + bx.

(120)

Здесь ух — групповая средняя арифметическая, или ожидаемое значение переменной У, соответствующее заданному значению

231


переменной X; а и Ъ— параметры уравнения; а служит свобод­ ным членом, а b является показателем пропорциональности, на­ зываемым коэффициентом регрессии.

Для определения параметров а и &применяется система нор­ мальных уравнений:

2 у =

ап*-\- 62х первое уравнение,

( 121')

Хху =

аЪх — &2х2 — второе уравнение.

Чтобы составить такую систему по п объему парных наблюдений или по числу членом эмпирического ряда регрессии, необходимо предварительно определить значения следующих величин: 2 г/, 2х, Хху и 2х2. В качестве примера воспользуемся результатами 20 наблюдений об изменчивости веса новорожденных гамадри­ лов (У) в зависимости от веса их матерей (J), в начале беремен­ ности (см. табл. 56) В табл. 57 находим нужные нам величины: 2г/ = 14,06; 2х = 237,4; Хху = 167,939 и 2х2 = 2861,60. Предполагая линейную зависимость между переменными X и У, составляем систему нормальных уравнений:

14,06 =

20а+ 237,4&,

(1)

167,939 =

237,4а + 2861,66.

(2)

Решая совместно эти уравнения, находим: а = 0,283 и Ъ = 0,03543. Откуда получается следующее корреляционное уравнение веса детенышей (ух) по весу их матерей (х):

ух = 0,03543х + 0,283.

Подставляя в это уравнение вместо х конкретные значения (вес самок-гамадрилов, выраженный в кг), можно определить сред­ ний ожидаемый вес новорожденных детенышей животных этого вида. Именно:

вес матерей

(х)\

 

10

11

12

13

14

15

16

ожидаемый

вес

детены­

 

 

 

 

 

 

шей (+ ):

 

 

0,64

0,67

0,71

0,74

0,78

0,81 0,85

В математической

статистике

доказывается, что

свободный

член уравнения линейной функции а = уЬх, или соответственно

а = х by, где

 

 

пЪху — 2хХ 2г/

 

 

(122)

 

 

п2х2 — (2х)2

 

 

п2хг/ — 2х X

 

 

(122а)

 

 

пХу2(Ху)2

или

 

Хху — пху

Ьу / х

(123)

 

 

2х2 — пхг

232


 

и

, _ Zxy — пху

 

 

Ох/у -----— ;

г г >

 

 

 

2 г/2 — пу2

 

 

 

Пху — (ПхХ^У)

или

Ьу!х =

 

п

----------------------------

 

 

 

2х2 —— (2*)2

 

 

 

 

п

 

 

 

Н х у - ^ - { Н х Х Ъ у )

 

 

Ьх/у = ----------

------ '------

.

 

 

2//2- - ( 2 г / ) 2

 

 

 

 

п

 

(123а)

(124)

(124а)

Эти формулы, полученные из совместного решения системы нор­ мальных уравнений, значительно облегчают вычислительную ра­ боту при определении параметров а и Ь, особенно на больших вы­ борках и при наличии многозначных числовых значений корре­ лированных признаков.

Воспользуемся этими формулами и найдем эмпирическое \равнение регрессии окружности груди (У) по длине тела (X) мужчин по данным табл. 77. Предварительно рассчитаем вспомо­ гательные величины Пу, Их, Пху, Их2 и Пу2, а также и некоторые другие величины, которые потребуются нам в дальнейшем. Рас­ чет приводится в табл. 78.

Т а б л и ц а 78

Рост Лг

Окруж­ ность груди У

148,5

81,5

150,5

82,0

152,5

80,7

154,5

81,0

156,5

82,1

158,5

83,8

160,5

83,9

162,5

83,9

164,5

85,0

166,5

86,1

168,5

86,7

170,5

86,1

172,5

86,4

174,5

85,9

176,5

88,8

ХУ

X2

Г2

h

 

(УХ-УѴ

12102,75

22052,25

6642,25

80,7

3,56

12,6736

12341,00

22650,25

6724,00

81,2

3,06

9,3636

12306,75

23256,25

6512,49

81,7

2,56

6,5536

12514,50

23870,25

6561,00

82,2

2,06

4,2436

12848,65

24492,25

6740,41

82,6

1,66

2,7556

13282,30

25122,25

7022,44

83,3

0,96

0,9216

13465,95

25760,25

7039,21

83,6

0,66

0,4356

13633,75

26406,25

7039,21

84,3

0,04

0,0016

13982,50

27060,25

7225,00

84,8

0,54

0,2916

14335,65

27722,25

7413,21

85,2

0,94

0,8836

14608,95

28392,25

7516,89

85,7

1,44

2,0736

14680,05

29070,25

7413,21

86,3 •

2,04

4,1616

14904,00

29756,25

7464,96

87,0

2,74

7,5076

14989,55

30450,25

7378,81

87,3

3,04

9,2416

15673,20

31152,25

7885,44

88,0

3,74

13,9876

2437,5 1263,9 205669,55 397213,75 106578,53 1263,9 — 75,0960

х = 162,247; г/ = 84,26; 2 = 26323,9917; 1/2 = 7099,7476

233