ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.04.2024
Просмотров: 291
Скачиваний: 1
ГЛАВА ДЕВЯТАЯ
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
ПОНЯТИЕ к о р р е л я ц и и
Биология в обширном смысле слова — наука о связях, кото рые она изучает на разных уровнях организации живого. Самые различные биологические признаки находятся в определенной зависимости друг от друга и от условий окружающей среды. Еще Гиппократ отмечал, что между строением тела и предрас положенностью к определенным заболеваниям, между телосло жением и темпераментами людей существует заметная связь. Известна также связь между телосложением и направлением продуктивности у сельскохозяйственных животных, между ка чеством семян и урожайностью сельскохозяйственных культур и т. д. Однако недостаточно лишь констатировать наличие су ществующих в живой природе связей, их нужно измерять.
Выше отмечалось, что для точного выражения зависимости между переменными величинами X и У в математике применяет ся понятие функции. Оно имеет в виду случаи, когда определен ному значению, которое может принять переменная величина У, называемая аргументом, соответствует только одно значение переменной X, называемой функцией. В общем виде это запи сывается так: Y —f'(X). Такого рода однозначная зависимость между переменными величинами называется функциональной. Примером может служить ускорение химической реакции в два раза при повышении температуры на 10° С, или тот факт, что ра диус окружности находится в строгом отношении к ее длине, что угол правильного многоугольника зависит от числа сторон, но не зависит от их длины и т. д.
Но такие однозначные или функциональные связи встреча ются далеко не всегда, особенно в биологии, где числовому зна-' чению одного признака соответствует не одно и то же опреде ленное значение, а целая гамма варьирующих значений другого, связанного с ним признака (или признаков). Известно, напри мер, что продуктивность сельскохозяйственных животных в зна чительной степени зависит от рациона и режима кормления. Но также известно, что рацион и режим кормления определяют уровень продуктивности животных не однозначно. Кроме этих факторов на продуктивности животных сказывается влияние и многочисленных других причин — таких, как наследственность, возраст особей, уход за ними и т. п., вследствие чего признаки варьируют и зависимость между ними, рассматриваемая на по пуляционном уровне, не обнаруживает характера функциональ ной связи.
1 7 0
Такого рода зависимость между |
переменными |
случайными |
|||||
величинами X и У, при которой каждому значению одной из них |
|||||||
соответствует не какое-то |
конкретное значение, а |
определенная |
|||||
групповая средняя другой |
величины, |
т. |
е. |
y x = f ( X i ) |
или ■ху= |
||
=НУі)> |
называется корреляционной, |
или |
просто |
к о р р е л я |
|||
ц и е й 1. |
Математический |
анализ связей, существующих между |
случайными величинами, составляет содержание корреляцион ного анализа.
ОСНОВНЫЕ ЗАДАЧИ КОРРЕЛЯЦИОННОГО АНАЛИЗА
Корреляционный анализ сводится к измерению тесноты или степени сопряженности между варьирующими признаками, а также к определению формы и направления существующей меж ду ними связи. По направлению корреляция бывает положитель ной, или прямой, и отрицательной, или обратной, а по форме —• линейной (прямолинейной) и нелинейной, или криволинейной. При положительной корреляции групповые средние одного приз нака возрастают с увеличением значений другого признака. При отрицательной корреляции груіппшые средние одного приз нака уменьшаются при увеличении значений другого признака. Например, с увеличением веса молочных коров замечается воз растание их удоя, в то же время жирномолочные коровы, как правило, дают меньше молока по сравнению с животными той же породы, обладающими низким процентом жира в молоке. Конеч но, не исключены и такие случаи, когда при увеличении одного признака другой сначала возрастает, а затем его значения начи нают убывать.
Корреляция называется линейной, когда направление связи между признаками X и У графически и аналитически выражает ся прямой линией. Если же корреляционная зависимость между переменными X я Y имеет иное направление, она называется не линейной. Во всех случаях задачи корреляционного анализа оста ются одни и те же: установление формы и направления связи, существующей между варьирующими признаками, измерение ее силы или тесноты с последующей оценкой достоверности эмпири ческих показателей связи.
1 Термин корреляции (лат. correlatio— соотношение, связь) впервые при менил Ж . Кювье в труде «Лекции по сравнительной анатомии» (1806). А са мый метод корреляции вошел в науку из практических задач морфологии и генетики. Математические обоснования метода даны Огюстом Браве в 1846 го ду. Однако Браве (1811 — 1863) имел в виду «теорию ошибок в плоскости», т. е.
распространение закона ошибок Гаусса на случаи двух переменных Y иX, и биологическими корреляциями не занимался.
Первыми, кто использовал и развил метод корреляции, были Гальтон и Пирсон, занимавшиеся изучением проблемы наследственности и изменчивости. С именем Гальтона связано и введение термина корреляция в биометрию (1886).
171
МЕТОДИКА КОРРЕЛЯЦИОННОГО АНАЛИЗА
Корреляцию между признаками можно обнаружить разными способами. Уже само расположение в возрастающем или убыва ющем порядке двух сопряженных рядов позволяет судить о на личии или отсутствии связи между ними. Более наглядное пред ставление о форме и направлении корреляции дают корреляци онные таблицы и особенно графики регрессии, показывающие корреляционную зависимость между признаками в ее динамике (см. ниже).
Для измерения степени сопряженности между варьирующи ми признаками служат параметрические и непараметрические показатели. Выбор того или иного показателя зависит, во-первых, от того, по каким признакам проводится корреляционный ана лиз— количественным или качественным, а во-вторых, от формы корреляционной зависимости (линейная или нелинейная связь), а также и от того, группируются или не группируются выбороч ные данные в вариационные ряды. Во всех случаях корреляцион ный анализ служит инструментом количественного выражения связей, существующих между варьирующими признаками, он позволяет оценивать достоверность эмпирических показателей корреляции, оставаясь при этом методом статистического, а не биологического анализа. Поэтому, несмотря на большую цен ность этого метода в области биологических исследований, его не следует переоценивать и тем бол^е нельзя подменять фор мально-статистическим методом корреляции биологический анализ фактов.
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Чтобы измерить степень сопряженности между признаками X я Y, необходимо, как подсказывает элементарная логика, сопо ставить соответствующим образом их значения друг с другом. Если при увеличении одного признака пропорционально увеличи вается размер другого, это указывает на наличие положитель ной связи, и наоборот, когда увеличение одного признака сопро вождается уменьшением значений другого, — налицо обратная или отрицательная связь между ними.
Но так как при наличии корреляции приходится иметь дело не с приращением функции, а с сопряженной вариацией призна ков, то и выражать ее следует в виде взаимосопряженных откло нений от средних величин, характеризующих эти признаки. Од ним из таких показателей, характеризующих сопряженную вари ацию двух признаков X и У, служит эмпирическая ковариация (Соѵ):
Соѵ = — 'Z,(xi — х) (Уі — у),
172
или |
|
— |
(ХіУі — Пху). |
|
Cov = |
п s |
|
Обычно, в силу разноименное™ коррелируемых величин X и У, сопоставляют не сами отклонения от средних, а их преобразован ные (неименованные) значения в виде нормированных отклоне-
Х і — X |
, |
Уі — у _ |
ниигж= -------- |
и ty = |
---------. Отсюда получается эмпирический |
O x |
|
Оу |
коэффициент корреляции, обозначаемый латинской буквой г:
|
— (S k X ty), |
Соѵ |
2 (Хі — х) (Уі — у) |
|
|||
|
или г |
tlGxGy |
|
(92) |
|||
|
п |
|
GxGy |
|
|
|
|
Коэффициент |
корреляции — величина |
относительная; |
он выра |
||||
жается в долях единицы. |
|
формулу |
92 |
||||
|
Обозначив |
через |
ах— Хі—х и через ау=уі—у , |
||||
можно выразить в следующем виде: |
|
|
|
|
|||
|
|
|
XiCLxQy |
|
|
(92а) |
|
|
|
|
" 1 |
|
|
||
|
|
|
tlOxGy |
|
|
|
|
или с учетом повторяемости отклонений: |
|
|
|
|
|||
|
|
|
Ърахау |
|
|
(926) |
|
|
|
|
tlGxGy |
|
|
||
|
|
|
|
|
|
|
|
„ |
2 |
|
2 |
2 |
2 |
2 |
2 |
Поскольку а* = ------ и ау — --------, откуда Иах= п а х и |
2>ау= п о у, |
||||||
|
|
п |
п |
|
|
|
|
формула 92 легко преобразуется в аналогичную формулу Пирсо на:
2 сіх(іу |
2 (ixciy |
2 ахсіу |
похОу |
Іпо2х X па2у |
ysa* X 2a2^ |
Эта формула освобождает исследователя от необходимости вы числять средние квадратические отклонения, что заметно облег чает расчет коэффициента корреляции.
Приведенные общие формулы коэффициента корреляции трансформируются в целый ряд рабочих формул, более пригод ных в практической работе. Многие из 'них приводятся ниже.
ОСНОВНЫЕ СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Коэффициент корреляции служит для измерения силы или тес ноты линейной связи между значениями признаков X и У. В об щем ряду п измерений он может принимать любые значения от
173
—1 до +1, так как в отношении его выполняется неравенство
—1 ^ г ^ + 1. Когда ковариация, которая может быть как поло
жительной, так и отрицательной больше нуля (Сои>0), |
то и |
г > 0. Это значит, что большим значениям X соответствуют |
пре |
имущественно большие же значения У, и наоборот. В таких слу чаях и говорят о наличии положительной связи между перемен ными X и У. При Соо<0 имеет место отрицательная корреляция, когда большие значения X обусловливают появление малых значений У, и наоборот. Иными словами, при наличии положитель ной связи между варьирующими признаками величина коэффи циента корреляции имеет положительный знак ( + ), а при нали чии обратной или отрицательной связи этот показатель приобре тает отрицательный знак (—•); при этом величина коэффициента корреляции не выходит за пределы от —1 до +1. Когда г = 0, это означает отсутствие корреляции, а при r= 1 налицо функцио нальная связь между признаками. Таким образом при г> 0 этот показатель характеризует не только наличие, но и степень сопря женности между значениями варьирующих признаков: чем силь нее сопряженность, тем выше коэффициент корреляции и, наобо рот, чем слабее связь между признаками, тем ниже значение
коэффициента корреляции. Вместе с тем, имея |
положительный |
|
или отрицательный знак, коэффициент корреляции |
позволяет |
|
определять и направление связи. |
|
|
Обычно считается, что г<0,3 указывает на слабую связь, при |
||
0 ,3 ^ г ^ 0 ,5 связь признается умеренной. Если |
же 0 ,5 ^ г^0,7, |
|
корреляция считается значительной, а при 0,7 |
г^ 0 ,9 |
сильной и |
при г>0,9 очень сильной, близкой к функциональной связи. Ра зумеется, это чисто условные подразделения, а не общепринятый стандарт при оценке степени сопряженности между варьирую щими признаками.
ДОВЕРИТЕЛЬНАЯ ОЦЕНКА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Выборочный коэффициент корреляции, являясь величиной случайной, может оказаться отличным от нуля даже при незави симом варьировании признаков. Отсюда возникает необходимость рассматривать его в качестве оценки генерального параметра
(р). Нулевая гипотеза применительно к оценке генерального р по величине эмпирического коэффициента корреляции (г) заклю чается в предположении, что р= 0, т. е. между случайными вели чинами Х и У корреляция отсутствует.
Для проверки нулевой гипотезы служит критерий ^-Стьюден- та, который при достаточно большом числе наблюдений ( п ^ І О 0) представляет отношение эмпирического коэффициента корреля ции к своей ошибке, вычисляемой по формуле
1 — г2 тт= — ==—. (94)
у«
174