Файл: Методические указания к проведению практических занятий по разделу Элементы теории корреляции дисциплины Основы системного анализа и математической статистики..pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.03.2024

Просмотров: 6

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Пермский национальный исследовательский политехнический университет»

МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ПРОВЕДЕНИЮ ПРАКТИЧЕСКИХ ЗАНЯТИЙ

ПО РАЗДЕЛУ «ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ» ДИСЦИПЛИНЫ «ОСНОВЫ СИСТЕМНОГО АНАЛИЗА И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ»

для студентов магистратуры по направлению 08.04.01 «Строительство»

Издательство Пермского национального исследовательского

политехнического университета

2017

2

Составители: М.А. Макагонова, Н.В. Рогова, О.А. Федосеева

УДК 311.16 М54

Рецензент:

кандидат физ.-мат. наук С.М. Седова (Пермский национальный исследовательский политехнический университет)

Методические указания к проведению практических занятий по М54 разделу «Элементы теории корреляции» дисциплины «Основы системного анализа и математической статистики» для студентов магистратуры по направлению 08.04.01 «Строительство» / сост.

М.А. Макагонова, Н.В. Рогова, О.А. Федосеева. – Пермь: Изд-во Перм. нац. исслед. политехн. ун-та, 2017. – 15 с.

Методические указания составлены в соответствии с рабочей программой дисциплины «Основы системного анализа и математической статистики» по разделу «Элементы теории корреляции» для студентов магистратуры по направлению 08.04.01 «Строительство» Пермского национального исследовательского политехнического университета.

Отражены основные определения и понятия статистической и корреляционной зависимости. Разобраны методы определения коэффициентов линейной и нелинейной регрессии. Приведены задачи на нахождение коэффициента корреляции. Издание ориентировано на магистров, бакалавров и аспирантов.

УДК 311.16

© ПНИПУ, 2017

3

1. Статистическая и корреляционная зависимости

Одной из основных задач математической статистики является нахождение зависимости между двумя или несколькими случайными величинами.

Две случайные величины X и Y могут быть связаны функциональной зависимостью, когда каждому значению одной переменной соответствует вполне определенное значение другой. Однако строгая функциональная зависимость реализуется редко, т. к. случайные величины подвержены действию случайных факторов. В этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой.

Корреляционной называется статистическая зависимость, при которой изменение одной величины влечет изменение среднего значения другой.

Условным средним y х называют среднее арифметическое значений Y ,

соответствующих значению X x .

 

 

 

 

 

 

 

 

 

Пример 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть приx1 3

 

величина Y

 

приняла

значения

 

y1

3, y2 4, y3

6,

 

y4 7. Найти условное среднее.

 

 

 

 

 

 

 

 

 

 

 

Решение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 4 6 7

5.

 

 

 

 

 

 

 

 

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Корреляционной зависимостью

Y от X называется

функциональная

зависимость условной средней

 

от x :

 

 

 

f (x).

 

 

 

 

 

y x

 

yx

 

 

 

 

 

 

 

Уравнение

 

f (x) называется уравнением регрессии Y на

X .

 

 

yx

График f (x) называется линией регрессии Y на X .

 

 

 

 

 

 

 

Аналогично

определяется

условное

среднее

 

y

и

корреляционная

 

 

x

зависимость x y (y) X от Y .


Y a bx
(x1, y1), (x2, y2 ), ..., (xn , yn ),

4

2.Основные задачи теории корреляции

1.Установление формы корреляционной связи, т. е. вида функции регрессии (линейная, квадратичная, показательная и т. д.). Если обе функции регрессии f (x) и (y) линейные, то корреляцию называют линейной, в

противном случае - нелинейной.

2. Оценка тесноты корреляционной связи Y от X , которая оценивается величиной рассеяния значений Y около y х . Большое рассеяние означает слабую зависимость Y от X , либо вообще отсутствие таковой. Малое рассеяние указывает на наличие достаточно сильной зависимости Y от X .

2.1. Определение коэффициентов линейной регрессии

Пусть даны результаты n измерений двух случайных величин X и Y :

(x1,y1), (x2,y2 ), ..., (xn ,yn ).

Пусть принята гипотеза о линейной зависимости между величинами X и Y . Рассмотрим простейший случай: различные значения x признака X и соответствующие им значения y признака Y наблюдались по одному разу. В этом случае нет надобности использовать понятие условной средней, поэтому искомое уравнение yx a bx можно записать так: Y a bx.

Параметры a и b можно найти различными способами. Наиболее известным является метод наименьших квадратов (МНК).

Подберем a и b так, чтобы точки

построенные на плоскости xOy по данным наблюдений, лежали как можно ближе к прямой в смысле МНК.. Это требование означает, что параметры a и b будем выбирать из условия, чтобы сумма квадратов

отклонений (Yi yi ) была

минимальной. Следовательно, рассмотрим

функцию

 

 

 

n

 

n

 

F(a,b) (Yi yi )2

((a bxi ) yi )2

min.

i 1

 

i 1

 


5

Для отыскания минимума приравниваем к нулю соответствующие частные производные (необходимое условие экстремума):

 

F(a,b)

n

 

 

2 (a bxi yi )xi 0,

 

b

 

 

i 1

 

F(a,b)

n

 

a

2 (a bxi yi ) 0.

 

i 1

Выполнив элементарные

преобразования, получим систему двух

линейных уравнений относительно a и b:

 

n

n

2

n

a xi b xi

xi yi ,

 

i 1

i 1

 

i 1

 

 

n

 

n

 

 

 

yi .

n a b xi

 

 

i 1

 

i 1

Решая эту систему, найдем искомые параметры:

 

 

 

 

 

n n xi yi

n

xi n yi

,

 

 

 

 

 

 

 

b

 

i 1

i 1

i 1

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

n xi2

( xi )2

 

 

 

 

 

 

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

 

 

 

 

n

xi2 n yi

n

xi n xi yi

 

 

 

 

 

a

i 1

i 1

i 1

i 1

 

.

 

 

 

 

 

 

 

 

n n xi2 ( n xi )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

 

Угловой коэффициент b прямой линии регрессии Y

на X

называется

выборочным коэффициентом регрессииY на X .

 

 

 

Пример 2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти выборочное уравнение прямой линии регрессии Y на X

по данным

n 5 наблюдений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х

1,00

 

 

 

1,50

3,00

 

4,50

 

5,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

1,25

 

 

 

1,40

1,50

 

1,75

 

2,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


6

Решение:

По данным табл.1 составим таблицу, в которую занесем значения xi , yi , xi2 и xi yi .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

 

 

 

 

xi

 

 

 

 

 

yi

 

xi2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,250

 

 

 

1,00

 

 

1,25

 

1,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,100

 

 

 

1,50

 

 

1,40

 

2,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,500

 

 

 

3,00

 

 

1,50

 

9,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,875

 

 

 

4,50

 

 

1,75

20,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11,250

 

 

 

5,00

 

 

2,25

25,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i i

 

 

 

 

i

 

 

 

 

 

i

 

xi2

57,50

 

 

 

 

x

 

 

15

 

y

 

8,15

 

x y 26,975

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

5 26,975 15 8,15

0,202

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5 57,5 152

 

 

 

 

 

 

 

 

 

 

 

 

a

 

57,5 8,15 15 26,975

1,024

 

 

 

 

 

 

 

 

5 57,5 152

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Искомое уравнение регрессии имеет вид: Y 1,024 0,202x .

Для того чтобы получить представление, насколько хорошо вычисленные

по этому уравнению значения Yi

согласуются с наблюдаемыми значениями

yi , найдем отклонения(Yi yi )

 

 

 

 

 

 

 

Таблица 3

 

 

 

 

 

 

 

x i

yi

Yi

Yi yi .

 

1,00

1,25

1,226

-0,024

 

 

 

 

 

 

 

1,50

1,40

1,327

-0,073

 

 

 

 

 

 

 

3,00

1,50

1,630

0,130

 

 

 

 

 

 

 

4,50

1,75

1,833

0,083

 

 

 

 

 

 

 

5,00

2,25

2,034

-0,216

 

Как видно из таблицы, не все отклонения достаточно малы. Это объясняется малым числом наблюдений


7

2.2. Выборочный коэффициент корреляции

Произведение

b

x

 

r

 

− носит

название выборочный коэффициент

 

 

 

 

 

 

 

 

 

 

 

y

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

корреляции.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)2 ,

 

 

 

 

 

(

 

)2 - выборочные дисперсии,

D x

x 2

(

 

 

D y

y 2

 

x

 

y

 

 

 

 

 

)2 ,

 

 

 

 

(

 

)2

- выборочные средние квадратические

x

 

x2

(

 

y

 

y2

 

 

x

y

отклонения.

Выборочный коэффициент корреляции является мерой линейной зависимости между двумя наблюдаемыми величинами, характеризует

 

тесноту связи между СВ X и Y и определяется равенством: r

xy

 

x

 

y

.

 

 

 

 

 

 

 

 

 

 

в

 

x

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Свойства коэффициента корреляции

 

 

 

 

 

 

 

 

1.

Коэффициент корреляции rв

принимает значения на отрезке [ 1; 1], т. е.

 

1 rв 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Чем ближе

 

rв

 

к 1, тем связь сильнее. Чем ближе

 

rв

 

к 0, тем связь слабее.

 

 

 

 

3.

Если все значения переменных увеличить (уменьшить) на одно и то же

 

число или в одно и то же число раз, то величина выборочного

 

коэффициента корреляции не измениться.

 

 

 

 

 

 

 

 

4.

Приrв 1 корреляционная связь представляет линейную функциональную

 

зависимость. При этом линии регрессии Y на X и X на Y совпадают, все

 

наблюдаемые значения распределяются на общей прямой.

 

 

 

 

 

 

 

 

5.

Если с ростом одной СВ

значения второй возрастают, то

rв 0, если

 

убывают, то rв 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

6.

При rв 0 линейная корреляционная связь отсутствует, групповые средние

 

переменных совпадают с их общими средними, линии регрессии Y на X и

 

X на Y параллельны осям координат.

 

 

 

 

 

 

 

 

 

Выборочное уравнение линейной регрессии Y на X имеет вид: