Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 697

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Линейные

модели с одной

переменной

291

Пример 4.6.2. Критерий сериальной корреляции

Дарбина—Ватсона

Следующие данные представляют собой скорость потока через водяную турбину как функцию проходного отверстия:

Проходное

Скорость

Проходное

Скорость

отверстие,

потока,

отверстие,

потока,

см

мз/с

см

мз/с

1,1

8,92

5,1

25,01

2,3

15,51

4,5

23,03

2,9

20,08

5,5

29,47

2,5

16,38

6,0

32,97

3,5

19,53

6,3

35,05

4,0

22,12

6,5

36,58

4,7

24,60

6,7

38,30

5,0

25,35

6,9

40,06

1. Предположите, что эти данные можно описать с помощью

линейной модели с некоррелированными

остатками г) = ßo _ Ь ßi-£-

Найдите Ь'0 и by — оценки параметров ß<J

и ßi и вычислите 16 остат­

ков. Исследуйте их.

2. Примените критерий Дарбина — Ватсона сериальной кор­ реляции. Коррелированы ли остатки?

Решение

Оценка уравнения регрессии, полученная методом наимень ших квадратов, имеет вид

Y = 2,792 + 5,0101л:.

Критерий значимости F для параметра ß4 указывает, что этот параметр модели является значимым. Остатки равны:

0,616

- 1 , 7 4 2

0,113

1,193

—2,495

0,690

2,756

—3,336

1,218

1,061

—2,310

1,936

—0,799

—0,880

2,694

—0,714

 

 

Очевидно, что эти остатки не распределены относительно нуля

по случайному

закону, как это должно быть. (Анализ проводит­

ся в разд. 7.1.)

Вычисленная

по формуле

(4.6.13) статистика D

равна

 

 

 

 

іб

 

 

 

д = < = Ч ё

= в д = 0

' 3 3 6 -

f=i


292

Глава 4

 

И з табл. В.10 для двустороннего критерия с а

= 0,05, а/2 = 0,025

и К =

1 находим Di = 0,97. Следовательно,

гипотеза о том, что

ненаблюдаемые ошибки не коррелированы, отвергается. Корреля­

ция

остатков

положительна.

 

 

 

Прежде

всего исследуем

модель

 

 

 

 

 

 

Yt

= $xt

-1- eti

 

(4.6.14)

где

t — индекс

времени. Пусть хіг

х2, • • .,

хп — ряд

последо­

вательных

значений

независимой

переменной, a Yt,

Y2, . . .

. . .,

Yn — измеренные

значения

зависимой

переменной. Хотя

остатки могут быть коррелированы между собой, математическое ожидание каждого из остатков равно нулю и предполагается, что

они не коррелированы с

xt:

 

 

g { 8 , } = 0 ,

 

M{xtst}=0.

Оценка коэффициента ß получается методом наименьших

квадратов, как описано в

разд.

4.3:

 

 

Ъ = -Ц

.

(4.6.15)

 

2 *\

 

 

t=l

 

 

Отклонение Ъ от ß можно записать, подставляя выражение (4.6.14)

для величины Yt в формулу

(4.6.15):

 

n

 

2 x&t

r

n

 

) S*!

Если взять члены с одинаковым запаздыванием по времени, квадрат отклонения можно записать в виде

пп - 1

 

2 х\г\ 4-2 2

xtxt+1etzt+i

+

.. .-+2ххх

.

 

t=î

 

 

 

 

i=l

 

 

 

Нужно

найти математическое

ожидание

 

величины (b — ß)2 , но

так как

значения et , е 2 , . . .

неизвестны,

приходится заменить

 

п - 1

 

п - 1

 

члены типа Щ { 2 xtxt+ietEt+i)

на их оценки 2 xtxt+iEtEt+i,

где


Линейные модели с одной

переменной

293

и тем самым получить оценку дисперсии Ъ. Кроме того, поскольку корреляция ztxt+kEtEt+k уменьшается по мере роста временного разрыва между двумя членами, при аппроксимации дисперсии Ъ можно вычеркнуть все члены после t + к как пренебрежимо малые. Следовательно,

Var {&} Ä;

n

n—1

 

 

 

n-h

 

2*!£ !+2

2 xtxMEtEt+i+...+2

S

xtxt+hEtEt+k

^ t=l

t=l

 

 

 

i=l

(4.6.16)

 

 

 

 

 

 

 

 

 

t=l

 

 

Можно рассмотреть

подобную, но более

сложную модель

 

Yt

=

ß; + ß A + е„

(4.6.17)

что приводит к

следующим

результатам:

 

 

 

 

 

2

( ^ - х ) У 4

 

 

 

h. — t=i

 

(4.6.18)

 

 

 

 

(=1

 

 

 

К-

 

Y—hl,

(4.6.19)

 

 

 

 

 

 

 

 

_

 

л

"

 

 

 

X

=

1

VI

 

 

 

T T J U ,

 

în

У=42^,

 

 

 

Со

^

2xCi

,

(4.6.20)

 

 

V a r { f o ; } ~ ^

 

_

+ ^ а г { 6 , } ,

 

 

 

п

n

 

1

 

 

 

 

n

2

 

c**—*)2

 

 

 

Varié,} « - s — ^

i=l

 

,

 

(4.6.21)

 

 

 

<?2

 

 

 

 

 

 

 

[ 2 ( * t - * ) 2 ] 2

 

 

где

 

 

 

 

 

 

 

 

 

c 0

= s m + 2 " s

 

 

+ . . . + 2 2 * В Д + ь , '

 

Ci = 2

 

£f +

2 S*(**-*)

+ 2 ,-х)

EtEl+ft

«=i

 

 

J=I t=i

 

 

 

j=i i=i

 

C 2

= 2

 

Я? + 2 2

"S

 

(xt-x)

(xt+J-x)

EtEt+).

 

t—i

i=i <=i

 

 

 


294

Глава 4

 

 

Кроме

того,

 

 

 

СоѵТб;, ЬІ) « — ^ —

x Ѵаг {h}:

(4.6.22)

Кроме уравнений (4.6.14) и (4.6.17), можно предложить много других моделей, в которых остатки не являются статистически независимыми, но описать их здесь не представляется возможным. В дополнительной литературе к этой главе можно найти обсужде­ ние методов обнаружения и рассмотрения различных других типов моделей с коррелированными остатками и способов оцени­ вания величины смещения, возникающего при игнорировании корреляции, когда она имеет место.

4.7. О Б Н А Р У Ж Е Н И Е И У С Т Р А Н Е Н И Е В Ы Б Р О С О В

В разд. 3.8 исследовалась проблема выбросов, или экстремаль­ ных точек, и описывались критерии обнаружения таких значений в некоторой выборке. Даже тщательно подготовленные экспери­ менты могут дать неоднородные данные в силу того, что могут измениться нерегулируемые экспериментальные условия, экспери-^ ментатор может совершить ошибку в процессе измерения или записи результатов и т. п. Если экспериментатор не обнаружит эти «ложные», «ошибочные», выбросы или аналогичные аномаль­ ные измерения, они будут учитываться наряду с правильными измерениями при построении линии регрессии; при этом они могут вызвать значительное смещение оценок параметров, осо­ бенно оценок их дисперсий, в которые экстремальные точки вносят

существенный вклад. В связи с этим

экспериментатор стремится

отбросить выскакивающие

значения.

С

другой

стороны ему

не хотелось бы исключить

все измерения,

которые

значительно

отклоняются от предполагаемого (здесь линейного) хода кривой,

ибо эти

отклонения могут содержать истинную

информацию

и свидетельствовать о том, что линейная

модель

неверна.

Одна

из трудностей при отбрасывании

аномальных значений

в рамках линейного регрессионного анализа (в отличие от методов разд. 3.8) состоит в том, что экспериментальные данные пытаются уложить в некоторую схему; иначе говоря, между ними предпо­ лагается некоторая функциональная связь. Следовательно, снова

приходится

возвращаться

к вопросу о том, что означает выброс.

В разд. 3.8

под выбросом

понималось измерение, выделяющееся

среди других, что можно было заметить хотя бы по его числовому значению. Однако в регрессионном анализе должны быть приняты

в расчет

числовое значение измерения, его местоположение

и характер

модели. Несмотря на то что график измерений харак­

теризуется

линейной моделью, это представляет собой ограниче-


Линейные модели

с

одной

переменной

295

ние, вносимое исследователем,

и

переменные процесса

вовсе не

обязаны удовлетворять ему. Если какое-либо измерение

отклони­

лось от кривой и смежные измерения проявляют ту же тенденцию, хотя, возможно, и в меньшей степени, не исключено, что более правдоподобно рассматривать это измерение не как ложный выброс, а как реальное отклонение от предполагаемой модели. С другой стороны, отдельное измерение, стоящее особняком от ближайших соседних измерений, вероятно, следует признать ложным. Чтобы измеренное значение можно было классифициро­ вать как «выскакивающее», оно должно существенно нарушать корректно принятый ход в (линейной) модели.

Хотя статистика,, по-видимому, и могла бы предложить объек­ тивные критерии для отбрасывания аномальных значений, при выборе методов анализа данных все же важную роль играют личное мнение и предубеждение. Вероятно, нет лучше критерия, чем суждение опытного экспериментатора, знакомого с применяемой им измерительной техникой.

Одним из способов решения этой задачи статистическими мето­ дами является исследование остатков. Если остатки Yt — Yt вычисляются с учетом выбросов, это влияет на каждый остаток. По этой причине использование остатков в качестве основы для распознавания выбросов не очень удобно. Тем не менее пусть требуется проверить, отклоняется ли некоторое отдельное изме­ рение достаточно сильно от значения, предсказываемого оценкой линии регрессии, чтобы его с уверенностью можно было отнести к выбросам. Предполагается, что остатки распределены по нор­ мальному закону с нулевым средним по ансамблю и дисперсией

но

ансамблю, равной

а\..

Если

вычислить величину

[18]

 

 

 

У = И

^ І ,

 

(4.7.1)

где

Е+ — остаток

для

предполагаемого

выброса, Е+

— среднее

по

всем другим

остаткам,

а величина

sy. получена

по форму­

ле (4.3.15) с отбрасыванием подозрительного измерения, то при­ веденные в табл. 4.7.1 значения распределения У можно использо­

вать в качестве

критических значений для

сохранения

или

отбрасывания этого измерения. Если величина V превышает

значения, приведенные в таблице, то гипотеза

Н0: остаток

Е+

не соответствует

выбросу — отвергается.

 

 

К сожалению, если имеется не одно аномальное измерение, то критерий V, вообще говоря, не обнаруживает этих аномалий, особенно если анализируется менее 30 остатков. В случае несколь­ ких подозрительных значений можно применить один из крите­ риев Диксона [20]. Эти статистики характеризуют отклонение одного или нескольких элементов от соседних членов серии. Пред-