Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 777

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

472

Глава 7

в которых векторы х и ß не должны совпадать. Предположим далее, что правильна модель 1, так что

У = Ч 1 + е. Если определить переменную как

^ [ У - І ^ + УО]

и подставить в нее выражение для У, то получим

Я = Лі-4-(Уі + У 2 ) + е.

Теперь предположим, что вектор b очень близок к ß и, следо­ вательно, оценка Уі близка к гц. Тогда, заменив щ на У 1 ? получим

Z ^ - i - O ^ - y O

+ e,

(7.4.3)

и график зависимости [У — Ѵ2 (Уі +

У2 )] от У 2 — У 4

будет

иметь наклон, приблизительно равный —Ѵ2, если гипотеза о том, что модель 1 корректна, является справедливой. Можно сделать вывод, что значимые отрицательные значения к указывают на то,

что оценка уравнения регрессии Уt лучше, чем У 2 ; следовательно, модель 1 лучше модели 2. Подобный анализ в предположении,

что правильным уравнением служит У 2 , приводит к заключению, что X = Ѵ2, т. е. должно получиться значимое положительное значение X. Если величина Я незначимо отличается от нѵля, ника­ кого выбора между Yy и У 2 сделать нельзя.

Пример 7.4.1. Критерий Вильямса и Клута

Были получены следующие данные, характеризующие ущерб от наводнения в виде функции от величины стока в двух реках. Хотя эксперимент не был спланирован, эти данные достаточно хорошо согласуются с предположением о независимости ошибок, так как получались в различные периоды времени.

Сток X,

Ущерб У,

Сток X,

Ущерб Y,

Сток X,

Ущерб Y,

мЗ/с-10-з

долл. • 10-3

мз/с.. Ю-з

долл. • Ю-з

мз/с- Ю-з

долл • 10—:

61

0

100

290

150

1600

64

50

105

340

160

2100

70

100

112

420

170

2500

75

150

120

520

180

2900

83

180

127

670

190

3300

88

210

134

810

200

3700

94

250

142

1200

 

 

График, приведенный на фиг. П.7.4.1а, показывает, что эти данные можно описать степенным рядом. Чтобы излишне не


Определение

наилучшей

модели

473

усложнять модель, осуществлялась подгонка линейных уравне­ ний регрессии, содержащих члены х, х2 и х3. Для лучшего согла­ сия вблизи значения х == 61 к полиному была добавлена пере­ менная 1/(х — 60). Член, содержащий эту переменную, имеет большое значение вблизи ее полюса и пренебрежимо ^мал при больших X.

4000 i

,

• данные;

Для того чтобы сделать члены уравнения регрессии^величинами приблизительно одного порядка, в независимые переменные были введены масштабные множители

Хі = x-Ю-2,

х2 = x2 -Ю-4 ,

х3 = х 3 Л 0 ~ в ,

у * = Г . Ю - 3 .

В табл. П.7.4.1а приведены регрессионные коэффициенты для четырех линейных моделей, полученные методом наименьших квадратов с іо, == 1.

474

Глава 7

Таблица П.7Л.іа

Оценки уравнений регрессии для моделей *)

Модель 1:

 

 

 

 

ж —60

 

&о = 2840+1490

 

 

 

bt

= — 74,1+37,3

 

 

Ъ2

= 0,572+0,298

 

 

*з = - 8 , 9 2 - 1 0 - * ± 7 , 5 8 - Ю - 4

Модель 2:

64

=267±289

 

 

Y 2

= Ъ0-\-ЪІХ-{-

b2x2 - f 63 гЗ

 

Ь0

=

1990+1280

 

 

ЬІ

=

— 55,3+33,7

 

 

62

=0 , 4 3 7 ± 0 , 2 8 0

 

Модель 3:

=

- 580 . 10 - 4 ±7,33 - 10 - *

Y 3

= bg -f- byx -\-

b2x2

 

 

Ь0

= 1050+452

 

 

 

Ьі

= — 292+7,6

 

 

ь2=

0 , 2 1 7 ± 0 , 0 3 0

i.

Модель 4:

У 4

= b0 + bix + b2x^+

°І

x _ 6 0

 

Ьо

= 1190+589

 

 

 

Ьі = — 31,3+9,36

 

 

6 2

= 0,224+0,035

 

ь4 = — 155+297

l)После знака ± указаны значения, которые прибавляются кь ^ при 95%-ном до­ верительном интервале для ß^.

В табл. П.7.4.16 приведены суммы квадратов остатков SSR для каждой модели и соответствующие средние квадраты sj. Значимого различия в согласии этих моделей с эксперименталь­ ными данными нет. Произвольно отбрасывая две модели с наи­ большими дисперсиями, оставляем модели 1 и 2, между которыми

 

 

 

 

Таблица

П.7.4.16

 

Суммы

квадратов остатков

 

 

Число степе­

 

 

Средний

Модель

2

( У І - У І ) 2 ,

квадрат

ней свободы

і=1

s2.- Ю-з

 

V

 

 

 

 

 

SSR -10-3

T

 

15

 

 

120

8,0

 

16

 

 

151

9,4

 

17

 

 

178

10,5

 

16

 

 

171

10,7

 

и нужно

сделать выбор.

Единственное

различие между

ними

I

состоит в

том, что модель

1 содержит

дополнительный

член


Определение наилучшей модели

475

 

pt /(x — 60). Для определения наилучшей из этих двух моделей

воспользуемся критерием Внльямса — Клута.

В табл. П.7.4.ІВ приведены данные и результаты расчетов, необходимые для вычисления по (7.4.2). На фиг. П.7.4.16 показан

Таблица U.7.4.1«

 

 

Р а с ч е ты

для критерия

Внльямса — Клута

У

 

 

Ys — І"і

 

2 = У _ 1 ( У 1 + У * )

0

—19

118

137

50

—50

50

143

64

—79

103

—53

100

126

96

- 30

111

—11

150

110

69

—41

90

40

180

113

88

—25

100

80

210

136

122

—14

129

81

250

186

182

—4

184

66

290

257

261

4

259

31

340

334

341

7

337

3

420

465

475

10

470

-50

520

647

657

10

652

—132

670

833

841

8

837

— 167

910

835

888

48

859

51

1200

1305

1304

—1

1305

—105

1600

1593

1587

—6

1590

10

2100

1984

1971

—13

1978

122

2500

2404

2389

—15

2397

103

2900

2847

2834

—13

2840

60

3300

3308

3304

—4

3306

—6

3700

3782

3796

14

3789

- 89

график зависимости Y — V 2 (Y\ -\- Y^)

от Y2 — l ' i для всех

значений Z, исключая первую строку табл. П.7.4.1в, В которой

появилось отрицательное значение Y\.

Угловой коэффициент

линии наилучшей подгонки, проходящей через начало координат, вычисленный по формуле (4.3.7а), оказался равным —0,473.

Однако Ѵаг {b} « 8000/13

104 =

0,61 и доверительный интервал

для ß с уровнем значимости а =

0,05 (*і_а /2 =

2,13 для 15 степе­

ней свободы) имеет вид

—2,13 ^ ß < 1,19,

что не позволяет

заключить, что модель 1

сколько-нибудь лучше, чем модель 2.

На фиг. П . 7 . 4 . ІВ изображен график остатков для модели 1. Хотя нельзя заметить никакого продолжительного тренда, остатки все же не являются случайно распределенными. Можно заметить ряд непродолжительных трендов для величин стока 90 ч- 125 м3 /с и 160 -f- 200 мЗ/с. Наличие таких трендов не означает непримени­ мость модели, но указывает на то, что эту модель можно несколько улучшить.


200 r

Определение

наилучшей

модели

477

7.5. С Р А В Н Е Н И Е Н Е С К О Л Ь К И Х У Р А В Н Е Н И Й

Р Е Г Р Е С С И И

Д ля того чтобы можно было одновременно сравнивать несколь­

ко линейных или нелинейных

(по коэффициентам)

оценок уравне­

ний регрессии, Уилкс [15] предложил некоторый критерий, в кото­ ром все уравнения регрессии рассматриваются на равных основа­ ниях. Этот критерий сформулирован на основе однородности оста­ точных сумм квадратов для различных уравнений регрессии. Вильяме [16] дал ясное описание критерия Уилкса, а также указал, что этот метод является по существу приближенным, так как суммы квадратов для уравнений, которые не являются «пра­ вильными», содержат дополнительную систематическую компо­ ненту, отсутствующую в «правильном» уравнении.

Напомним, что для одной оценки уравнения регрессии можно осуществить дисперсионный анализ (табл. 5.3.1 и 5.3.2), который приводит к F-критерию как общему критерию значимости регрес­ сии. F-критерий можно использовать и для сравнения различных оценок уравнений регрессии, если объединить их в линейную комбинацию следующим образом. Пусть различные уравнения

регрессии,

подлежащие сравнению, обозначены как Y t , У2>

• • •

. . ., Yp,

a

Y* представляет собой линейную комбинацию

этих

уравнений

регрессии:

 

 

 

 

 

 

 

 

 

 

у * =

Ь * у 1 + г

, * у 2 +

. . . +b*Yp,

 

(7.5.1)

где

коэффициенты

Ь% выбираются

так, чтобы каждое уравнение

регрессии

вносило вклад в Y* в соответствии с его

пригодностью

в качестве оценки Y*.

Для удобства коэффициенты Ь% нормируют-

 

 

 

 

р

b% — 1.

 

 

 

 

 

ся

так, чтобы

51

По-видимому,

разумно

ограничиться

значениями

Р£

в

интервале

0 ^

ß | ^ 1.

Введем

величину

 

 

 

 

 

 

 

 

р

 

 

 

 

 

 

 

 

 

 

Y = j2lYb-

 

(7-5-2)

Предположим, что величина Уц, где индекс і указывает на то, что предсказанное значение Y относится к і-му набору данных, определяемому у'-м уравнением регрессии, рассматривается в каче­ стве независимой переменной, и каждой наблюдаемой зависимой переменной Yt (или Yt, если проводились повторные наблюдения) соответствует один такой набор Ytj. Данный критерий позволяет определить, дает ли составная переменная Y* значимое

улучшение по сравнению со средним предсказанием Y. В табли­ це 7.5.1 дана сводка расчетов, необходимых для проведения дис­ персионного анализа. Если отношение дисперсий s\ls\ с р — 1


478

 

 

 

 

 

 

 

Глава

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 7.5.1

 

 

 

Дисперсионный а н а л и з для выбора модели

 

 

Число

 

 

 

 

 

 

 

 

 

Источник

степе­

 

 

 

 

 

 

 

 

 

ней

 

Сумма квадратов

 

 

Средний квадрат

рассеяния

 

 

 

свобо­

 

 

 

 

 

ды

 

 

 

 

 

 

 

 

 

Улучшение

 

 

п

 

 

 

п

 

 

n

n

нению

с У

 

 

2

 

-?)2_2(^-^*)

 

2(yi_y>_2(}w*)

У* по

срав­

Р -

і

 

 

г

 

 

 

2

 

2

Отклонение

я —

і-І

 

 

n

і=1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S ( У г - У * ) 2

от У*

- р

+

 

 

 

i = l

 

 

 

 

 

 

 

 

 

 

2

i = l

 

 

+

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n-p+l

 

 

 

 

 

 

 

 

 

 

 

S a

Отклонение

п

 

 

 

 

 

 

 

 

 

n

 

 

 

 

'S

( ^ І - ? ) 2

 

 

 

 

от

f

 

 

 

 

 

 

 

 

_ i = l

 

 

 

 

 

t = i

 

 

 

„2

и и — p + 1 степенями свободы для числителя и знаменателя соответственно оказывается больше, чем Fy_a, то нулевая гипоте­ за, что составная функция не дает никакого значимого улучшения

по сравнению со средним У, отвергается.

Порядок величин коэффициентов Ь%, вычисленных как описано ниже, может служить грубой мерой эффективности каждого из уравнений регрессии при описании экспериментальных данных. Кроме того, любые две величины Ь% могут быть подвергнуты про­ верке, как описывалось в разд. 5.2, чтобы определить, имеется ли между ними значимое различие, и тем самым решить, является ли одна из оценок уравнений регрессии лучше, чем другая.

Вычисления можно упростить, подсчитав следующие величины. Для сокращения записи введем p X ^-матрицу V с матричными элементами

 

 

V j h = % ( Y i

- Y i j ) ( Y i - Y i k ) ,

 

 

 

і=1

 

 

 

 

1 < і < г с , 1 < / < р , 1

 

где

Yt

наблюдаемая экспериментальная зависимая

перемен­

ная

в

і-м наборе данных,

a У^- — предсказываемый

отклик.

Например,

Ѵа

=

^ ( Y i - Y i O i Y i - Y ^ ) .

г=1