Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

Скачать файл (30,27Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 777

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

472

Глава 7

в которых векторы х и ß не должны совпадать. Предположим далее, что правильна модель 1, так что

У = Ч 1 + е. Если определить переменную как

^ [ У - І ^ + УО]

и подставить в нее выражение для У, то получим

Я = Лі-4-(Уі + У 2 ) + е.

Теперь предположим, что вектор b очень близок к ß и, следо вательно, оценка Уі близка к гц. Тогда, заменив щ на У 1 ? получим

Z ^ - i - O ^ - y O	+ e,	(7.4.3)
и график зависимости [У — Ѵ2 (Уі +	У2 )] от У 2 — У 4	будет

иметь наклон, приблизительно равный —Ѵ2, если гипотеза о том, что модель 1 корректна, является справедливой. Можно сделать вывод, что значимые отрицательные значения к указывают на то,

что оценка уравнения регрессии Уt лучше, чем У 2 ; следовательно, модель 1 лучше модели 2. Подобный анализ в предположении,

что правильным уравнением служит У 2 , приводит к заключению, что X = Ѵ2, т. е. должно получиться значимое положительное значение X. Если величина Я незначимо отличается от нѵля, ника кого выбора между Yy и У 2 сделать нельзя.

Пример 7.4.1. Критерий Вильямса и Клута

Были получены следующие данные, характеризующие ущерб от наводнения в виде функции от величины стока в двух реках. Хотя эксперимент не был спланирован, эти данные достаточно хорошо согласуются с предположением о независимости ошибок, так как получались в различные периоды времени.

Сток X,	Ущерб У,	Сток X,	Ущерб Y,	Сток X,	Ущерб Y,
мЗ/с-10-з	долл. • 10-3	мз/с.. Ю-з	долл. • Ю-з	мз/с- Ю-з	долл • 10—:
61	0	100	290	150	1600
64	50	105	340	160	2100
70	100	112	420	170	2500
75	150	120	520	180	2900
83	180	127	670	190	3300
88	210	134	810	200	3700
94	250	142	1200

График, приведенный на фиг. П.7.4.1а, показывает, что эти данные можно описать степенным рядом. Чтобы излишне не

Определение

наилучшей

модели

473

усложнять модель, осуществлялась подгонка линейных уравне ний регрессии, содержащих члены х, х2 и х3. Для лучшего согла сия вблизи значения х == 61 к полиному была добавлена пере менная 1/(х — 60). Член, содержащий эту переменную, имеет большое значение вблизи ее полюса и пренебрежимо ^мал при больших X.

4000 i

• данные;

Для того чтобы сделать члены уравнения регрессии^величинами приблизительно одного порядка, в независимые переменные были введены масштабные множители

Хі = x-Ю-2,

х2 = x2 -Ю-4 ,

х3 = х 3 Л 0 ~ в ,

у * = Г . Ю - 3 .

В табл. П.7.4.1а приведены регрессионные коэффициенты для четырех линейных моделей, полученные методом наименьших квадратов с іо, == 1.

474

Глава 7

Таблица П.7Л.іа

Оценки уравнений регрессии для моделей *)

Модель 1:					ж —60
	&о = 2840+1490

	bt	= — 74,1+37,3
	Ъ2	= 0,572+0,298
	з = - 8 , 9 2 - 1 0 - ± 7 , 5 8 - Ю - 4
Модель 2:	64	=267±289
	Y 2	= Ъ0-\-ЪІХ-{-		b2x2 - f 63 гЗ
	Ь0	=	1990+1280
	ЬІ	=	— 55,3+33,7
	62	=0 , 4 3 7 ± 0 , 2 8 0
Модель 3:	&з	=	- 580 . 10 - 4 ±7,33 - 10 - *
	Y 3	= bg -f- byx -\-		b2x2
	Ь0	= 1050+452
	Ьі	= — 292+7,6
	ь2=		0 , 2 1 7 ± 0 , 0 3 0		i.
Модель 4:	У 4	= b0 + bix + b2x^+			°І
					x _ 6 0
	Ьо	= 1190+589
	Ьі = — 31,3+9,36
	6 2	= 0,224+0,035

ь4 = — 155+297

l)После знака ± указаны значения, которые прибавляются кь ^ при 95%-ном до верительном интервале для ß^.

В табл. П.7.4.16 приведены суммы квадратов остатков SSR для каждой модели и соответствующие средние квадраты sj. Значимого различия в согласии этих моделей с эксперименталь ными данными нет. Произвольно отбрасывая две модели с наи большими дисперсиями, оставляем модели 1 и 2, между которыми

				Таблица	П.7.4.16
	Суммы	квадратов остатков
	Число степе				Средний
Модель	Число степе		2	( У І - У І ) 2 ,	квадрат
	ней свободы		2	( У І - У І ) 2 ,	квадрат
	ней свободы		і=1		s2.- Ю-з
	V		і=1		s2.- Ю-з
				SSR -10-3	T
	15			120	8,0
	16			151	9,4
	17			178	10,5
	16			171	10,7

	и нужно	сделать выбор.	Единственное	различие между	ними
I	состоит в	том, что модель	1 содержит	дополнительный	член

Определение наилучшей модели	475

pt /(x — 60). Для определения наилучшей из этих двух моделей

воспользуемся критерием Внльямса — Клута.

В табл. П.7.4.ІВ приведены данные и результаты расчетов, необходимые для вычисления по (7.4.2). На фиг. П.7.4.16 показан

Таблица U.7.4.1«

		Р а с ч е ты	для критерия	Внльямса — Клута
У			Ys — І"і		2 = У _ 1 ( У 1 + У * )
0	—19	118	137	50	—50
50	143	64	—79	103	—53
100	126	96	- 30	111	—11
150	110	69	—41	90	40
180	113	88	—25	100	80
210	136	122	—14	129	81
250	186	182	—4	184	66
290	257	261	4	259	31
340	334	341	7	337	3
420	465	475	10	470	-50
520	647	657	10	652	—132
670	833	841	8	837	— 167
910	835	888	48	859	51
1200	1305	1304	—1	1305	—105
1600	1593	1587	—6	1590	10
2100	1984	1971	—13	1978	122
2500	2404	2389	—15	2397	103
2900	2847	2834	—13	2840	60
3300	3308	3304	—4	3306	—6
3700	3782	3796	14	3789	- 89

график зависимости Y — V 2 (Y\ -\- Y^)	от Y2 — l ' i для всех
значений Z, исключая первую строку табл. П.7.4.1в, В которой
появилось отрицательное значение Y\.	Угловой коэффициент

линии наилучшей подгонки, проходящей через начало координат, вычисленный по формуле (4.3.7а), оказался равным —0,473.

Однако Ѵаг {b} « 8000/13	104 =	0,61 и доверительный интервал
для ß с уровнем значимости а =		0,05 (*і_а /2 =	2,13 для 15 степе
ней свободы) имеет вид	—2,13 ^ ß < 1,19,		что не позволяет
заключить, что модель 1	сколько-нибудь лучше, чем модель 2.

На фиг. П . 7 . 4 . ІВ изображен график остатков для модели 1. Хотя нельзя заметить никакого продолжительного тренда, остатки все же не являются случайно распределенными. Можно заметить ряд непродолжительных трендов для величин стока 90 ч- 125 м3 /с и 160 -f- 200 мЗ/с. Наличие таких трендов не означает непримени мость модели, но указывает на то, что эту модель можно несколько улучшить.

200 r

Определение	наилучшей	модели	477
7.5. С Р А В Н Е Н И Е Н Е С К О Л Ь К И Х У Р А В Н Е Н И Й			Р Е Г Р Е С С И И
Д ля того чтобы можно было одновременно сравнивать несколь
ко линейных или нелинейных	(по коэффициентам)		оценок уравне

ний регрессии, Уилкс [15] предложил некоторый критерий, в кото ром все уравнения регрессии рассматриваются на равных основа ниях. Этот критерий сформулирован на основе однородности оста точных сумм квадратов для различных уравнений регрессии. Вильяме [16] дал ясное описание критерия Уилкса, а также указал, что этот метод является по существу приближенным, так как суммы квадратов для уравнений, которые не являются «пра вильными», содержат дополнительную систематическую компо ненту, отсутствующую в «правильном» уравнении.

Напомним, что для одной оценки уравнения регрессии можно осуществить дисперсионный анализ (табл. 5.3.1 и 5.3.2), который приводит к F-критерию как общему критерию значимости регрес сии. F-критерий можно использовать и для сравнения различных оценок уравнений регрессии, если объединить их в линейную комбинацию следующим образом. Пусть различные уравнения

регрессии,			подлежащие сравнению, обозначены как Y t , У2>								• • •
. . ., Yp,		a	Y* представляет собой линейную комбинацию								этих
уравнений			регрессии:
				у * =		Ь * у 1 + г	, * у 2 +	. . . +b*Yp,		(7.5.1)
где	коэффициенты				Ь% выбираются			так, чтобы каждое уравнение
регрессии		вносило вклад в Y* в соответствии с его								пригодностью
в качестве оценки Y*.						Для удобства коэффициенты Ь% нормируют-
				р	b% — 1.
ся	так, чтобы			51	b% — 1.		По-видимому,		разумно	ограничиться
значениями			Р£	в	интервале		0 ^	ß \| ^ 1.	Введем	величину
							р
						Y = j2lYb-				(7-5-2)

Предположим, что величина Уц, где индекс і указывает на то, что предсказанное значение Y относится к і-му набору данных, определяемому у'-м уравнением регрессии, рассматривается в каче стве независимой переменной, и каждой наблюдаемой зависимой переменной Yt (или Yt, если проводились повторные наблюдения) соответствует один такой набор Ytj. Данный критерий позволяет определить, дает ли составная переменная Y* значимое

улучшение по сравнению со средним предсказанием Y. В табли це 7.5.1 дана сводка расчетов, необходимых для проведения дис персионного анализа. Если отношение дисперсий s\ls\ с р — 1

478

Глава

Таблица 7.5.1

Дисперсионный а н а л и з для выбора модели

Число

Источник

степе

ней

Сумма квадратов

Средний квадрат

рассеяния

свобо

ды

Улучшение

нению

с У

2(у

-?)2_2(^-^*)

2(yi_y>_2(}w*)

У* по

срав

Р -

Отклонение

я —

і-І

і=1

S ( У г - У * ) 2

от У*

- р

i = l

n-p+l

S a

Отклонение

( ^ І - ? ) 2

от

_ i = l

t = i

„2

и и — p + 1 степенями свободы для числителя и знаменателя соответственно оказывается больше, чем Fy_a, то нулевая гипоте за, что составная функция не дает никакого значимого улучшения

по сравнению со средним У, отвергается.

Порядок величин коэффициентов Ь%, вычисленных как описано ниже, может служить грубой мерой эффективности каждого из уравнений регрессии при описании экспериментальных данных. Кроме того, любые две величины Ь% могут быть подвергнуты про верке, как описывалось в разд. 5.2, чтобы определить, имеется ли между ними значимое различие, и тем самым решить, является ли одна из оценок уравнений регрессии лучше, чем другая.

Вычисления можно упростить, подсчитав следующие величины. Для сокращения записи введем p X ^-матрицу V с матричными элементами

		V j h = % ( Y i	- Y i j ) ( Y i - Y i k ) ,
		і=1
		1 < і < г с , 1 < / < р , 1
где	Yt	— наблюдаемая экспериментальная зависимая		перемен
ная	в	і-м наборе данных,	a У^- — предсказываемый	отклик.