Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 776

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

468

Глава 7

Теперь главной переменной оказалась х^, ^-критерий, основанный на статистике

г 0,758-(5-3) H1/2

, п

г — 1_ Ï — 0,758 J

- Z ' 1 U '

показывает, что переменная х^ (и, конечно, х2) не вносит значимый вклад в модель.

В результате применения метода включения получилась сле­

дующая оценка уравнения

регрессии:

 

Y = Y + Ъ3 3

-

х 3 ) ,

или

 

 

 

Y = 0,201

+ 0,38

3

- х3).

(Свободный член модели оказался значимым.) Эта модель была слишком простой, так что не потребовалось проводить никаких проверок для последовательного исключения переменных, что может оказаться необходимым в случае более сложных моделей.

7.3. Г Р А Ф И Ч Е С К И Й

М Е Т О Д О Т Б О Р А М О Д Е Л Е Й

Если в линейную (по

параметрам) модель предполагается

включить q независимых переменных, то всего возможны 2я вариан­ тов моделей. Очевидно, когда число q становится большим, иссле­ дователь даже при желании не в состоянии рассчитать все воз­ можные модели. Кроме того, если эксперимент, в котором полу­ чены данные, не был спланирован должным образом, шаговая регрессия может привести к неясным результатам, особенно если независимые переменные сильно коррелированы. К тому же вместо единственной наилучшей модели могут существовать несколько равноценных моделей. В связи с этими довольно часто встречающимися затруднениями Гормен и Томен [11] предложили простой графический метод отбора моделей, который значительно облегчает решение этой задачи. Дальнейшие рассуждения и пример заимствованы из их работы. Для выделения наилучшего из не­ скольких уравнений регрессии они использовали графический метод, основанный на статистике, впервые предложенной в рабо­ те [12]. Для п экспериментальных точек и модели, содержащей q параметров, оценка суммы квадратов ошибки смещения и оста­

точной ошибки, деленных

на с ф ,

дается статистикой

Cq:

 

і

 

 

j]

[Yt-YtW*

 

Cq = ^

5

(n-2q).

(7.3.1)


• модель ///
• модель // x модель 1
50
60 \-

Определение наилучшей модели 469

Если модель с g членами имеет пренебрежимо малое смещение, то

 

 

 

 

 

 

 

 

2

]Yi-Yt

(g)]2

 

 

 

 

 

 

 

 

 

i =l

 

 

 

равна

si (n — q)

(см. табл.

5.3.1,

где имеется q +

1 параметр),

так что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C e » i î L z M _ { l I _ 2 ? ) .

(7.3.2)

Однако

s2,

sk-,

 

поэтому

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.3.3)

Равенство (7.3.3) интерпретируется следующим образом. Если

статистику

Cq,

 

вычисленную по

формуле (7.3.1),

представить

на графике

как функцию q, то мо­

90

 

дели,

приводящие

к несмещенным

 

 

 

оценкам уравнений

регрессии, да­

 

 

дут значения Cq,

группирующиеся

80

 

вблизи

прямой

 

Cq =

q.

Точкам,

 

 

далеко отстоящим от этой пря­

70

 

мой,

 

соответствуют

смещенные

 

уравнения. В

качестве

величины

 

 

s|r. в

формуле

(7.3.1)

необходимо

 

О модель IV

использовать несмещенную оценку величины сг|-., так как графический

метод приведет к значениям Cq, лежащим вблизи прямой, опре­ деляемой формулой (7.3.3), только в том случае, если имеется вели­ чина si.

На фиг. 7.3.1 иллюстрируется графический метод Гормена и Томена применительно к данным из примера 5.3.1, приведенным в

табл.

7.3.1.

Модель I

обладает

наименьшим

смещением

и наи-

Ф и г .

7.3.1.

Сравнение

уравнений

 

 

регрессии.

 

40

30

20

10

меньшей суммой квадратов. Точки, такие, как А на фиг. 7.3.1, могли бы дать меньшую сумму квадратов, но большее смещение. Если уравнение используется просто для интерполяции внутри области, где собирались данные, может оказаться целесообразным



470

 

Глава

7

 

 

 

 

Таблица

7.3.1

Модель

Перемен­

Ч

2 (Yi - Y0i

 

ные

 

I V

 

1

77,28

87,6

I I I

Ху, # 2

3

10,07

3,3

I I

Ху

2

12,48

4,4

I

£ 2

2

11,23

2,8

выбрать уравнение, соответствующее точке А, для того, чтобы работать с более простым уравнением с меньшей дисперсией s*

too I —

so

80

70

60

SO

4 0 Ь

30

20 a Зключено?

Г

 

 

,

•df

•cdf

 

•cd

 

•cde

 

•de

\cdef

 

• def

 

•id

mbdf

 

 

•bed

»adef

 

•öde-

bàcdf

 

 

•àcde *àcdef

_J £[?

acf,adf,ade

 

• aà

aâc»°^

«abce

~

 

•abcd

•aècde

 

 

• aide abcdef

Ф и г . 7.3.2. Отбор моделей, содержащих шесть независимых переменных от ха до Xf.

и допустить некоторое смещение. Когда число переменных велико, для упрощения расчетов Гормен и Томен предложили использо-


Определение

наилучшей

модели

471

вать дробные факторные планы (описанные в гл. 8). График на фиг. 7.3.2 по данным работы Гормена и Томена аналогичен гра­ фику фиг. 7.3.1, с тем исключением, что в возможные модели включены шесть переменных от ха до xf. Было рассмотрено 48 моделей (отмечены лишь те, для которых оценки Cq оказались меньше чем 100), из которых для дальнейшего исследования были отобраны модели abf, abdf, abdef и abcdf (символ х опущен).

7.4. С Р А В Н Е Н И Е Д В У Х У Р А В Н Е Н И Й

Р Е Г Р Е С С И И

Вернемся теперь к рассмотрению методов

различения (дискри­

минации) моделей, которые в равной мере применимы как к линей­ ным, так и к нелинейным моделям. Сначала обсудим критерии, которые можно использовать для того, чтобы определить, какая из двух оценок уравнений регрессии является наилучшей. В сле­ дующем разделе будет рассмотрен важный случай выбора наилуч­

шей

из многих

оценок уравнений регрессии.

В

зависимости

от конкретного выбора гипотезы применяется

много различных критериев сравнения. В несимметричном кри­ терии, предложенном в работе [13], предполагается, что данные

правильно

описываются некоторой оценкой

уравнения регрес­

сии У І и

проводится некоторая проверка,

чтобы определить,

не следует ли отказаться от У± в пользу другой оценки уравнения

регрессии Y2.

Эта проверка

состоит в нахождении углового коэф­

фициента

X в

соотношении

 

 

 

 

 

 

 

 

Z

= (Y

-

Yt)

=

X (Y2 - ГО,

 

(7.4.1)

где величина Y представляет эмпирические измерения Yt,

a Z —

зависимая переменная. Если коэффициент X оказывается

значимо

положительным,

то

от

оценки

Yt

отказываются

в пользу Y2.

Для

сравнения

двух

оценок

уравнений регрессии,

которые

по крайней мере

первоначально

представляются

равновероятны­

ми, можно использовать симметричный критерий Вильямса и Клута [14]. Нулевая гипотеза заключается в том, что два (возможно, нелинейных) уравнения регрессии одинаково способны пред­ сказывать значения Y. Проверка осуществляется путем оценива­ ния углового коэффициента % (с помощью линейной регрессии)

уравнения линии,

проходящей

через

начало

координат:

 

Z SEE [Y

- 1 (Y1 +

Y2)]\ =

X (Y2 -

Yt).

(7.4.2)

Смысл такой проверки состоит в следующем. Пусть имеются

две модели

 

 

 

 

чі

=

чі

(х,

ß),

Г|2

=

п 2

(х,

ß),