Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 650

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Статистический

анализ и его

применения

177

Пример 3.7.8. Критерий независимости

При проведении 87 запусков ракет были получены следующие данные о дальности и отклонении. При доверительной вероятности 0,95 проверим гипотезу, что измерения дальности и отклонения не­ зависимы.

 

Отклонение (в угловых минутах)

Дальность, м

от -250

от —50

от 50

Сумма

 

ДО -50

до 50

до 250

0—1200

5

9

7

21

1200—1800

7

5

9

21

1800—2700

8

21

16

45

Сумма

20

35

32

87

Решение

Минимальная частота появления не меньше 5. Число степеней свободы равно 4.

Х

L V 21-20 + 21-35 + 21.32 + 21-20 ~*~ 21-35 " t " ' " )

J

= 87-0,232 = 20,2.

Из табл. В. 2 для а = 0,05 находим, что хо,95 = 9,488. Таким обра­ зом, величины не являются независимыми.

3.8. О Б Н А Р У Ж Е Н И Е И И С К Л Ю Ч Е Н И Е А Н О М А Л Ь Н Ы Х З Н А Ч Е Н И Й

Даже тщательно спланированные и аккуратно выполненные эксперименты могут дать неоднородные данные. Изменение усло­ вий в течение эксперимента может остаться незамеченным и будут сделаны аномальные измерения, которые приведут к неправиль­ ным значениям, содержащим грубые ошибки; такие значения часто называют «резко выделяющимися» или просто «выбросами». Иска­ жение измерений может быть также следствием неправильной рабо­ ты регистрирующих устройств; при обнаружении неисправности такие значения следует отбросить. Ошибки, вызванные искрой при выключении, перевернутые цифры, неправильно размеченные разряды могут испортить хорошие в других отношениях данные. С другой стороны, выброс может в действительности оказаться просто одним из экстремальных значений распределения вероят­ ности случайной величины, которое, естественно, хотя и редко, появляется и которое не следует отбрасывать. Если исследователь знает, что сделана грубая ошибка, он без колебаний отбросит такое


178 Глава 3

наблюдение. Если же он не имеет достаточных практических осно­ ваний ни принять, ни отбросить экстремальное наблюдение, он должен использовать какой-нибудь статистический критерий. Чтобы не осталось сомнений, какие наблюдения следует отбросить, ему хотелось бы получить ответ на вопрос: какова вероятность того, что наблюдаемые разности являются следствием лишь слу­ чайных ошибок в выборке?

Подход к проблеме исследования далеко отстоящих значений наблюдений зависит от поставленных целей. Если исследователя только интересует, является ли некоторое значение аномальным, возможно, с целью исследования условий, которые могут приво­ дить к подобным экстремальным наблюдениям, то с получением критерия для таких наблюдений и заканчивается рассмотрение. Если же, с другой стороны, он хочет исключить выбросы для того, чтобы получить более точные оценки некоторых параметров сово­ купности, например среднего значения, то его интересует не только критерий для далеко отстоящих наблюдений, но также и оценива­ ние параметров, следующее за применением критерия. По этой причине ему хотелось бы рассмотреть возможное смещение оценки и ее дисперсию, надлежащим образом опираясь на использование критерия для выбросов. Если после применения этого критерия выборочные данные должны быть использованы для проверки гипотезы относительно некоторого параметра совокупности, то для исследователя представляется важным не только сам критерий для выявления выбросов, но также и мощность других критериев для проверки гипотезы.

Критерии для выбросов применяют, преследуя одну из следую­ щих целей:

1.Выровнять наблюдения перед анализом (отбрасывание вы­ бросов).

2.Убедиться, что аномальные значения присутствуют, что указывает на необходимость пересмотра процедуры получения данных.

3.Выделить наблюдения, которые могут представлять особый интерес именно из-за их экстремальности.

Здесь будут кратко рассмотрены критерии первого типа.

В случае классического подхода к решению задачи обнаруже­ ния аномальных точек необходимо предположить, что выборочные наблюдения производятся над случайной, нормально распределен­ ной величиной, образовать соответствующую статистику для обна­ ружения выбросов, чувствительную к резким отклонениям такого рода, найти ее распределение при нулевой гипотезе, утверждающей, что все наблюдения принадлежат одной и той же нормально рас­ пределенной совокупности, и затем отвергнуть гипотезу, если ока­ жется маловероятным, чтобы вычисленная статистика появилась в случайной выборке. Построение таких статистик обычно основы-


Статистический

анализ и его применения

179

вается на том, что исследователь по выборке результатов

экспери­

мента может заметить не согласующееся с остальными наблюдение. Статистики, лежащие в основе критерия обнаружения выбросов, которые называются статистиками экстремальных отклонений, содержат разность между экстремальным значением и выборочным средним значением, а также среднее квадратическое отклонение или его оценку, полученную по рассматриваемой выборке и (или) по независимой выборке. Теория и практические методы отбрасы­ вания выбросов разработаны слабо, что подтверждается следую­ щей цитатой из статьи Гумбеля [25]:

«Отбрасывание аномальных значений на чисто статистической основе было и остается весьма опасной процедурой. Само их при­ сутствие может являться доказательством того, что исследуемая совокупность в действительности отличается от предполагаемой».

Рассмотрим критерий, предложенный Анскомбом [26]. Пусть дана некоторая выборка наблюдений ХІУ Х2, . . ., Хп (и>-3), которая по предположению является случайной выборкой для

случайной

величины

X,

распределенной по нормальному

закону

с параметрами цх

и а\.

Вычислим разности

 

 

 

 

 

Y% =

Xj — X,

i — 1,

2, . . .,

n,

 

 

n

 

 

 

 

 

 

 

 

 

 

где X = 2

Xi/n.

Если

одно из значений X ; выделить, то выбороч-

і = 1

 

 

 

 

 

 

 

 

 

ное среднее для

оставшихся наблюдений

будет равно

 

 

 

п

 

 

 

 

 

 

 

 

 

 

y.XL

= X-ÏL,

v = n - l .

 

 

(3.8.1)

 

 

3=1

 

 

 

 

 

 

 

 

Если выделить несколько значений ХІ7

Х2,.

Хг,

то выбороч­

ное среднее будет

равно

 

 

 

 

 

 

 

 

 

 

Y

Yi +

Y2+...+Yr

 

 

 

(3.8.2)

 

 

 

 

 

n—г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При использовании индекса M для обозначения

наблюдения,

которому

соответствует

максимальная

разность

Y м

= Xм

— X,

правило, предложенное Анскомбом, состоит в следующем (для

случая, когда дисперсия ах

неизвестна): при заданном значении с

наблюдение Хм

отбрасывается,

если

| YM

| > csx. В противном

случае

наблюдение Хм

оставляется.

Для выборок

большого

объема,

если

наблюдение

Хм

отброшено,

оставшаяся

выборка

рассматривается как вновь

полученная

и для нее анализ можно

продолжить. Каждый раз величина ах

оценивается по наблюдени­

ям, оставшимся после отбрасывания Хм.

Величина с может изме­

няться с изменением объема выборки; Анскомб выразил ее неявно


180 Глава 3

через t:

И с 2 ( у +

Ѵ0

1)

-11/2

 

 

 

 

« A i 1 '

( S " 8 " 3 )

ѵ г + ѵ °

-

— )

J

 

а также дал следующее приближенное выражение через распреде­ ление F в явном виде:

С

(і + [ ( 3 ^ д - 1 Ѵ ( ѵ + ѵ 0 ) і )

'

 

( З - 8 - 4 )

где V — п — 1, а ѵ 0 — любое другое число

дополнительных сте­

пеней свободы, которое связано с оценкой ох

по выборке

объема,

не равного п. (Для с нужно взять положительное значение

квадрат­

ного корня.)

 

 

 

 

 

С помощью выражения (3.8.4) можно провести проверку сле­

дующим образом. Если никакие значения

не были

отброшены,

умножим допустимое

относительное приращение

о\,

«премию»,

на величину ѵіп. Обозначим это произведение через q и найдем соот­ ветствующую верхнюю процентную точку для отношения диспер­

сий Fi_q при

трех

и V + ѵ 0

— 1 степенях свободы.

Вычислим

значение с по выражению (3.8.4) и применим критерий для

Хм.

«Премия» зависит от того, насколько сильно опасаются

появления

ложных наблюдений, однако некоторое небольшое

относительное

приращение

ох,

скажем 0,02,

следует принять. Например, если

п = 4, V =

3

и

ѵіп = 0,75,

для «премии» 0,02

имеем

q =

= 0,02 «0,75 =

0,05. Ищем значение Fi-o.os П Р И 3 и 3 степенях сво­

боды. Оно равно Ft_q

= 9,28.

Тогда

 

 

 

^ 0 , 7 5 ) ' ' 4 1 + ^ » L 1 ) / 3 r = 0 . 8 3 1 .

Наблюдение Хм

следует

отбросить,

если

| Y м

| > 0,831 sx.

 

В гл. 4 и 5 будет обсуждаться проблема выбросов в рамках

регрессионного

анализа.

 

 

 

 

 

 

 

 

Пример 3.8.1. Критерий для обнаружения

выброса

 

 

Дан ряд значений:

 

 

 

 

 

 

 

 

 

 

 

^2

х3

хі

ХЬ

 

 

 

 

23,2

23,4

23,5

24,1

25,5

 

 

 

Является ли значение х5

резко

выделяющимся и

следует

ли

выбросить его из данной

выборки?

 

 

 

 

 

 

Решение

 

 

 

 

 

 

 

 

 

 

Вычисляем X = 23,9, а затем Y&

= Хь

— X = 25,5 — 23,9

=

= 1,6; sx = 0,77. Дл я

а

=

0,05, ѵ = 4 и

n =

5 из

выражения


Статистический

анализ и

его применения

181

(3.8.3) имеем

 

 

 

 

5 с 2 - 3

1/2

=

2,7763

 

»(HR

 

 

 

и методом проб и ошибок находим с = 1,49. Согласно критерию 11,6 |>1,49-0,77 = 1,05,

наблюдение Хъ отбрасывается.

3.9. К О Н Т Р О Л Ь Н Ы Е К А Р Т Ы П Р О Ц Е С С О В

Проверку гипотез можно применить весьма простым и практи­ чески удобным способом для контроля качества процесса. Конт­ рольные карты представляют собой графические средства анализа,

Верхний контрольный предел

» •

 

Нижний

контрольный

предел

 

 

I

I I I I I I

I I I

I

I I I I

I I

I I I I I

I

 

 

Время

(или.

число

выборок)

 

 

Ф и г . 3.9.1.

Типичная

контрольная

карта

качества

процесса.

 

которые нетрудно подготовить и использовать в заводских

рабо­

чих условиях. На фиг. 3.9.1 показана типичная контрольная

кар­

та для выборочного среднего значения. Общий метод изготовления

контрольной карты процесса включает:

1) получение выборки,

2) вычисление подходящей статистики,

такой, как выборочное

среднее, размах или накопленная сумма, и 3) графическое построе­ ние этой статистики на карте в виде функции от выборочной после­ довательности или времени.

На карте нужно каким-либо способом отобразить правила принятия решения о том, находится ли данная переменная процес­ са «под контролем». На фиг. 3.9.1 указаны верхний и нижний контрольные пределы. До тех пор пока статистика, откладываемая на этом графике, попадает между этими двумя границами, процесс считается под контролем. Правила принятия решения, используе­ мые для фиксирования этих линий, могут быть основаны на пред­ полагаемом виде распределения (обычно нормальном) для наблю­ даемой случайной величины, или они выводятся с помощью непа­ раметрического анализа, обсуждавшегося в разд. 3.7.

Если на графике статистика превысит контрольные пределы, принимается решение, что процесс «вышел из-под (статистическо-