Файл: Химмельблау Д. Анализ процессов статистическими методами.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.04.2024

Просмотров: 640

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Статистический

анализ и его

применения

163

соответствующий уровень значимости; для этой цели можно также использовать формулу (3.7.4).

Из формулы (3.7.2)

Тх = 23, U* = 23 — 6 ' ( 6 + 1 ) = 2 .

Из формулы (3.7.3)

Ту = 68, U*= 7 ' ( 7 2 + 1 ) ' + 7 - 6 — 6 8 = 2.

Из табл. В.6 при m = 7, п = 6 и £/* = 2 получаем уровень значимости а, равный 0,002. Заметим, что при п = 8, m = 8 аппроксимация нормального распределения весьма точна.

3.7.3. Критерий Сиджела — Тъюки для

дисперсии

Этот непараметрический критерий [15] можно

использовать

вместо критерия F для проверки нулевой гипотезы,

утверждаю­

щей, что дисперсии двух исходных совокупностей,

представлен­

ных двумя независимыми выборками, одинаковы

(альтернативная

гипотеза утверждает, что они различны). Чтобы осуществить такую проверку, запишем результаты измерения в порядке возрастания, располагая наибольшее отрицательное значение сверху, а наи­ большее положительное — внизу таблицы. Отметим принадлеж­ ность каждого значения к выборке А или В. Припишем ранг 1 наименьшему значению, ранг 2 — наибольшему, ранг 3 — преды­ дущему наибольшему значению, ранг 4 — второму после наи­ меньшего значению, ранг 5 — третьему после наименьшего зна­ чению, ранг 6 — третьему перед наибольшим значению и т. д . г переворачивая таблицу каждый раз после приписывания рангов последовательной паре значений. Совпадения обрабатываются так,, как объяснялось в разд. 3.7.2.

После этого

ранги для выборок А и В суммируются и вычис­

ляется приближенная нормированная переменная Z с нормальным

законом распределения

(для большей точности Z

вычисляется

по таблицам):

 

 

 

 

\ R

w i ( r c i + r e 2 + l ) I

1

 

Z = * 1 г—-- 2

, J 2

« Л 2 > 10. * , > « ) ,

(3.7.5)

У12

где

щ ж пг — объемы

выборок,

ni < п2, a і?і — сумма

рангов

для

выборки объема

щ. Для

технических расчетов

выраже­

ние (3.7.5) обеспечивает необходимую точность даже в случае небольших выборок объемом меньше десяти.


164

Глава 3

Пример 3.7.3. Непараметричеекий критерий для дисперсии Вычислим ранги для данных из примера 3.7.2:

Значение

Выборка

Ранг

Значение

Выборка

Ранг

- 1 , 4

А

1

0,5

В

11

—1,2

А

4,5

0,7

В

10

—1,2

А

4,5

0,8

В

7

- 1 , 0

А

8

0,9

В

6

—0,3

В

9

1,5

в

3

- 0 , 2

А

12

2,4

в

2

0,2

А

13

 

 

 

Сумма

рангов для А равна 33; сумма

рангов для В равна 47.

Выборка

А меньше,

чем В,

так

что

 

 

 

 

 

 

і?! = 33,

tii — Q, п2

— 7,

 

 

 

 

/ 3 3 , 6 . ( 6 + 7 + l )

 

 

 

 

 

 

Z =

6-(6 + 7 +

1)-7

=

0,496.

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

Из

табл.

В.1

для нормированной

нормальной величины при

а =

0,05

имеем Z =

1,96;

следовательно,

нулевая

гипотеза,

утверждающая, что дисперсии АжВ

равны, принимается

(согласно

двустороннему

критерию).

 

 

 

 

 

 

 

 

3.7.4.

Критерии

стационарности

 

В этом подразделе описываются два непараметрических крите­ рия, которые можно использовать для того, чтобы убедиться, являются ли стационарными данные из одной временной диаграм­ мы. Если можно продемонстрировать стационарность для одной временной диаграммы, то для практических целей можно считать стационарным весь ансамбль. К тому же в действительности будет проверяться слабая стационарность, определенная в разд. 2.2.3. Возможность распространения понятия стационарности на другие параметры помимо среднего по ансамблю и автокорреляционных функций строго обоснована для случайной переменной, распре­ деленной по нормальному закону; это оказалось справедливым и для большинства других распределений, с которыми приходится сталкиваться на практике. Протяженность временной диаграммы, подвергающейся испытанию, конечно, должна быть достаточно велика, чтобы в ней отразился некий тренд (нестационарность), если он имеет место. На слишком короткой диаграмме нельзя обнаружить продолжительный тренд. Дл я проверки стационарно­ сти можно использовать как сериальные критерии, так и порядко­ вые критерии тренда.


Статистический

анализ и его

применения

165

Серией называется последовательность наблюдений, предше­ ствующая или следующая за другим наблюдением, чем-то отли­ чающимся от входящих в серию (либо следующая за перерывом в наблюдениях). Так, если знаками «+» и «—» обозначить соот­ ветственно значения переменных выше и ниже выборочной медиа­ ны, то в следующей последовательности

5

1

6

4

2

7

5

9

8

7

2

 

+

-

 

+

-

+

+

 

+

 

1

2

 

1

1

 

3

 

 

можно заметить

шесть

серий.

Однотипные

события могут

проявляться в необычно малом числе серий, структуре серий,

неожиданно

длинных сериях и других сериальных статисти­

ках, которые

можно использовать для

проверки случайности

расположения

структур по сравнению с

альтернативной гипо­

тезой последовательной зависимости. Разумным образом раз­

деляя события на

два типа (обозначенных выше знаками

+

и — ) , сериальный

критерий можно использовать не только

для

проверки последовательно выбранных значений случайной пере­ менной на некоторый тренд, но и для испытания многих других характеристик, которые нет необходимости рассматривать здесь. Недостатками сериальных критериев является то, что большинство из них являются слабыми (обладают малой мощностью) и неэффек­ тивными.

К р и т е р и й

В а л ь д а — В о л ь ф о в и т ц а

д л я

о б щ е г о ч и с л а

с е р и й . Этот критерий не обладает ни

большой мощностью, ни высокой эффективностью, но может

быть

использован для определения того, являются ли наблюдения

слу­

чайной переменной независимыми (если они независимы, то никакого тренда нет). Проводится ряд наблюдений и находится их выборочная медиана. Каждому наблюдению приписывается знак + или — в соответствии с тем, выше или ниже медианы его значение. Если картина расположения знаков + и — такова, что они распределяются случайным и независимым друг от друга способом (нулевая гипотеза), то не наблюдается никакого скопле­ ния. Краткая таблица для лежащей в основе этого критерия ста­ тистики U+ (числа серий) дана в приложении В (табл. В.7). Сред­ нее значение и дисперсия случайной величины £/+ равны

(3.7.6)

(3.7.7)

( и і + і г ) 2 (Иі + і г —1)

где щ — число плюсов, п2 — число минусов, а щ + п2 равно полному числу наблюдений. Следовательно, для выборок большого объема можно использовать приближенную нормированную пере-


166

 

Глава

3

 

менную с нормальным

законом

распределения

 

 

 

1С/+ — ^ (—-1'

 

 

Z =

-

±.

(3.7.8)

Обычно используется двусторонний критерий для данного зна­

чения а.

 

К р и т е р и й д л я с у м м ы к в а д р а т о в

д л и н .

Поскольку критерий Вальда — Вольфовитца непосредственно не учитывает длину серий, теряется существенная информация. Рамачандран и Ранганатан [16] предложили более мощный кри­ терий. Серия состоит из последовательности одинаковых знаков; например, в приводимой выше таблице было три серии длины 1, две серии длины 2 и одна серия длины 3. Статистикой N, исполь­

зуемой в данном критерии, является сумма

квадратов длин

серий, т. е.

 

 

 

 

 

 

W = 2 / 4 .

 

 

(3.7.9)

где / — длина серии,

are; — число серий длины /. Д л я приведен­

ной выше структуры

N = 3 - I 2 + 2 -22 +

1 -З2

=

20.

 

В табл. В.8 приведены значения Р {N

>• Na}

= а для

п,

равных половине числа значений во временной диаграмме, п ^

15.

Например, при п = 5 и а — 0,05 имеем Na

= 38; следовательно,

гипотеза, утверждающая, что в выборке отсутствует тренд, при­ нимается.

И н в е р с и я к а к к р и т е р и й л и н е й н о г о т р е н д а . Если в каком-либо ряду из п измерений, записанных в порядке их получения, за некоторым выбранным числом следует меньшее по величине, то говорят, что имеет место инверсия. Так, в после­ довательности

3 5 1 4 2 6

имеется шесть инверсий: за числом 3 следуют два меньших числа 1 и 2; за числом 5 следуют три меньших числа 1, 4 и 2; за числом 4 следует одно меньшее число 2. Если порядок чисел в последова­ тельности случаен, то каждая из п\ перестановок п чисел равно­ вероятна; априорная вероятность получения случайной последо­ вательности точно с / * инверсиями просто равна числу переста­ новок, содержащих I * инверсий, деленному на полное число возможных перестановок п\. Число случаев, когда за некоторым

числом в последовательности следуют большие числа,

является

дополнительным к / * и обозначается

Т*. В качестве третьей

меры

можно использовать S* = Т* — / * . Манн [17] составил

таблицы

для вероятностей получения точного значения Т* при 3 ^

п ^

10,

а Кендалл [18] — для вероятностей

S*.

 

 


Статистический анализ и его применения 167

Статистика

/ имеет

среднее значение и

дисперсию

 

 

 

 

(3.7.10)

 

 

 

2пЗ + Зп2-5п .

(3.7.11)

 

 

 

 

для больших

значений

п

можно использовать приближенную

нормированную

нормально

распределенную

переменную

 

 

 

VW*

(3.7.12)

 

 

 

 

(Для обеспечения непрерывности положительные числители сле­ дует уменьшить на Ѵг, а отрицательные — увеличить на 1 / 2 . ) Если имеют место совпадения и им приписан средний ранг, то

вместо таблиц

Т* и

/ * используют таблицы S*.

Критерии S*

и / *

основаны на предположениях, что наблю­

дения непрерывно распределенной переменной осуществляются независимо и произвольным образом. Критерий / * , используемый как критерий случайности, имеет асимптотическую эффективность (3/я)4 /з « 0,98 относительно критериев для коэффициента регрес­ сии (гл. 4 и 5); следовательно, по эффективности он равен или

превосходит

большинство других непараметрических

критериев

для тренда.

Нулевая гипотеза состоит в том, что

наблюдения

представляют

собой независимые наблюдения переменной X ,

если отсутствует какой-либо тренд; используется

двусторонний

критерий.

 

 

 

Д л я того

чтобы удостовериться, представлены

ли

на един­

ственной временной диаграмме стационарные данные, эту диа­ грамму разбивают на п интервалов равной длительности. Высоко­ частотные данные могут занимать смежные интервалы, однако низкочастотные данные требуют, чтобы между выбранными отрез­ ками диаграммы оставались некоторые промежутки. Простейший метод состоит в том, чтобы подсчитать среднее значение и средний квадрат для каждого из п интервалов и расположить полученные

значения во временной

последовательности:

ex)t

< 2 x > , . . . ,

cx),

m,

< 2 z 2 > , . . . ,

то,

где верхний индекс слева обозначает временной интервал, а сим­ вол ( ) означает усреднение по времени. Каждый из этих двух рядов значений можно испытать на тренд, как описано выше.

Предполагается, что если средний квадрат (или дисперсия) случайной переменной X стационарен, то автокорреляционная функция величины X также стационарна. (Среднее значение квадрата X (t) просто равно значению автокорреляционной Фѵнк-