Файл: Гром, В. П. Экспресс-анализ данных сдаточных испытаний судов с помощью бортовой ЭЦВМ.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.11.2024

Просмотров: 25

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введем обозначения

 

 

 

 

 

Qi

(J) = ~

log

n

! -

ɪ log

(tιij) !

 

 

(22)

 

 

 

 

 

 

Q2 (/ : s) = ɪ іɪ

n≈ μ

log

Pis,

 

 

 

(23)

 

 

 

 

 

 

lj

 

 

 

так что

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

Q(J-S) = Ql(J)UQ2Uts).

 

 

 

(24)

Индекс

означает,

что величины

nij,

і

 

 

μ есть

 

 

 

 

 

результат вы­

борки объема

п

из генеральной совокупности дискретной случайной

величины, имеющей вɪобщем ' случае

неизвестное

 

распределение

C вероятностями

Pij,

i μ.

 

1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Pij-

 

 

 

 

 

 

 

 

 

 

 

 

Индексом s обозначена гипотеза о законе распределения наблю­

даемой случайной величины,

так

что

ɪ 73⅛= 1,

PisUO

для z μ.

Таким образом,

 

Q(∕ :

s)

 

 

 

 

i ɪl

 

 

 

 

логарифма вероят­

 

есть расчетное значениеɪ

ности получить имеемую выборку

 

i μ.

nij = n

из генеральной

 

 

 

 

 

 

 

 

 

 

 

 

∏ij,

 

 

 

 

совокупности дискретной случайной величины, имеющей гипотети­

ческое распределение s.

Записав

значения факториалов и их логарифмов по

формуле

Стирлинга

л! ~ nne~n~U2πtι,

(25)

 

In л! ~ л In л — л -ф -ɪ-In 2π -ф -і-іп л,

(26)

можно получить предельные значения для величины Ql(Z) при объеме выборки, стремящемся к бесконечности. При этом удобнее

в выражениях (21) — (23) принять натуральное основание логариф­

мов, что на общности доказательства

не отразится: индексы /

и s

в промежуточных выкладках опускаются

-ф -ɪ- In 2π -ф

 

Iim Qi (у) = Iim -ɪ-[ra In

п

— п

 

n→∞

n→-∞

nL

 

 

2∙

ni)

 

«Z - «Í + -і- In 2π ÷ ɪ In

 

(27)

 

 

 

При n→ ∞ можно считать щ—пРі, так что


+ ~2^ In n + ~2~ In p^ I = Iim

[-ɪ-n In п — п. 4-

 

+ -ɪ- In 2π —

п

In

п

і C їх

 

і C ix

 

 

 

^Pi-n]^PzlnPi +

 

Ц-Д VPZ i-^~l∏2π

-4-lnn~4^2lnp/

 

ζ JX

 

 

 

 

 

 

 

Принимая во внимание, что і2 Pi=і,

 

Iim Q1

(у)

μ∙

 

 

 

= -2^inpt∙∙

 

=

 

 

 

∏→ OO

 

 

 

i μ.

 

энтропию распределения /,

Результат (27) представляет собой

т. е. того, из которого производилась выборка

(28)

 

Iim Q1 (/) =

Hj.

 

 

 

Аналогично можно найти предел для Q2 (/ : s)

Результат (29)

Htn Q2 (у: s) =Í

2£ JX

P,7ln Pij-

 

 

(29)

может быть преобразован следующим образом:

іΣJXpH pis =Z

2(С ¡X

pιj [In pis + lπ pij - In Plj]

=Z ɪξ ix

Plj In Pij +

(30)

+ ∑Λy(lnPi-i-lnPiz=-⅞-2PІ vln^L.

І μ.

 

 

 

C

μ.

''ʒ

 

Второе слагаемое в выражении (30) определено

в работе как

средняя информация от наблюдения распределения j для различия

в пользу гипотезы j против гипотезы s:

∑plj^U : s). (31)

Í(≤ JJ-

Вработе [8] доказана выпуклость функции /(/ : s) как для не­

прерывных распределений, так и для дискретных, т. е.

с

нулю

 

 

j—s

 

и

(32)

 

J(J∙.s)>O,

 

 

только

в случае

 

(здесь

далее применяется

jus)равенством.

 

 

 

такое

символическое обозначение

тождественности распределений

 

Из выражений (24), (27), (30), (31) следует, что

 

 

Iim Q (у : s) = - √ (у : s) < 0 .

(33)

26


Величина Q(/:s) может служить статистическим критерием.

Его состоятельность, очевидно, следует из соотношений (32), (33).

Распределение Q-критерия для каждой пары распределений / и s

и заданного объема выборки п должно быть определено достаточно

точно. Только в этом случае можно будет количественно совер­

шенно точно охарактеризовать различимость любых выборок и ста­

тистических гипотез при любом заданном объеме выборки п,

а также решить обратную задачу — определения (именно точного

определения, а не оценивания) объема выборки, необходимого для

различения тех или иных распределений и гипотез с заданной дове­

рительной вероятностью.

Построение распределений Q-критерия для конечных объемов

выборок ЛЦ/г) может быть осуществлено путем статистического

моделирования на ЭЦВМ. Для выполнения этого следует по резуль­ татам /И-кратного моделирования выборок объема N построить эмпирическую функцию распределения критерия fN[Q(j : s)], кото­

рая будет тем ближе к истинной функции распределения критерия при данном объеме выборки N, чем больше величина Μ.

Несколько непривычным может показаться то, что сам крите­

рий, характеризующий степень доверительной вероятности, оказы­ вается протабулированным с некоторой доверительной вероят­ ностью. Однако это в действительности имеет место применительно

ко всем известным критериям. Например, распределение χ2 пред­

ставляет собой распределение суммы квадратов нормально распре­

деленных случайных величин. В случае же применения критерия χ2

для проверки статистических гипотез о законах распределения

наблюдаемых случайных величин, фактически вычисляется сумма

квадратов, имеющих распределение не нормальное, а близкое к би­ номиальному (с учетом корреляции). Степень его близости к нор­ мальному определяется количеством наблюдений на интервале

группирования. Поэтому в каждом случае (каждого нового соче­ тания) случайной выборки и статистической гипотезы критерий,

называемый χ2, будет иметь свое собственное, отличное от других случаев распределение.

Пользуясь таблицами критерия χ2, следует отдавать себе отчет в том, что с фактическим распределением критерия совпадает лишь несколько первых знаков. В случае Q-критерия эта ошибка табули­

рования, во-первых, принципиально может быть сделана сколько

угодно малой за счет затрат машинного времени при табулирова­ нии, что в случае критерия χ2 в принципе невозможно, а во-вторых,

может быть легко оценена и учтена в ходе проверки статистических

гипотез о законах распределения.

Для реализации этого подхода необходима разработка машин­ ных программ, которые при высоком быстродействии обеспечили бы достаточную точность вычисления величин Q(j:s, N), являющихся малыми разностями больших величин, и построение их эмпириче­

ских распределений. Это достигается путем ввода значений лога­ рифмов факториалов в память ЭЦВМ в табличной форме.

27


Такие таблицы имеются в работе [11]

до √V = 1п000, в работе [12]

до Л/= 1200. Эти таблицы исчерпывают

все возможные

 

­

 

N),

 

 

 

практиче

ские нужды, тем более что вместо

величины log

в формуле (21),

по которой вычисляется Q(/:s,

 

 

может быть

взята любая

по­

стоянная. Ограничение накладывается только на максимумы вели­ чин Ni(ιti). Ошибки оценивания вероятностей ошибок первого и

второго рода (рис. 6) могут быть оценены как ошибки оценивания параметра биномиального распределения — непосредственно или

с использованием аппроксимации-нормальным законом.

Рис. 6. Вид доверительных областей значений параметров для однопа­ раметрического (ɑ) и двухпараметрического (б) законов распределений.

Система машинных программ, включающая в себя программы расчета и статистического моделирования типовых законов распре­

деления с произвольно задаваемыми параметрами, позволяет про­

верить любую последовательность статистических гипотез. Расши­ рение управляющей программы системы позволяет априорно оцени­

вать различимость гипотез, необходимые объемы выборок и строить

опорные таблицы различимости.

§ 4. Анализ и расчет представительности статистических данных

Точность и достоверность результатов статистической оценки

непосредственно наблюдаемой случайной величины определяются

абсолютным объемом выборки, по которой производится оценка.

Применительно к программно-логическому методу это, например,

означает, что с ростом объема выборки стягиваются доверительные

области значений параметров для фиксированных уровней довери­

тельной вероятности и все больше типов гипотез оказывается воз­ можным обоснованно исключить из рассмотрения.

Однако на практике точность и достоверность статистического анализа столь однозначно абсолютным объемом выборки не опре­

деляются вследствие того, что экспериментальные данные часто бывают получены в результате наблюдения лишь некоторой части

эксплуатируемых или подлежащих проверке технических устройств.

28


И вопрос о том, в какой мере результаты наблюдения части сово­

купности могут быть распространены на всю совокупность, требует отдельного рассмотрения.

Предположим, что на 10 машинах зафиксировано 25 отказов и определены типы и значения параметров распределений времени наработки на отказ. Но в одном случае вся совокупность эксплуати­

руемых машин составляет 20, в другом— 1000 единиц. Без прове­

дения каких-либо расчетов представляется достаточно очевидным,

что о 10 оставшихся не обследованными машинах в первом случае

мы можем судить с

большей определенностью, чем о 990 BO BTO-

ром. Иначе говоря,

один

и тот же объем

статистических данных

может обладать различной представи­

 

 

 

тельностью в отношении всей совокуп­

 

 

 

ности эксплуатируемых или подлежащих

 

 

 

проверке изделий и машин.

 

 

 

Каковы

могут

быть

математические

 

 

 

методы описания и анализа представи­

 

 

 

тельности статистических данных? Можно

 

 

 

сказать, что задача в некоторой мере

 

 

 

аналогична задаче выборочного статисти­

 

 

 

ческого контроля. Сходство заключается

 

 

 

в том, что

при статистическом контроле

Рис. 7. Вид оперативной ха­

производства так же требуется по резуль­

рочного статистического кон­

татам обследования части партии продук­

троля.

выбо­

ции составить заключение о качестве всей

рактеристики

плана

партии. Различие, с точки зрения матема­

 

 

 

тического

описания и анализа, состоит

 

 

 

в том, что в современной постановке задачи статистического кон­ троля производства принимаются во внимание только показатели

среднестатистические, по большому количеству проверяемых пар­

тий продукции, тогда как в задаче анализа данных сдаточных испы­

таний каждый раз рассматривается одна-единственная совокуп­ ность изделий или машин данного типа, назначение и т. д.

Заключение по каждому проверенному изделию при выборочном статистическом контроле принимается исходя из того, удовлетво­ ряет или нет оно некоторому граничному условию. Выбор и обосно­ вание планов выборочного статистического контроля осуществля­

ются по их оперативным характеристикам. Оперативная характери­ стика плана выражает зависимость вероятности принятия партии

от степени ее засоренности дефектными изделиями.

Вид оперативной характеристики представлен на рис. 7. Для

каждого плана выборочного статистического контроля обычно ука­

зывают две ее нетривиальные точки: вероятность а браковки пар­

тии с малым содержанием дефектных изделий d↑ — риск постав­ щика и вероятность β принятия партии с недопустимо высоким

содержанием дефектных изделий d2— риск заказчика.

Такое описание является вполне достаточным для решения по­

ставщиком и заказчиком массовой продукции экономических вопро-

" сов, оно позволяет определить и многие количественные показатели

29