Файл: Юзбашев М.М. Методы изучения динамики распределений и зависимостей.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.06.2024
Просмотров: 103
Скачиваний: 0
Г л а в а III
СТАТИСТИЧЕСКИЕ МЕТОДЫ ИССЛЕДОВАНИЯ ДИНАМИКИ КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ
§1. Корреляционные зависимости
инеобходимость их изучения
вдинамике
Впредыдущей главе была показана необходимость статистического исследования динамики одномерных рас пределений и предложены некоторые методы такого изу чения. Основное положение о невозможности научного познания закономерностей распределения статистической совокупности вне рассмотрения его динамики полностью сохраняет силу и для многомерных распределений. Мно
гомерным называют распределение статистической сово купности по значениям нескольких признаков одновре менно. Таково, например, распределение совхозов обла сти по урожайности картофеля и производительности труда в картофелеводстве; распределение юношей в воз расте 18 лет по росту и весу; распределение промышлен ных предприятий определенной отрасли по фондовоору женности, энерговооруженности, размерам производства, коэффициенту сменности (использования оборудования) и по производительности труда. Простейшим видом мно гомерного распределения является распределение по двум признакам или двумерное. В ряде современных ста тистических исследований анализируются весьма слож ные распределения — одиннадцатимерные [26, с. 230— 248], шестнадцатимерные [11, с. 42—51] и т. д.
Если статистическая совокупность распределена по нескольким независимым друг от друга признакам, такое распределение, оставаясь формально многомерным, по существу распадается на отдельные одномерные распре деления, и его изучение не дает ничего нового по сравне нию с изучением суммы соответствующих одномерных распределений. Однако независимость признаков — срав-
111
ннтелы-ю редко встречающееся явление. Реальное много мерное распределение в силу диалектического закона всеобщей связи и зависимости явлений обнаруживает по добную зависимость между признаками и служит мощ ным орудием ее статистического исследования. Рассмот рим пример.
Таблица 21
Распределение совхозов ЭССР по производительности труда и его оплате в производстве картофеля, 1970 г.
|
|
|
|
|
|
О п л а т а |
т р у д а ( у ) , |
р у б . / ч е л . - д е н ь |
|
||||
т е л ь н о с т ь |
|
|
|
|
|
|
О |
|
СО |
Ю |
|||
т р у д а |
( л * ) , |
|
ю |
о |
г - |
СО |
О |
|
|
Т |
|||
|
Т |
1 |
1 |
||||||||||
ц / ч е л . - д е н ь |
[ |
1 |
1 |
1 |
J . |
1 |
|||||||
О |
|
со |
|||||||||||
|
|
|
СО |
|
ш |
о |
|
со |
05 |
|
|
|
|
2 |
— |
3 |
|
1 |
1 |
|
|
|
|
|
|
|
|
3 |
— |
4 |
1 |
6 |
1 0 |
4 |
|
|
|
|
|
|
|
4 |
- |
5 |
|
3 |
1 8 |
1 4 |
8 |
2 |
|
|
|
|
|
5 |
— |
6 |
|
|
4 |
1 0 |
П |
7 |
4 |
2 |
|
|
|
6 |
— |
7 |
|
|
3 |
5 |
1 4 |
2 |
4 |
1 |
|
|
|
7 — |
8 |
|
|
|
1 |
4 |
7 |
4 |
|
|
|
||
8 — |
9 |
|
|
|
2 |
2 |
1 |
|
1 |
|
|
||
9 |
— |
1 1 |
|
|
|
|
1 |
2 |
|
|
|
|
|
1 1 — |
1 3 |
|
|
|
|
|
|
1 |
1 |
|
|
||
Б о л |
е е |
1 3 |
|
|
|
|
|
|
1 |
|
2 |
|
о л е е |
5 |
т о г о |
Б |
1 |
И |
|
|
2 |
|
2 1 |
|
|
4 |
5 |
|
3 |
8 |
|
2 9 |
|
|
1 6 |
|
|
|
6 |
|
|
3 |
|
|
2 |
|
1 |
4 |
И т о г о |
1 |
1 0 |
3 6 |
3 6 |
4 0 |
2 1 |
1 4 |
5 |
2 |
1 |
1 6 6 |
Табл. 21 отражает двумерное распределение совокуп ности совхозов ЭССР. Ее итоговая строка является обыч ным вариационным рядом — распределением совокупно сти по оплате человеко-дня. Итоговая графа таблицы есть ряд распределения совокупности совхозов по про изводительности труда. Каждая из отдельных строк и граф таблицы также представляет собой ряд распреде ления, но не всей совокупности, а лишь одной из групп, выделенных по величине либо производительности (стро ки), либо оплаты человеко-дня (графы). Такие частные ряды распределения называют условными распределе ниями [см., напр., 43, с. 38). Каждое из них выражает со бой закономерность распределения совокупности по одно му признаку при условии, что второй признак фиксирован в границах определенного интервала. Например, третья строка таблицы выражает собой распределение совхозов
112
по оплате человеко-дня при условии, что производитель ность труда составляет от 4 до 5 ц на отработанный че ловеко-день.
Если бы условные ряды распределения занимали од но и то же положение в таблице (друг над другом и один правее другого), иначе говоря, если бы характеристики условных распределений (средняя величина признака, среднее квадратическое отклонение) были постоянны, это означало бы, что влияние одного признака на другой отсутствует. Точнее сказать, что при отсутствии связи между признаками характеристики условных распределе ний имели бы лишь случайные отличия друг от друга, как случайные выборки из итогового ряда распределения. На самом деле, как видно в табл. 21, условные ряды распре деления закономерно, систематически смещаются по мере изменения значений группировочного признака. В резуль тате этого двумерное распределение приобретает харак терную эллипсоидальную форму, причем большая ось эллипса направлена вдоль диагонали, ведущей из левого верхнего угла таблицы к правому нижнему углу. Иначе говоря, по мере возрастания значений каждого из призна ков условное распределение по другому признаку также смещается в сторону больших его значений.
Для того чтобы иметь возможность проследить за из менениями не только средних величин, но и других харак теристик условных распределений, нужно чтобы каждое из них включало в себя достаточно большое числе единиц
совокупности, |
а для оценки асимметрии и эксцесса не |
менее 80— 100. |
Следовательно, это возможно лишь при |
весьма многочисленной общей совокупности, в несколько раз превышающей изучаемую в табл. 21 совокупность совхозов ЭССР.
Задачей данной книги не является систематическое из ложение проблем корреляционного анализа. В этой главе, как и в главе II, исследуются лишь отдельные воп росы, по которым в статистической литературе существу ют неясности и разногласия. Нередко выставляется требование о том, чтобы сущность связи, ее причинный механизм были известны, познаны еще до того, как при меняется корреляционный анализ. Например, в учебнике «Общая теория статистики» [8, с. 192] читаем:
«Возможность корреляционной связи должна быть всегда обоснована предварительным анализом существа
'Д5-372 |
113 |
изучаемых явлений, связь между которыми исследуется». Между тем нередко статистический анализ корреляцион ной зависимости между наблюдаемыми явлениями пред шествует познанию причинного механизма зависимости и познанию существа самих явлений. Например, амери канский астроном Хаббл в 20-е годы установил из наблюдегпш, что между расстоянием до тон или иной галакти ки и смещением спектральных линий в ее спектре к длин новолновому (красному) краю существует корреляцион ная зависимость. Зависимость эта с тех пор многократно подтверждена и измерена, она — линейна, а коэффи циент регрессии — одна из важнейших «мировых посто янных» (постоянная Хаббла). Но причинный механизм связи и сейчас не объяснен достоверно — есть множество конкурирующих гипотез на этот счет [см. 4].
Следует говорить не об обязательности предваритель ного познания сущности связи, а о том, что статистика, устанавливая корреляцию между явлениями, не устанав ливает еще тем самым факта причинной зависимости, не объясняет ее механизма. Обнаружение корреляции, не объясненной по существу, должно послужить толчком к изучению причинной зависимости той пли иной наукой. Статистика может и должна заниматься как измерением связей, уже получивших теоретическое объяснение по существу, так и поиском еще неизвестных, предполагае мых зависимостей, проверкой тех или иных гипотетиче ских взаимосвязей.
Второй вопрос, который полезно рассмотреть, — это вопрос о видах или формах причинной зависимости, кото рые могут найти проявление в корреляции признаков. Чаще всего в литературе говорится об одном или не скольких факторных признаках и о зависящем от них
результативном признаке. В основном такая формули ровка связи признаков, преобладающая в нашей соци ально-экономической статистике, соответствует сущности изучаемых зависимостей. Но не следует считать ее един ственным видом зависимостей, изучаемых с помощью корреляционного анализа. Формой причинной зависимо сти может являться взаимозависимость признаков, при которой каждый в определенной конкретной постановке задачи может являться и фактором и результативным признаком. Таковы, например, зависимости между уро жайностью и производительностью труда, между произ-
114
водительностыо труда и его оплатой. Наконец, изучается корреляция между двумя признаками, не находящимися в причинной зависимости друг от друга, но связанными как следствия одной причины или чаще — общего комп лекса причин. Таковы, например, корреляционные зави симости между урожайностью одной сельскохозяйствен ной культуры и урожайностью другой сельскохозяйствен ной культуры в том же году. Корреляция урожайностей является следствием того, что и на урожайность одной и на урожайность другой культуры влияют сходным обра зом многие (не все!) метеорологические, почвенные и' производственные факторы. Такого рода корреляцию под робно изучали советские статистики В. М. Обухов, Н. С. Четвериков, Б. С. Ястремский. Не следует данную форму зависимости исключать из категории причинности, как это делает ряд статистиков. Например, И. П. Суслов пи шет: «Таким образом, наличие формально обнаруживае мой связи не обязательно свидетельствует о наличии при чинно-следственных связей между изучаемыми признака ми. В частности, такая связь может быть тогда, когда оба изучаемых признака оказываются зависимыми от треть его» [30, с. 305]. Зависимость двух признаков от третьего, если это реальная связь двух следствий с общим причин ным фактором, не имеет ничего общего с одним из видов' «ложной корреляции», состоящим в том, что два ряда не-’ зависимых, некоррелированных между собой величин приобретают видимость корреляции, если их попарно раз делить на одни и те же числа или из них вычесть одина ковые числа. Этот вид ложной корреляции подробно рас смотрен Н. С. Четвериковым [26, с. 218—225]. Практиче ское значение статистического исследования корреляции между двумя (и более) следствиями общего в какой-то степени комплекса причин состоит в том, что по значе ниям одного результативного признака при наличии до статочно,тесной корреляции становится возможным вы числить теоретические (ожидаемые) значения другого' (быть может, не поддающегося прямому измерению) или предсказать значение признака, если его корреляция сопряжена с лагом во времени. Так, по урожайности раньше созревающей культуры, которая определена фак тически, можно вычислить находящуюся в корреляцион ной связи с ней ожидаемую урожайность другой культу ры, которая еще не созрела и не может быть определена
‘/26—372 |
115 |
измерением. Корреляцию такого рода нельзя считать «формальной», это отражение одного из видов реальных причинно-следственных зависимостей.
Всеобщая связь и зависимость явлений — один из за конов диалектики. Другим ее законом является закон не прерывного развития, изменения явлений во времени. Отдельные законы или черты диалектики не изолированы друг от друга, они образуют единую систему. Логика на учного познания должна отражать логику объективной реальности, должна быть пронизана тем же диалектиче ским методом. Следовательно, нельзя отрывать исследо вание корреляционных связей между явлениями от иссле дования их изменения во времени, в процессе развития. К сожалению, статистическая наука еще мало продвину лась вперед в области изучения динамики корреляцион ных зависимостей. Интерес к этой проблеме возрос в последнее время в связи с развитием методов динамиче ского прогнозирования и динамического программирова ния в экономике. Подробное и достаточно обоснованное обсуждение методики построения динамической корре ляционной модели и ее практическое построение дано, например, в работе А. А. Френкеля «Математические ме тоды анализа динамики и прогнозирования производи тельности труда» [32, с. 156-—174]. Над данной проблемой работают также Г. В. Розанов, О. П. Крастинь и некото рые другие советские статистики.
Между тем комплексное исследование динамики и корреляционных зависимостей в русской и советской статистике имеет длительную историю. В работе М. М. Виноградовой «Потребление водки и урожай»,
изданной в 1916 г., исследована корреляция между ко лебаниями двух динамических рядов. С. П. Бобров, Б. С. Ястремский, Н. С. Четвериков в 20-е годы разработали методы, позволяющие выявлять и измерять изменения корреляции между динамическими рядами («переменная корреляция») [21%33, 38].-В этих работах заложены и раз виты ценные идеи по труднейшей проблеме корреляции между рядами динамики. До последнего времени меньше внимания уделялось изучению динамики обычных кор реляционных зависимостей, т. е. динамике двумерных и многомерных распределений. Ни в одном из изданных за последние 10 лет учебников по общей теории статистики, по математической статистике, экономической статистике,
116
статистике сельского хозяйства не оговаривается, что корреляционная зависимость, как и все остальные стати стические категории, развивается и изменяется, что ее измерение по данным только за един год или на один случайно выбранный момент времени не может дать до статочно надежных характеристик связи между изучае мыми признаками. Нередко приводятся примеры расчета параметров корреляционных зависимостей по данным за один год даже при изучении сельского хозяйства — от расли, в которой случайные колебания факторов произ водства и его результатов особенно значительны. Так, например, в весьма солидном и в целом заслужившем высокую оценку «Практикуме по общей и сельскохозяй ственной статистике» [25, с. 220—282] исследована корре ляционная зависимость между себестоимостью зерна и урожайностью озимой пшеницы, между внесением удоб рений на гектар пашни и урожайностью без всякого ука зания на необходимость измерения таких зависимостей только на основе многолетних данных. На фактическом материале далее показано, сколь Еелики колебания ха рактеристик корреляционной связи между урожайностью и себестоимостью в различные годы.
Автор данной работы и сам вынужден покаяться в том же грехе: в недооценке необходимости исследования кор реляционных зависимостей в их динамике, в неоднократ ном использовании корреляционных уравнений, получен ных по данным одного,, зачастую последнего, по которому имелись данные, года, без проверки их динамики. Потому и приходится столь подробно останавливаться на недо статках в указанном отношении в работах ряда видных советских статистиков, что необходимость исследования корреляционных зависимостей в динамике осознана да леко не полностью и не всеми.
В данной работе применяются общепринятые методы вычисления параметров корреляционных зависимостей, показателей их надежности и устойчивости, поэтому не возникает необходимости в их обсуждении за немногими исключениями.
Динамический ряд коэффициентов парной или мно жественной корреляции, коэффициентов регрессии, бэтакоэффициентов или коэффициентов эластичности следует рассматривать как,одну из форм динамических рядов, к которой можно и необходимо применять все те методы
'/=6* |
117 |
анализа динамики, которые применяются к другим фор мам динамических рядов: выравнивание, измерение ко леблемости, анализ автокорреляции колебаний, опреде ление темпов изменения и т. п. Хотя названия таких по казателей, как «коэффициент колеблемости коэффициен та корреляции», «среднегодовой прирост коэффициента регрессии», «темп роста корреляционного отношения» и им подобные звучат пока еще непривычно, они, несомнен но, войдут в практику статистического анализа.
Обсуждению подлежит недостаточно освещенный вопрос о методике построения таблиц двумерного рас пределения (корреляционных таблиц). Следует ли при их построении обязательно соблюдать принцип равных интервалов каждого из признаков или целесообразно для лучшего отражения закономерности зависимости пойти на укрупнение интервалов с малочисленными условны ми распределениями? Поскольку сущность корреляцион ной зависимости состоит в закономерном изменении ус ловных распределений результативного признака по ме ре, перехода от одного интервала (или отдельного значе ния) факторного признака к другому, необходимо, что бы каждое из условных распределений было достаточно многочисленным для выявления его типичных характе ристик (хотя бы, как минимум, среднего значения при знака). С этой точки зрения следует стремиться к тому, чтобы в каждой строке и в каждой графе корреляционной таблицы имелось достаточное число единиц изучаемой совокупности для выявления надежной, устойчивой ус ловной средней величины признака.
Указанное требование удается выполнить только при изучении весьма многочисленной совокупности. Как вид но в табл. 21, только пять строк из 10 и только 5 граф из 11 содержат достаточное число единиц совокупности для выявления достаточно надежных средних. В таких слу чаях полезно укрупнить интервалы признаков в мало численных группах. По производительности труда можно объединить, например, первую и вторую группы, а также все группы с величиной более 9 ц на человеко-день. По оплате труда целесообразно также объединить первую группу со второй, а также все 4 последние группы с оп латой более 10 руб. за человеко-день.
Однако не следует забывать, что при создании нерав ных и открытых интервалов средняя величина условного
118
распределения может далеко отойти от середины объеди ненного интервала. В расчетах, приведенных в последу ющих параграфах, средние -значения признаков в откры тых и объединенных интервалах определены по фактиче ским данным, что не вызывает трудностей из-за неболь шой численности этих групп.
Второй вопрос, связанный именно с исследованием динамики корреляционных зависимостей, состоит в сле дующем: параметры корреляционных связей за все срав ниваемые периоды формально были бы более сопоставив мы, если па протяжении всех периодов пользоваться для расчетов жестко фиксированной схемой группировки (одинаковыми по величине интервалами признаков, оди наковыми по числу групп таблицами). Однако динамика совокупности и самой корреляционной зависимости ло мает эту жестко фиксированную формальную схему: интервалы признаков, подходящие для одного периода, оказываются слишком узкими или, наоборот, слишком широкими для другого; некоторые значения признаков вообще перестают существовать, зато возникают другие, ранее ие встречавшиеся. Чем сильнее динамика, тем труднее «уложить» все корреляции в одну схему. Не от брасывая требования единой формы корреляционных таб лиц и единых интервалов признаков, если это требова ние не противоречит фактическому состоянию развиваю щейся зависимости (например, в слабо изменяющихся совокупностях, при невысокой скорости и небольших ко
лебаниях в динамике, при изучении |
связи за короткий |
|
период в три — пять лет), следует |
исходить не из фор |
|
мальной сопоставимости |
корреляционных таблиц, а из |
|
необходимости наиболее |
полного и точного выявления |
формы и тесноты корреляционной зависимости за каждый год, на каждый момент времени. Поэтому при исследо вании совокупностей со значительной динамикой величи ны интервалов признаков будут Еесьма различными в начальный и конечный период. Приведем для сравнения
с табл. 21 то же двумерное распределение совхозов Эстон ской ССР за 1963 г,
Сравнение табл. 21 и 22 ясно свидетельствует, что «уложить» двумерные распределения за 1963 и 1970 гг. в одну схему с едиными интервалами признаков невоз можно. Зато каждая из этих таблиц с одинаковой, сопо
119