Уровень значимости корреляции.

Этап 3. Нахождение взаимосвязи между данными

Линейная корреляция

Последний этап задачи изучения связей между явлениями – оценка тесноты связи по показателям корреляционной связи. Этот этап очень важен для выявления зависимостей между факторными и результативными признаками, а следовательно, для возможности осуществления диагноза и прогноза изучаемого явления.

Диагноз (от греч. diagnosis распознавание) – определение существа и особенностей состояния какого-либо объекта или явления на основе его всестороннего исследования.

Прогноз (от греч. prognosis предвидение, предсказание) – всякое конкретное предсказание, суждение о состоянии какого-либо явления в будущем (прогноз погоды, исхода выборов и т.п.). Прогноз – это научно обоснованная гипотеза о вероятном будущем состоянии изучаемой системы, объекта или явления и характеризующие это состояние показатели. Прогнозирование – разработка прогноза, специальные научные исследования конкретных перспектив развития какого-либо явления.

Вспомним определение корреляции:

Корреляция – зависимость между случайными величинами, выражающаяся в том, что распределение одной величины зависит от значения другой величины.

Корреляционная связь наблюдается не только между количественными, но и качественными признаками. Существуют различные способы и показатели оценки тесноты связей. Мы остановимся лишь на линейном коэффициенте парной корреляции , который используется при наличии линейной связи между случайными величинами. На практике часто возникает необходимость определить уровень связи между случайными величинами неодинаковой размерности, поэтому желательно располагать какой-то безразмерной характеристикой этой связи. Такой характеристикой (мерой связи) является коэффициент линейной корреляции r xy , который определяется по формуле

где , .

Обозначив и , можно получить следующее выражение для расчета коэффициента корреляции

.

Если ввести понятие нормированного отклонения , которое выражает отклонение коррелируемых значений от среднего в долях среднего квадратического отклонения:



то выражение для коэффициента корреляции примет вид

.

Если производить расчет коэффициента корреляции по итоговым значениям исходных случайных величин из расчетной таблицы, то коэффициент корреляции можно вычислить по формуле

.

Свойства коэффициента линейной корреляции:

1). Коэффициент корреляции – безразмерная величина.

2). |r | £ 1 или .

3). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y умножить (или разделить) на константу.

4). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y увеличить (или уменьшить) на константу.

5). Между коэффициентом корреляции и коэффициентом регрессии существует связь:

Интерпретировать значения коэффициентов корреляции можно следующим образом:

Количественные критерии оценки тесноты связи:

В прогностических целях обычно используют величины с |r| > 0.7.

Коэффициент корреляции позволяет сделать вывод о существовании линейной зависимости между двумя случайными величинами, но не указывает, какая из величин обуславливает изменение другой. В действительности связь между двумя случайными величинами может существовать и без причинно-следственной связи между самими величинами, т.к. изменение обеих случайных величин может быть вызвано изменением (влиянием) третьей.

Коэффициент корреляции r xy является симметричным по отношению к рассматриваемым случайным величинам X и Y . Это означает, что для определения коэффициента корреляции совершенно безразлично, какая из величин является независимой, а какая – зависимой.

Значимость коэффициента корреляции

Даже для независимых величин коэффициент корреляции может оказаться отличным от нуля вследствие случайного рассеяния результатов измерений или вследствие небольшой выборки случайных величин. Поэтому следует проверять значимость коэффициента корреляции.

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента :

.

Если t > t кр (P, n -2), то линейный коэффициент корреляции значим, а следовательно, значима и статистическая связь X и Y .

.

Для удобства вычислений созданы таблицы значений доверительных границ коэффициентов корреляции для различного числа степеней свободы f = n –2 (двусторонний критерий) и различных уровней значимости a = 0,1; 0,05; 0,01 и 0,001. Считается, что корреляция значима, если рассчитанный коэффициент корреляции превосходит значение доверительной границы коэффициента корреляции для заданных f и a .

Для больших n и a = 0,01 значение доверительной границы коэффициента корреляции можно вычислить по приближенной формуле

.

Задание . По территориям региона приводятся данные за 199Х г.;
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора .
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 0.92, a = 76.98
Уравнение регрессии:
y = 0.92 x + 76.98

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между среднедневной заработной платы и среднедушевым прожиточным минимумом высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.92 x + 76.98
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 0.92 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 руб. среднедушевого прожиточного минимума в день среднедневная заработная плата повышается в среднем на 0.92.
Коэффициент a = 76.98 формально показывает прогнозируемый уровень Среднедневная заработная плата, но только в том случае, если х=0 находится близко с выборочными значениями.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между среднедневной заработной платы и среднедушевого прожиточного минимума в день определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:


Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами - влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199
т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:
t крит = (10;0.05) = 1.812
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S 2 y = 157.4922 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.


S b - стандартное отклонение случайной величины b.


2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bx p ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (10;0.05) = 1.812


Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

ИСХОДНЫЕ ДАННЫЕ

ОЦЕНКА ДОСТОВЕРНОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляцииr в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой :

При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

При достаточно большом числе наблюдений r должен превышать свою среднюю ошибку не менее, чем в три раза: . Если это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

Задавшись определенной вероятностью, можно построить доверительные границы r:

Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят

,

При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят

Поскольку значение r не может превышать единицу, то в случае, если > 1, следует указать только нижний предел, то есть утверждать, что реальный r не меньше, чем .

2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n< 30), средняя ошибка линейного коэффициента корреляции находится по формуле:

а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:

,

расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, то есть r =0, то распределение t - критерия подчиняется закону распределения Стьюдента сn-2 степенями свободы и принятым уровнем значимости (обычно 0,05). В каждом конкретном случае по таблице распределения t -критерия Стьюдента находится табличное (критическое) значение t , которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t . Если t расч. > t табл . , то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между x и y – существенной. И наоборот.



3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.

Для этого рассчитывается величина

Распределение z приближается к нормальному. Вариация z выражается формулой

Рассчитаем zкритерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.

.

Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствуетZ=1,74.

Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.

Расчет коэффициентов корреляции произведем в программе STATISTICA.

Рисунок 1 – Корреляционная матрица.

Корреляция определяет степень, с которой значения двух переменных «пропорциональны» друг другу. Пропорциональность означает просто линейную зависимость . Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона). Таким образом, это простейшая регрессионная модель, описывающая зависимость одной переменной от одного фактора.

Отметим основные характеристики этого показателя.

Он может принимать значения от –1 до +1. Знак «+» означает, что связь прямая (когда значения одной переменной возрастают, значения другой переменной также возрастают), «–» означает, что связь обратная.

Чем ближе коэффициент к 1, величине коэффициента корреляции менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 – умеренная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень тесная.

Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.

Коэффициент корреляции – это показатель, оценивающий тесноту линейной связи между признаками.

При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на общей прямой. Ее еще называют линией регрессии. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии параллельны осям координат.

Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Основываясь на коэффициентах корреляции, мы не можем строгодоказать причинной зависимости между переменными, однако можетеопределить ложные корреляции, т. е. корреляции, которые обусловленывлияниями «других», остающихся вне вашего поля зрения переменных.

Основная проблема ложной корреляции состоит в том, что мы не знаем,

кто является еѐ носителем. Тем не менее, если мы знаем, где искать, то

можно воспользоваться частные корреляции, чтобы контролировать (частично исключѐнное) влияние определѐнных переменных.


Рисунок 2 – Диаграммы рассеяния.

Как неоднократно отмечалось, для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистических характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь между исследуемыми переменными отсутствует, то коэффициент корреляции генеральной совокупности равен нулю. При практических исследованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случайно рассеиваются вокруг одноименного параметра генеральной совокупности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у их коэффициент корреляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда некоторые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния,

обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение выборочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у их существует статистически значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется критерием значимости.

Процедура проверки значимости начинается с формулировки нулевой гипотезы В общем виде она заключается в том, что между параметром выборки и параметром генеральной совокупности нет каких-либо существенных различий. Альтернативная гипотеза состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокупности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю Если в результате проверки окажется, что нулевая гипотеза не приемлема, то выборочный коэффициент корреляции значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Другими словами, предположение о некоррелированности случайных переменных в генеральной совокупности следует признать необоснованным. И наоборот, если на основе критерия значимости нулевая гипотеза принимается, т. е. лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелированности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости а, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероятность того, что нулевая гипотеза отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, являющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости а соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки образуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследовании. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной совокупности

требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и отрицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или меньше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании односторонней критической области меньше, чем при использовании двусторонней.

Рис. 24. Проверка нулевой гипотезы

Если распределение выборочной характеристики симметрично, то уровень значимости двусторонней критической области равен а, а односторонней - у (см. рис. 24). Ограничимся лишь общей постановкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми явлениями. При отсутствии связи коэффициент корреляции генеральной совокупности равен нулю Процедура проверки начинается с формулировки нулевой и альтернативной гипотез:

Различие между выборочным коэффициентом корреляции незначимо,

Различие между значимо, и следовательно, между переменными у их имеется существенная связь. Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной подчиняющейся распределению Стьюдента с степенями свободы. Вычисленная по результатам выборки статистика

сравнивается с критическим значением, определяемым по таблице распределения Стьюдента при заданном уровне значимости а и степенях свободы. Правило применения критерия заключается в следующем: если то нулевая гипотеза на уровне значимости а отвергается, т. е. связь между переменными значима; если то нулевая гипотеза на уровне значимости а принимается. Отклонение значения от можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возможную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики воспользоваться критическими значениями коэффициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если то можем утверждать, что связь между переменными существенная. Если то результаты наблюдений считаем непротиворечащими гипотезе об отсутствии связи.

Проверим гипотезу о независимости производительности труда от уровня механизации работ при по данным, приведенным в разделе 4.1. Ранее было вычислено, что По (8.38) получаем

По таблице распределения Стьюдента для находим критическое значение этой статистики: Поскольку нулевую гипотезу отвергаем, допуская ошибку лишь в 5% случаев.

Мы получим тот же результат, если будем сравнивать с критическим значением коэффициента корреляции найденным по соответствующей таблице при

которая имеет -распределение с степенями свободы. Далее процедура проверки значимости проводится аналогично предыдущей с помощью -критерия.

Пример

Исходя из экономического анализа явлений предполагаем в генеральной совокупности сильную связь между производительностью труда и уровнем механизации работ. Пусть, например, . В качестве альтернативной в этом случае можем выдвинуть гипотезу так как выборочный коэффициент корреляции Таким образом, мы должны воспользоваться односторонней критической областью. Из (8.40) следует, что

Полученное значение сравниваем с критическим значением Имеем Таким образом, на уровне значимости 5% можно предполагать наличие очень тесной связи между изучаемыми признаками, т. е. исходные данные позволяют считать правдоподобным, что

Значимость коэффициентов частной корреляции проверяется аналогичным путем. Изменяется только число степеней свободы, которое становится равным где - количество объясняющих переменных. Значение статистики, вычисленное по формуле

сравнивается с критическим значением а, найденным по таблице -распределения при уровне значимости а и числе степеней свободы Принятие или отклонение гипотезы о значимости коэффициента частной корреляции производится по тому же правилу, что было описано выше. Проверку значимости можно осуществить также с помощью критических значений коэффициента корреляции по (8.39), а также используя -преобразование Фишера (8.40).

Пример

Проверим статистическую надежность коэффициентов частной корреляции, вычисленных в разделе 4.5, на уровне значимости Ниже, наряду с коэффициентами частной корреляции, приведены соответствующие им расчетные и критические значения статистики

В связи с тем что при принимается гипотеза о значимости коэффициентов делаем вывод: уровень механизации работ оказывает существенное влияние на производительность труда при исключении влияния среднего возраста работников (и среднего процента выполнения норм). Отличие от нуля остальных коэффициентов

частной корреляции может быть отнесёноза счет случайных колебаний в выборке, и поэтому по ним мы не можем сказать ничего определенного о частных влияниях соответствующих переменных.

О значимости коэффициента множественной корреляции судят по результату осуществления процедуры проверки значимости коэффициента множественной детерминации. Более подробно мы обсудим это в следующем разделе.

Часто представляет интерес вопрос: значимо ли отличаются друг от друга два коэффициента корреляции? При проверке этой гипотезы предполагается, что рассматриваются одни и те же признаки однородных совокупностей; данные представляют собой результаты независимых испытаний; применяются коэффициенты корреляции одного типа, т. е. либо коэффициенты парной корреляции, либо коэффициенты частной корреляции при исключении одинакового количества переменных.

Объемы двух выборок, по которым вычисляются коэффициенты корреляции, могут быть различны. Нулевая гипотеза: т. е. коэффициенты корреляции двух рассматриваемых совокупностей равны. Альтернативная гипотеза: Из альтернативной гипотезы следует, что должна быть использована двусторонняя критическая область. Другими словами, следует проверить, значимо ли отличается от нуля разность Воспользуемся статистикой, имеющей приближенно нормальное распределение:

где - результаты -преобразований коэффициентов корреляции - объемы выборок. Правило проверки: если то гипотеза отвергается; если то гипотеза принимается.

В случае принятия величина

после обратного пересчета в с помощью (8.6) служит сводной оценкой коэффициента корреляции Далее может быть проверена гипотеза с помощью статистики

имеющей нормальное распределение.

Пример

Пусть требуется установить при различна ли теснота связи между производительностью труда и уровнем механизации работ на предприятиях одной отрасли промышленности, расположенных в различных районах страны. Сравним предприятия, находящиеся в двух районах. Пусть для одного из них коэффициент корреляции вычислен по выборке объема (см. раздел 4.1). Для Другого района вычислен по выборке объема

После перевода обоих коэффициентов корреляций в -величины вычислим по (8.42) значение статистики X:

Критическое значение статистики при составляет Таким образом, гипотеза принимается, т. е. на основе имеющихся выборок мы не можем установить значимого различия между коэффициентами корреляции. При этом оба коэффициента корреляции значимы.

Используя (8.43) и (8.6), получим сводную оценку коэффициента корреляции для двух районов:

Наконец, проверим гипотезу, значимо ли отличается от нуля сводная оценка коэффициента корреляции с помощью статистики (8.44):

Так как при можем утверждать, что в генеральной совокупности имеется существенная связь между производительностью труда и уровнем механизации работ.

Критерий X может быть использован в различных аспектах. Так, вместо районов могут рассматриваться различные отрасли промышленности, например когда требуется определить, значимы ли различия по силе исследуемых связей между экономическими показателями предприятий, принадлежащих двум различным отраслям.

Пусть на основе двух выборок объема вычислены коэффициенты корреляции характеризующие тесноту связи между производительностью труда и уровнем механизации работ на предприятиях, принадлежащих двум отраслям промышленности (двум генеральным совокупностям). По (8.42) получим

Так как при нулевую гипотезу отвергаем. Следовательно, можно утверждать, что имеются значимые различия в тесноте связи между производительностью труда и уровнем механизации работ на предприятиях, относящихся к различным отраслям промышленности. Этот пример продолжим в разделе 8.7, где будет произведено сравнение регрессионных прямых, построенных для двух совокупностей.

Анализируя приведенные примеры, убеждаемся, что рассмотрение только абсолютной разницы сравниваемых коэффициентов корреляции

(объемы выборок в обоих случаях одинаковы) без проверки значимости этой разницы приведет к ошибочным заключениям. Это подтверждает необходимость пользоваться статистическими критериями при сравнении коэффициентов корреляции.

Процедуру сравнения двух коэффициентов корреляции можно обобщить на большее число коэффициентов при соблюдении указанных выше предпосылок. Гипотеза равенства коэффициентов корреляции между переменными у их выражается следующим образом: Она проверяется на основе коэффициентов корреляции вычисленных по выборкам объема из генеральных совокупностей. производится пересчет коэффициентов корреляций в -величины: Так как в общем случае неизвестен, находим его оценку через по формуле, являющейся обобщением (8.43).

Полный вариант этой заметки (с формулами и таблицами) можно скачать с этой страницы в формате PDF. Размещенный на самой странице текст является кратким изложением содержания этой заметки и наиболее важных выводов.

Оптимистам от статистики посвящается

Коэффициент корреляции (КК) -- одна из наиболее простых и популярных статистик, характеризующих связь между случайными величинами. Одновременно КК удерживает первенство по числу сделанных с его помощью ошибочных и просто бессмысленных выводов. Такое положение обусловлено сложившейся практикой изложения материала, относящегося к корреляции и корреляционным зависимостям.

Большие, маленькие и "промежуточные" значения КК

При рассмотрении корреляционной связи подробно обсуждается понятие «сильной» (почти единичной) и «слабой» (почти нулевой) корреляции, но на практике ни та, ни другая никогда не встречаются. В результате остается неясным вопрос о разумной трактовке обычных для практики «промежуточных» значений КК. Коэффициент корреляции, равный 0.9 или 0.8 , новичку внушает оптимизм, а меньшие значения приводят его в замешательство.

По мере приобретения опыта оптимизм растет, и вот уже КК, равный 0.7 или 0.6 приводит исследователя в восторг, а оптимизм внушают значения 0.5 и 0.4 . Если же исследователь знаком с методами проверки статистических гипотез, то порог «хороших» значений КК падает до 0.3 или 0.2 .

Действительно, какие значения КК уже можно считать «достаточно большими», а какие остаются «слишком маленькими»? На этот вопрос имеется два диаметрально противоположных ответа -- оптимистичный и пессимистичный. Рассмотрим сначала оптимистичный (наиболее популярный) вариант ответа.

Значимость коэффициента корреляции

Этот вариант ответа дает нам классическая статистика и он связан с понятием статистической значимости КК. Мы рассмотрим здесь только ситуацию, когда интерес представляет положительная корреляционная связь (случай отрицательной корреляционной связи совершенно аналогичен). Более сложный случай, когда проверяется только наличие корреляционной связи без учета знака, относительно редко встречается на практике.

Если для КК r выполнено неравенство r > r e (n) , то говорят, что КК статистически значим при уровне значимости е . Здесь r e (n) -- квантиль, относительно которого нас будет интересовать только то, что при фиксированном уровне значимости e его значение стремится к нулю с ростом длины n выборки. Получается, что увеличивая массив данных можно добиться статистической значимости КК даже при весьма малых его значениях. В результате при наличии достаточно большой выборки появляется соблазн признать наличие в случае КК, равного, например, 0.06 . Тем не менее, здравый смысл подсказывает, что вывод о наличии значимой корреляционной связи при r=0.06 не может быть справедливым ни при каком объеме выборки. Остается понять природу ошибки. Для этого рассмотрим подробнее понятие статистической значимости.

Как обычно, при проверке статистических гипотез смысл проводимых расчетов кроется в выборе нуль-гипотезы и альтернативной гипотезы. При проверке значимости КК в качестве нуль-гипотезы берется предположение { r = 0 } при альтернативной гипотезе { r > 0 } (напомним, что мы рассматриваем здесь только ситуацию, когда интерес представляет положительная корреляционная связь). Выбираемый произвольно уровень значимости e определяет вероятность т.н. ошибки первого рода, когда нуль-гипотеза верна (r=0 ), но отклоняется статистическим критерием (т.е. критерий ошибочно признает наличие значимой корреляции). Выбирая уровень значимости, мы гарантируем малую вероятность такой ошибки, т.е. мы почти застрахованы от того, чтобы для независимых выборок (r=0 ) ошибочно признать наличие корреляционной связи (r > 0 ). Грубо говоря, значимость коэффициента корреляции означает только то, что он с большой вероятностью отличен от нуля .

Именно поэтому размер выборки и величина КК компенсируют друг друга -- большие выборки попросту позволяют добиться большей точности в локализации малого КК по его выборочной оценке.

Ясно, что понятие значимости не дает ответа на исходный вопрос о понимании категорий "большой/маленький" применительно к значениям КК. Ответ, даваемый критерием значимости, ничего не говорит нам о свойствах корреляционной связи, а позволяет только убедиться, что с большой вероятностью выполнено неравенство r > 0 . В то же время, само значение КК содержит значительно более существенную информацию о свойствах корреляционной связи. Действительно, одинаково значимые КК, равные 0.1 и 0.9 , существенно различаются по степени выраженности соответствующей корреляционной связи, а утверждение о значимости КК r = 0.06 для практики абсолютно бесполезно, поскольку при любых объемах выборки ни о какой корреляционной связи здесь говорить не приходится.

Окончательно можно сказать, что на практике из значимости коэффициента корреляции не следуют какие бы то ни было свойства корреляционной связи и даже само ее существование . С точки зрения практики порочен сам выбор альтернативной гипотезы, используемой при проверке значимости КК, поскольку случаи r=0 и r>0 при малых r с практической точки зрения неотличимы.

Фактически, когда из значимости КК выводят существование значимой корреляционной связи , производят совершенно беспардонную подмену понятий, основанную на смысловой неоднозначности слова "значимость". Значимость КК (четко определенное понятие) обманно превращают в "значимую корреляционную связь", а это словосочетание, не имеющее строгого определения, трактуют как синоним "выраженной корреляционной связи".

Расщепление дисперсии

Рассмотрим другой вариант ответа на вопрос о "малых" и "больших" значениях КК. Этот вариант ответа связан с выяснением регрессионоого смысла КК и оказывается весьма полезным для практики, хотя и отличается гораздо меньшим оптимизмом, чем критерии значимости КК.

Интересно, что обсуждение регрессионоого смысла КК часто наталкивается на трудности дидактического (а скорее психологического) характера. Кратко прокомментируем их. После формального введения КК и пояснения смысла "сильной" и "слабой" корреляционной связи считается необходимым углубиться в обсуждение философских вопросов соотношения между корреляционными и причинно-следственными связями. При этом делаются энергичные попытки откреститься от (гипотетической!) попытки трактовать корреляционную связь как причинно-следственную. На этом фоне обсуждение вопроса о наличии функциональной зависимости (в том числе и регрессионной) между коррелирующими величинами начинает казаться попросту кощунственной. Ведь от функциональной зависимости до причинно-следственной связи всего один шаг! В результате вопрос о регрессионном смысле КК вообще обходится стороной, так же как и вопрос о корреляционных свойствах линейной регресии.

На самом деле тут все просто. Если для нормированных (т.е. имеющих нулевое матожидание и единичную дисперсию) случайных величин X и Y имеет место соотношение

Y = a + bX + N,

где N -- некоторая случайная величина с нулевым матожиданием (аддитивный шум), то легко убедиться, что a = 0 и b = r . Это соотношение между случайными величинами X и Y называется уравнением линейной регрессии.

Вычисляя дисперсию случайной величины Y легко получить следующее выражение:

D[Y] = b 2 D[X] + D[N].

В последнем выражении первое слагаемое определяет вклад случайной величины X в дисперсию Y , а второе слагаемое -- вклад шума N в дисперсию Y . Используя полученное выше выражение для параметра b , легко выразить вклады случайных величин X и N через величину r = r (напомним, что мы считаем величины X и Y нормированными, т.е. D[X] = D[Y] = 1 ):

b 2 D[X] = r 2

D[N] = 1 - r 2

С учетом полученных формул часто говорят, что для случайных величин X и Y , связанных регрессионным уравнением, величина r 2 определяет долю дисперсии случайной величины Y , линейно обусловленную изменением случайной величины X . Итак, суммарная дисперсия случайной величины Y распадается на дисперсию, линейно обусловленную наличием регрессионной связи и остаточную дисперсию , обусловленную присутствием аддитивного шума.


Рассмотрим диаграмму рассеяния двумерной случайной величины (X, Y) . При малых D[N] диаграмма рассеяния вырождается в линейную зависимость между случайными величинами, слегка искаженную аддитивным шумом (т.е. точки на диаграмме рассеяния будут в основном сосредоточены вблизи прямой X=Y ). Такой случай имеет место при значениях r , близких по модулю к единице. При уменьшении (по модулю) величины КК дисперсия шумовой составляющей N начинает давать все больший вклад в дисперсию величины Y и при малых r диаграмма рассеяния полностью теряет сходство с прямой линией. В этом случае мы имеем облако точек, рассеяние которых в основном обусловлено шумом. Именно этот случай реализуется при значимых, но малых по абсолютной величине значениях КК. Ясно, что в этом случае ни о какой корреляционной связи говорить не приходится.

Посмотрим теперь, какой вариант ответа на вопрос о "больших" и "маленьких" значениях КК предлагает нам регрессионная интерпретация КК. В первую очередь необходимо подчеркнуть, что именно дисперсия является наиболее естественной мерой рассеяния значений случайной величины. Природа этой "естественности" состоит в аддитивности дисперсии для независимых случайных величин, но это свойство имеет очень многообразные проявления, к числу которых относится и продемонстрированное выше расщепление дисперсии на линейно обусловленную и остаточную дисперсии.

Итак, величина r 2 определяет долю дисперсии величины Y , линейно обусловленную наличием регрессионной связи со случайной величиной X . Вопрос о том, какую долю линейно обусловленной дисперсии можно считать признаком наличия выраженной корреляционной связи, остается на совести исследователя. Тем не менее, становится ясно, что малые значения коэффициента корреляции (r < 0.3 ) дают настолько малую долю линейно объясненной дисперсии, что бессмысленно говорить о какой бы то ни было выраженной корреляционной связи. При r > 0.5 можно говорить о наличии заметной корреляционной связи между величинами, а при r > 0.7 корреляционная связь может рассматриваться как существенная.