3.3. коэффициент корреляции
3.3. коэффициент корреляции
Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (3.12).
На первый взгляд, подходящим измерителем тесноты связи У от ^является коэффициент регрессии />і,ибо, как уже было отмечено, он показывает, на сколько единиц в среднем изменяется Y9 когда X увеличивается на одну единицу. Однако Ь зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 100 раз, если мощность пласта X выразить не в метрах, а в сантиметрах.
Очевидно, что для «исправления» Ь как показателя тесноты связи нужная такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.
Представим уравнение (3.12) в эквивалентном виде:
у-
У і sx — = b{ —
х-х
В этой системе величина
(3.17)
показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.
Величина г является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
Две корреляционные зависимости переменной Y от X приведены на рис. 3.2. Очевидно, что в случае а зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б, так как точки корреляционного поля а дальше отстоят от линии регрессии, чем точки поля б.
х
X
Рис. 3.2
Если г > О (Ь > О), то корреляционная связь между переменными называется прямой, если г < О (Ь < 0), — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
Учитывая (3.13), формулу для г представим в виде:
г=х~у-ху ^С6у(Х,У) (ЗЛ8)
SxSy sxsy
Отметим другие модификации формулы г, полученные из формулы (3.18) с помощью формул (3.7)—(3.10), (3.13)—(3.15):
(3.19)
nsxsy
( п у п
пТхіУі- Ну і
/=і v=i Дм J
(n V n (n У
(3.20)
Для практических расчетов наиболее удобна формула (3.20), так как по ней г находится непосредственно из данных наблюдений и на значении г не скажутся округления данных, связанные с расчетом средних и отклонений от них.
Выборочный коэффициент корреляции г (при достаточно большом объеме выборки п) так же, как и коэффициент корреляции двух случайных величин (§ 2.5), обладает следующими свойствами.
Коэффициент корреляции принимает значения на отрезке
т. е. -1<г<1. Чем ближе I г к единице, тем теснее связь.
При г = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии (рис. 3.3).
При г = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох (рис. 3.4).
r= 1
r=-
X
0
а б Рис. 3.3
Следует отметить, что мы ввели выборочный коэффициент
• корреляции г исходя из оценки 0 г * у = у близости точек корреляционного
* • поля к прямой регрессии Y по X.
. ' х Однако г является непосредствен0 х но оценкой генерального коэфрис 34 фициента корреляции р между Xи
Y лишь в случае двумерного нормального закона распределения случайных величин X и Y В других случаях (когда распределения Хи У отклоняются от нормального, одна из исследуемых величин, например X, не является случайной и т.п.) выборочный коэффициент корреляции не следует рассматривать как строгую меру взаимосвязи переменных.
► Пример 3.2.
По данным табл. 3.1 вычислить коэффициент корреляции между переменными Хи Y.
10
Решение. В примере 3.1 были вычислены ]Г */ = 94;
10
10
10
YjX} =908 ; =68, ^х{у( =664. Вычислим сумму
i=i
/=і
і=і
5>/2 =52 +102 + 102 +72 +52 +62 + 62 +52 + 62 +82 =496.
По формуле (3.20)
т. е. связь между переменными достаточно тесная. ►
Обсуждение Эконометрика
Комментарии, рецензии и отзывы