5.6. частная корреляция
5.6. частная корреляция
Выше, в § 3.3, для оценки тесноты связи между переменными был введен выборочный коэффициент линейной корреляции. Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких переменных.
Выборочным частным коэффициентом корреляции (или просто частным коэффициентом корреляции) между переменными Xt и Xj при фиксированных значениях остальных (р — 2) переменных называется выражение
rij.,2:.p ~ I J г> (5.21)
1 Исходные данные и соответствующие расчеты (полностью идентичные приведенным в гл. 2) здесь не приводятся.
где qn и qjj — алгебраические дополнения элементов гу и Гц матрицы выборочных коэффициентов корреляции f П2 - Лр ^
r2[ 1 ... r2p
Krpl rpl ... 1 J
a ry определяются по формулам (3.18)—(3.20). В частности, в случае трех переменных (я=3) из (5.21) следует, что
1»' /"'У . , ■ (5.22)
Поясним полученную формулу (5.22). Предположим, что
ИМееТСЯ обЫЧНаЯ регреССИОННаЯ МОДеЛЬ jc/ = Ро+ Pi*/+ Р2**+є/ и
необходимо оценить корреляцию между зависимой переменной Хі и объясняющей переменной X; при исключении (элиминировании) влияния другой объясняющей переменной Х^ С этой целью найдем уравнения парной регрессии Х( по Х^ (£. = Ь$+ЬХь)
и Xj по А^ (£, =Z?o +bxk), а затем удалим влияние переменной Xfo взяв остатки £х = xt xt и ех Xj Xj. Очевидно, что коэффициент корреляции между остатками ех. и ех будет отражать
тесноту частной корреляции между переменными Xt и Xj при исключении влияния переменной Х/с. Можно показать, что найденный по формуле (3.18) обычный коэффициент корреляции между остатками ех. и ех равен частному коэффициенту корреляции гул, определенному по формуле (5.22).
Частный коэффициент корреляции а#.і2---/» как и парный коэффициент гд9 может принимать значения от —1 до +1. Кроме того, гу\2...р, вычисленный на основе выборки объема л, имеет такое же распределение, как и гу, вычисленный по п'=п—р+2 наблюдениям. Поэтому значимость частного коэффициента корреляции ГуА2---р оценивают так же, как и обычного коэффициента корреляции г (см. § 3.6), но при этом полагают п'=п—р+2.
► Пример 5.5. Для исследования зависимости между производительностью труда (Х)9 возрастом (ХЦ и производственным стажем (A3) была произведена выборка из 100 рабочих одной и той же специальности. Вычисленные парные коэффициенты корреляции оказались значимыми и составили: ^2=0,20; Г] з=0,41; Г2з=0,82. Вычислить частные коэффициенты корреляции и оценить их значимость на уровне а=0,05.
Решение. По формуле (5.22) частные коэффициенты корреляции
= -0,26
и аналогично гіз.2=0,44; а-2зл=0,83.
Оценим значимость г2з. Значение статистики /-критерия по (3.46) при я'=я—/?+2= 100—3+2=99 (по абсолютной величине)
больше табличного /Ь,95;97=1>99 (см. табл. II приложений), следовательно, частный коэффициент корреляции Г12.3 значим. Аналогично устанавливается значимость других частных коэффициентов корреляции.
Сравнивая частные коэффициенты корреляции ГуК с соответствующими парными коэффициентами, видим, что за счет «очищения связи» наибольшему изменению подвергся коэффициент корреляции между пгюизвддительностъю труда (Х) и возрастом (Х2) рабочих (изменилось не только его значение, но и знак: г12=0,20; Г!2з=—0,26, причем оба эти коэффициента значимы).
Итак, между производительностью труда (Х) и возрастом (Х2) рабочих существует прямая корреляционная связь (ri2=0,20). Если же устранить (элиминировать) влияние переменной «производственный стаж» (A3), то в чистом виде производительность труда (Х) находится в обратной по направлению (и опять же слабой по тесноте) связи с возрастом рабочих (Х2) (а*і2.з=~0526). Это вполне объяснимо, если рассматривать возраст только как показатель работоспособности организма на определенном этапе его жизнедеятельности. Подобным образом могут быть интерпретированы и другие частные коэффициенты корреляции. ►
Упражнения
5.6. Имеются следующие данные о потреблении некоторого продукта Y (усл. ед.) в зависимости от уровня урбанизации (доли городского населения) Х, относительного образовательного уровня Xi и относительного заработка Х$ для девяти географических районов:
/ (номер района) | хп | хп | Уі | / (номер района) | хп | хп | xq | Уі | |
1 | 42,2 | 11,2 | 31,9 | 167,1 | 6 | 44,5 | 10,8 | 8,5 | 174,6 |
2 | 48,6 | 10,6 | 13,2 | 174,4 | 7 | 39,1 | 10,7 | 24,3 | 163,7 |
3 | 42,6 | 10,6 | 28,7 | 160,8 | 8 | 40,1 | 10,0 | 18,6 | 174,5 |
4 | 39,0 | 10,4 | 26,1 | 162,0 | 9 | 45,9 | 12,0 | 20,4 | 185,7 |
5 | 34,7 | 9,3 | 30,1 | 140,8 |
Средние значения jq =41,85; х2 =10,62; jc3 = 24,42; у =167,07.
Стандартные отклонения = 4,176; sX2 = 0,7463; sx = 7,928;
^=12,645.
Корреляционная матрица:
Хх | х2 | Хз | Y | |
1 | 0,684 | -0,616 | 0,802 | |
х2 | 0,684 | 1 | -0,173 | 0,770 |
-0,616 | -0,173 | 1 | -0,629 | |
Y | 0,802 | 0,770 | -0,629 | 1 |
Используя пошаговую процедуру отбора наиболее информативных объясняющих переменных, определить подходящую регрессионную модель, исключив при этом мультиколлинеарность. Оценить значимость коэффициентов регрессии полученной модели по /-критерию.
5.7. Имеются следующие данные о весе Y (в фунтах) и возрасте Х(в неделях) 13 индеек, выращенных в областях А, В, С.
і | Хі | Уі | Область происхождения | і | Хі | Уі | Область происхождения |
1 | 28 | 12,3 | А | 8 | 26 | 11,8 | В |
2 | 20 | 8,9 | А | 9 | 21 | 11,5 | С |
3 | 32 | 15,1 | А | 10 | 27 | 14,2 | С |
4 | 22 | 10,4 | А | 11 | 29 | 15,4 | с |
5 | 29 | 13,1 | В | 12 | 23 | 13,1 | с |
6 | 27 | 12,4 | В | 13 | 25 | 13,8 | с |
7 | 28 | 13,2 | В |
Есть основание полагать, что на вес индеек оказывает влияние не только их возраст, но и область происхождения. Необходимо:
а) найти уравнение парной регрессии Y по X и оценить его
значимость;
б) введя соответствующие фиктивные переменные, найти
общее уравнение множественной регрессии Y по всем объясняющим переменным (включая фиктивные);
в) оценить значимость общего уравнения множественной
регрессии по ^-критерию и значимость его коэффициентов по
/-критерию на уровне а=0,05;
г) проследить за изменением скорректированного коэффициента детерминации при переходе от парной к множественной
регрессии;
д) оценить на уровне а=0,05 значимость различия между
свободными членами уравнений, получаемых из общего уравнения множественной регрессии У для каждой области.
При построении линейной зависимости расходов на одежду от располагаемого дохода по выборке для 10 женщин получены следующие суммы квадратов и произведений наблюдений:
10 10 10 10 10
5> = 1Ю, £ = 1540 , 2>* = 60, 2>іЛ = 828, 5>і2 = 448.
1=1 1=1 1=1 1=1 1=1
Аналогичные вычисления сумм по выборке из 5 мужчин дали: fx, =35, fx? =325, Іл=15, І>,>> =140, £>f =61.
і=1 /=1 /=1 1=1 /=1
По общей (объединенной) выборке оценена регрессия с использованием фиктивной переменной Z (Z= 1 для мужчины и Z= 0 для женщины), которая имеет вид:
у = -0,06 + 0,438* + 0,46z + 0,072(zx).
На уровне значимости а=0,05 проверить гипотезу о том, что функция потребления одна и та же для мужчин и женщин, если выполнены все предпосылки классической нормальной линейной регрессии.
Решить задачу 5.8, используя критерий Г. Чоу.
5.10. С целью исследования влияния факторов Х — среднемесячного количества профилактических наладок автоматической линии и Хг — среднемесячного числа обрывов нити на показатель Y — среднемесячную характеристику качества ткани (в
баллах) по данным 37 предприятий легкой промышленности
были вычислены парные коэффициенты корреляции: гу =0,105,
/3,2=0,024 и гі2=0,996. Определить частные коэффициенты корреляции гу2и /3,2.1 и оценить их значимость на 5\%-ном уровне.
Обсуждение Эконометрика
Комментарии, рецензии и отзывы