5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели
5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели
Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющую с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т. д.
Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации Л2 (более точно — минимальное значение /?2ІП).
► Пример 5.1. По данным п= 20 сельскохозяйственных районов области исследуется зависимость переменной Y — урожайности зерновых культур (в ц/га) от ряда переменных — факторов сельскохозяйственного производства:
Х — число тракторов (приведенной мощности на 100 га);
Х2 — число зерноуборочных комбайнов на 100 га;
Х$ — число орудий поверхностной обработки почвы на 100 га;
Х4 — количество удобрений, расходуемых на 1 га (т/га);
Х5 — количество химических средств защиты растений, расходуемых на 1 га (ц/га).
Исходные данные1 приведены в табл. 5.1.
1 Пример заимствован из [1]. Там же на с. 632 приведены полностью исходные данные.
В случае обнаружения мультиколлинеарности принять меры по ее устранению (уменьшению), используя пошаговую процедуру отбора наиболее информативных переменных.
Решение. По формуле (4.8) найдем вектор оценок параметров регрессионной модели b =(3,515; -0,006; 15,542; 60,110; 4,475; —2,932)', так что в соответствии с (4.9) выборочное уравнение множественной регрессии имеет вид:
j) = 3,515-0,006^1+15,542^2+0,110^3+4,475^4-2,932^5. (5,41) (0,60) (21,59) (0,85) (1,54) (3,09) В скобках указаны средние квадратические отклонения (стандартные ошибки) sb. коэффициентов регрессии Ьи вычисленные по
формуле (4.22). Сравнивая значения /-статистики (по абсолютной величине) каждого коэффициента регрессии р7 по формуле
tb (/= 0,1,2,3,4,5), т. е. tbQ =0,65; tk =-0,01; th =0,72; th =0,13;
tb4 = 2,91; tbs = — 0,95 с критическим значением t0 95.l4 = 2,14, определенным по табл. II приложений на уровне значимости <х=0,05 при числе степеней свободы к = п — р — 1 = 20 — 5 — 1 = 14, мы видим, что значимым оказался только коэффициент регрессии £4 при переменной Х4 — количество удобрений, расходуемых на гектар земли.
Вычисленный по (4.33) множественный коэффициент детерминации урожайности зерновых культур Y по совокупности пяти факторов (X—Xs) сельскохозяйственного производства оказался равным Л£і2345 =0,5 1 7, т. е. 51,7\% вариации зависимой переменной
объясняется включенными в модель пятью объясняющими переменными. Так как вычисленное по (4.35) фактическое значение ^=3,00 больше табличного ^о,05;5;14=2,96, то уравнение регрессии значимо по ^-критерию на уровне <х=0,05.
По формуле (3.20) была рассчитана матрица парных коэффициентов корреляции:
Переменные | Y | Х | х2 | Хз | х4 | х5 |
Y | 1,00 | 0,43 | 0,37 | 0,40 | 0,58* | 0,33 |
Хх | 0,43 | 1,00 | 0,85* | 0,98* | 0,11 | 0,34 |
Х2 | 0,37 | 0,85* | 1,00 | 0,88* | 0,03 | 0,46* |
Хз | 0,40 | 0,98* | 0,88* | 1,00 | 0,03 | 0,28 |
Ха | 0,58* | 0,11 | 0,03 | 0,03 | 1,00 | 0,57* |
х5 | 0,33 | 0,34 | 0,46* | 0,28 | 0,57* | 1,00 |
Знаком* отмечены коэффициенты корреляции, значимые по /-критерию (3.46) на 5\%-ном уровне.
Анализируя матрицу парных коэффициентов корреляции, можно отметить тесную корреляционную связь между переменными Хх и Х2 (г12= 0,85), Х{ и Хъ (пз = 0,98), Х2 и Хъ (г23 = 0,88), что, очевидно, свидетельствует о мультиколлинеарности объясняющих переменных.
Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных.
7-й шаг. Из объясняющих переменных Х—Х$ выделяется переменная А4, имеющая с зависимой переменной Y наибольший коэффициент детерминации /?2.7 (равный для парной модели
квадрату коэффициента корреляции г2). Очевидно, это переменная А4, так как коэффициент детерминации Щаг =гу4 =0,582 =0,336 — максимальный. С учетом поправки на несмещенность по формуле (4.34) скорректированный коэффициент детерминации Щл = 1 -—(і 0,33б) = 0,299.
18
й шаг. Среди всевозможных пар объясняющих переменных А4, XjJ =1,2,3,5, выбирается пара (А4, A3), имеющая с зависимой переменной Y наиболее высокий коэффициент детерминации Ry.4j Ry.43= 0,483 и с учетом поправки по (4.34)
^-43 = 1 - (1 0,483) = 0,422.
й шаг. Среди всевозможных троек объясняющих переменных (А4, A3, A,), j = 1,2,5, наиболее информативной оказалась тройка (а4, a3, а5), имеющая максимальный коэффициент детерминации /?24з7 =/?2435 =0,513 и соответственно скорректированный коэффициент /г2435 = 0,422 .
Так как скорректированный коэффициент детерминации на 3-м шаге не увеличился, то в регрессионной модели достаточно ограничиться лишь двумя отобранными ранее объясняющими переменными А4 И A3.
Рассчитанное по формулам (4.8), (4.9) уравнение регрессии по этим переменным примет вид: j> = 7,29+3,48Jf3+3,48Jf4.
(0,66) (0,13) (1,07) Нетрудно убедиться в том, что теперь все коэффициенты регрессии значимы, так как каждое из значений /-статистики
,=^ = 11,0; t ^48 =26,8; /,=^ = 3,25
0 0,66 3 0,13 4 1,07
больше соответствующего табличного значения /0 95;17=2,11.
Замечание. Так как значения коэффициентов корреляции весьма высокие (больше 0,8): гі2=0,85, гіз=0,98, Г2з=0,88, то, очевидно, из соответствующих трех переменных Х, Хі, A3 две переменные можно было сразу исключить из регрессии и без проведения пошагового отбора, но какие именно переменные исключить — следовало решать, исходя из качественных соображений, основанных на знании предметной области (в данном случае влияния на урожайность факторов сельскохозяйственного производства). ►
Кроме рассмотренной выше пошаговой процедуры присоединения объясняющих переменных используются также пошаговые процедуры присоединения—удаления и процедура удаления объясняющих переменных, изложенные, например, в [1]. Следует отметить, что какая бы пошаговая процедура ни использовалась, она не гарантирует определения оптимального (в смысле получения максимального коэффициента детерминации R2) набора объясняющих переменных. Однако в большинстве случаев получаемые с помощью пошаговых процедур наборы переменных оказываются оптимальными или близкими к оптимальным.
Обсуждение Эконометрика
Комментарии, рецензии и отзывы