5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели

5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели: Эконометрика, Кремер Н.Ш., 2002 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон В учебнике излагаются основы эконометрики. Большое внимание уделяется классической (парной и множественной) и обобщенной моделям линейной регрессии, классическому и обобщенному методам наименьших квадратов, анализу временных рядов...

5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели

Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющую с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т. д.

Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации Л2 (более точно — минимальное значение /?2ІП).

► Пример 5.1. По данным п= 20 сельскохозяйственных районов области исследуется зависимость переменной Y — урожайности зерновых культур (в ц/га) от ряда переменных — факторов сельскохозяйственного производства:

Х — число тракторов (приведенной мощности на 100 га);

Х2 — число зерноуборочных комбайнов на 100 га;

Х$ — число орудий поверхностной обработки почвы на 100 га;

Х4 — количество удобрений, расходуемых на 1 га (т/га);

Х5 — количество химических средств защиты растений, расходуемых на 1 га (ц/га).

Исходные данные1 приведены в табл. 5.1.

1 Пример заимствован из [1]. Там же на с. 632 приведены полностью исходные данные.

В случае обнаружения мультиколлинеарности принять меры по ее устранению (уменьшению), используя пошаговую процедуру отбора наиболее информативных переменных.

Решение. По формуле (4.8) найдем вектор оценок параметров регрессионной модели b =(3,515; -0,006; 15,542; 60,110; 4,475; —2,932)', так что в соответствии с (4.9) выборочное уравнение множественной регрессии имеет вид:

j) = 3,515-0,006^1+15,542^2+0,110^3+4,475^4-2,932^5. (5,41) (0,60) (21,59) (0,85) (1,54) (3,09) В скобках указаны средние квадратические отклонения (стандартные ошибки) sb. коэффициентов регрессии Ьи вычисленные по

формуле (4.22). Сравнивая значения /-статистики (по абсолютной величине) каждого коэффициента регрессии р7 по формуле

tb (/= 0,1,2,3,4,5), т. е. tbQ =0,65; tk =-0,01; th =0,72; th =0,13;

tb4 = 2,91; tbs = — 0,95 с критическим значением t0 95.l4 = 2,14, определенным по табл. II приложений на уровне значимости <х=0,05 при числе степеней свободы к = п — р — 1 = 20 — 5 — 1 = 14, мы видим, что значимым оказался только коэффициент регрессии £4 при переменной Х4 — количество удобрений, расходуемых на гектар земли.

Вычисленный по (4.33) множественный коэффициент детерминации урожайности зерновых культур Y по совокупности пяти факторов (X—Xs) сельскохозяйственного производства оказался равным Л£і2345 =0,5 1 7, т. е. 51,7\% вариации зависимой переменной

объясняется включенными в модель пятью объясняющими переменными. Так как вычисленное по (4.35) фактическое значение ^=3,00 больше табличного ^о,05;5;14=2,96, то уравнение регрессии значимо по ^-критерию на уровне <х=0,05.

По формуле (3.20) была рассчитана матрица парных коэффициентов корреляции:

Переменные

Y

Х

х2

Хз

х4

х5

Y

1,00

0,43

0,37

0,40

0,58*

0,33

Хх

0,43

1,00

0,85*

0,98*

0,11

0,34

Х2

0,37

0,85*

1,00

0,88*

0,03

0,46*

Хз

0,40

0,98*

0,88*

1,00

0,03

0,28

Ха

0,58*

0,11

0,03

0,03

1,00

0,57*

х5

0,33

0,34

0,46*

0,28

0,57*

1,00

Знаком* отмечены коэффициенты корреляции, значимые по /-критерию (3.46) на 5\%-ном уровне.

Анализируя матрицу парных коэффициентов корреляции, можно отметить тесную корреляционную связь между переменными Хх и Х2 (г12= 0,85), Х{ и Хъ (пз = 0,98), Х2 и Хъ (г23 = 0,88), что, очевидно, свидетельствует о мультиколлинеарности объясняющих переменных.

Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных.

7-й шаг. Из объясняющих переменных Х—Х$ выделяется переменная А4, имеющая с зависимой переменной Y наибольший коэффициент детерминации /?2.7 (равный для парной модели

квадрату коэффициента корреляции г2). Очевидно, это переменная А4, так как коэффициент детерминации Щаг =гу4 =0,582 =0,336 — максимальный. С учетом поправки на несмещенность по формуле (4.34) скорректированный коэффициент детерминации Щл = 1 -—(і 0,33б) = 0,299.

18

й шаг. Среди всевозможных пар объясняющих переменных А4, XjJ =1,2,3,5, выбирается пара (А4, A3), имеющая с зависимой переменной Y наиболее высокий коэффициент детерминации Ry.4j Ry.43= 0,483 и с учетом поправки по (4.34)

^-43 = 1 - (1 0,483) = 0,422.

й шаг. Среди всевозможных троек объясняющих переменных (А4, A3, A,), j = 1,2,5, наиболее информативной оказалась тройка (а4, a3, а5), имеющая максимальный коэффициент детерминации /?24з7 =/?2435 =0,513 и соответственно скорректированный коэффициент /г2435 = 0,422 .

Так как скорректированный коэффициент детерминации на 3-м шаге не увеличился, то в регрессионной модели достаточно ограничиться лишь двумя отобранными ранее объясняющими переменными А4 И A3.

Рассчитанное по формулам (4.8), (4.9) уравнение регрессии по этим переменным примет вид: j> = 7,29+3,48Jf3+3,48Jf4.

(0,66) (0,13) (1,07) Нетрудно убедиться в том, что теперь все коэффициенты регрессии значимы, так как каждое из значений /-статистики

,=^ = 11,0; t ^48 =26,8; /,=^ = 3,25

0 0,66 3 0,13 4 1,07

больше соответствующего табличного значения /0 95;17=2,11.

Замечание. Так как значения коэффициентов корреляции весьма высокие (больше 0,8): гі2=0,85, гіз=0,98, Г2з=0,88, то, очевидно, из соответствующих трех переменных Х, Хі, A3 две переменные можно было сразу исключить из регрессии и без проведения пошагового отбора, но какие именно переменные исключить — следовало решать, исходя из качественных соображений, основанных на знании предметной области (в данном случае влияния на урожайность факторов сельскохозяйственного производства). ►

Кроме рассмотренной выше пошаговой процедуры присоединения объясняющих переменных используются также пошаговые процедуры присоединения—удаления и процедура удаления объясняющих переменных, изложенные, например, в [1]. Следует отметить, что какая бы пошаговая процедура ни использовалась, она не гарантирует определения оптимального (в смысле получения максимального коэффициента детерминации R2) набора объясняющих переменных. Однако в большинстве случаев получаемые с помощью пошаговых процедур наборы переменных оказываются оптимальными или близкими к оптимальным.

Эконометрика

Эконометрика

Обсуждение Эконометрика

Комментарии, рецензии и отзывы

5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели: Эконометрика, Кремер Н.Ш., 2002 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон В учебнике излагаются основы эконометрики. Большое внимание уделяется классической (парной и множественной) и обобщенной моделям линейной регрессии, классическому и обобщенному методам наименьших квадратов, анализу временных рядов...