2.5. пример построения регрессионного уравнения
2.5. пример построения регрессионного уравнения
По данным n=20 сельскохозяйственных районов требуется построить регрессионную модель урожайности на основе следующих показателей: y урожайность зерновых культур (ц/га);
x1 число колесных тракторов (приведенной мощности) на 100 га; x2 число зерноуборочных комбайнов на 100 га; x3 число орудий поверхностной обработки почвы на 100 га; x4 количество удобрений, расходуемых на гектар;
x5 количество химических средств оздоровления растений, расходуемых на гектар.
Исходные данные для анализа приведены в таблице.
Таблица
Исходные данные для анализа
Номер наблюдения | y | x1 | x2 | x3 | x4 | x5 |
1 | 9.70 | 1.59 | 0.26 | 2.05 | 0.32 | 0.14 |
2 | 8.40 | 0.34 | 0.28 | 0.46 | 0.59 | 0.66 |
3 | 9.00 | 2.53 | 0.31 | 2.46 | 0.30 | 0.31 |
4 | 9.90 | 4.63 | 0.40 | 6.44 | 0.43 | 0.59 |
5 | 9.60 | 2.16 | 0.26 | 2.16 | 0.39 | 0.16 |
6 | 8.60 | 2.16 | 0.30 | 2.69 | 0.32 | 0.17 |
7 | 12.50 | 0.68 | 0.29 | 0.73 | 0.42 | 0.23 |
8 | 7.60 | 0.35 | 0.26 | 0.42 | 0.21 | 0.08 |
9 | 6.90 | 0.52 | 0.24 | 0.49 | 0.20 | 0.08 |
10 | 13.50 | 3.42 | 0.31 | 3.02 | 1.37 | 0.73 |
11 | 9.70 | 1.78 | 0.30 | 3.19 | 0.73 | 0.17 |
12 | 10.70 | 2.40 | 0.32 | 3.30 | 0.25 | 0.14 |
13 | 12.10 | 9.36 | 0.40 | 11.51 | 0.39 | 0.38 |
14 | 9.70 | 1.72 | 0.28 | 2.26 | 0.82 | 0.17 |
15 | 7.00 | 0.59 | 0.29 | 0.60 | 0.13 | 0.35 |
16 | 7.20 | 0.28 | 0.26 | 0.30 | 0.09 | 0.15 |
17 | 8.20 | 1.64 | 0.29 | 1.44 | 0.20 | 0.08 |
18 | 8.40 | 0.09 | 0.22 | 0.05 | 0.43 | 0.20 |
19 | 13.10 | 0.08 | 0.25 | 0.03 | 0.73 | 0.20 |
20 | 8.70 | 1.36 | 0.26 | 1.17 | 0.99 | 0.42 |
Решение. Предварительно, с целью анализа взаимосвязи показателей построена таблица парных коэффициентов корреляции R.
y x1 x2 | x3 | x4 | x5 | ||
1.00 | 0.43 | 0.37 | 0.40 | 0.58 | 0.33 |
0.43 | 1.00 | 0.85 | 0.98 | 0.11 | 0.34 |
0.37 | 0.85 | 1.00 | 0.88 | 0.03 | 0.46 |
0.40 | 0.98 | 0.88 | 1.00 | 0.03 | 0.28 |
0.58 | 0.11 | 0.03 | 0.03 | 1.00 | 0.57 |
0.33 | 0.34 | 0.46 | 0.28 | 0.57 | 1.00 |
Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем x4 количеству удобрений, расходуемых на гектар (ry4=0.58).
В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x1) и числом орудий поверхностной обработки почвы (x3) r13=0.98.
О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r12=0.85 и r32=0.88.
Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:
Y=3.515 0.006x1 + 15.542x2 + 110x3 + 4.475x4 2.932x5. (2.15) (-0.01) (0.72) (0.13) (2.90) (-0.95)
В скобках указаны інабл(Ь|), расчетные значения t критерия для проверки гипотезы о значимости коэффициента регрессии Н0: Pj=0, j=1, 2, 3, 4, 5. Критическое значение ^р=1.76 найдено по таблице t распределения при уровне значимости а=0.1 и числе степеней свободы v=14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при x4, так как |ґ4|=2.90>Ц=1.76. Не поддаются экономической
интерпретации отрицательные знаки коэффициентов регрессии при x1 и x5, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (x1) и средствами оздоровления растений (x5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии не приемлемо.
После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x1, x2 или x3), получаем окончательное уравнение регрессии: Y=7.342 + 0.345x1 + 3.294x4. (2.16)
(11.12) (2.09) (3.02)
В уравнение (2.16) включен x1, как определяющий из трех показателей.
Уравнение значимо при а=0.05, т.к. Енабл=266>Бкр=3.20, найденного по таблице F-распределения при а=0.05; v1=3 и v2=17. Значимы и все коэффициенты регрессии р1 и р4 в уравнении tj >tкр (а=0.05; v=17) = 2.11. Коэффициент регрессии р1 следует признать
значимым (р1^0) из экономических соображений, при этом t1=2.09 лишь незначительно меньше ^ф=2.11. При а=0.1 tкр=1.74 и р1 статистически значим.
Из уравнения регрессии следует, что увеличение на 1 числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0.345 ц/га (b1=0.345).
Коэффициенты эластичности Э1=0.068 и Э4=0.161 показывают, что при увеличении показателей x1 и x4 на 1\% урожайность зерновых повышается соответственно на 0.068\% и
0.161\%, (Э, bji).
y2
Множественный коэффициент детерминации ry2=0.469 свидетельствует о том, что только 46.9\% вариации урожайности объясняется вошедшими в модель показателями (X1 и X4), то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (x2, x3, x5, погодных условий
и др.). Средняя относительная ошибка аппроксимации 8 =10.5\% характеризует адекватность модели, также как и величина остаточной дисперсии S =1.97.
2.6. Тренировочный пример
По данным годовых отчетов десяти (n=10) машиностроительных предприятий провести регрессионный анализ зависимости производительности труда y (млн. руб. на чел.) от объема производства x (млрд. руб.). Предполагается линейная модель, т.е. у = р0 +
Решение: Определим вектор оценок b коэффициентов регрессии. Согласно методу наименьших квадратов, вектор b получается из выражения:
b = (x x) x y .
В матрице (xTx) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы xT и 1-го столбца матрицы x, а число 75, лежащее на пересечении 1-й строки и 2-го столбца, как сумма произведений элементов 1-й строки матрицы xT и 2-го столбца матрицы x и т. д.
' 2,1 Ї
2,8
3,2 4,5
'1 1 1 1 1 1 1 1 1 Ґ1 V3 4 5 5 5 5 6 7 15 20,
4,8 4,9 5,5 6,5
'61,4 ^ v664,5,
L0,306422 -0,0275229 ^ 1-0,0275227 0,0036697J
Найдем обратную матрицу
1 (835 -75
-75
И"
10 • 835 (75)2 ^-75 10
тогда вектор оценок коэффициентов регрессии равен
b _L0,306422 -0,0275229^ L61,4 Л_(0,5253430"|
_ 1-0,0275299 0,0036697J L664,5j _ 10,7486096j,
а оценка уравнения регрессии будет иметь вид y _ 0,52534 + 0,74861х.
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных e;=y;y>i и отно-
сительных 5i
—100\% ошибок аппроксимации.
y _ xb
3 ї
4 5 5 5 5 6 7 15
20 j
ґ0,5253430^ v0,7486096j
(2,77 ї
3,52 4,27
4,27 4,27
4,27 5,02 5,77
I11'50|
Тогда
Q _ (У —)T (У У) _ S (— -—)2 _ 3,9847314.
i _1
Откуда согласно (2.8.) несмещенная оценка остаточной дисперсии равна:
_ • 3,9847314 _ 0,49809176,
8
а оценка среднего квадратического отклонения
S _ VSF _ 0,70575616. Проверим на уровне значимости а=0,05 значимость уравнения регрессии, т.е. гипотезу Н0:в=0 (Р0=р1=0). Для этого вычисляем согласно (2.10.) величину
F _
набл
/-2QR _ 264,84958
531,72849.
1/ Q 0,49809176
/ 8 ост
По таблице F распределения для а=0,05, v( = 2 и V2 = 8 находим Бкр=4,46. Так как Р-набл>Ткр, то уравнение является значимым.
Найдем оценку ковариационной матрицы вектора b:
(0,306422 -0,0275299
• 0,49809176
0,0275229 0,0036697J
= (0,15262627 -0,013712416 ^
v -0,013712416 0,0018278473^ '
Отсюда получаем несмещенные оценки дисперсий и среднеквадратических отклонений коэффициентов регрессии:
s2b = 0,15262627 = 0,3906741
s; = 0,0018278473 sb = 0,0427527.
Для проверки значимости коэффициента регрессии, т.е. гипотезы Н0:р1=0, находим по таблице tраспределения при а=0,05, v=8 значение ^р=2,31:
t (b1) = і = 0,74861 = 17,5102'
S. 0,0427527
Так как ^абл( b1) =17,51 больше ^р=2,31, то коэффициент регрессии р1 значимо отличается от нуля. Таким образом, окончательное уравнение регрессии имеет вид y = 0,52534 + 0,74861.
Определим интервальные оценки коэффициентов уравнения с доверительной вероятностью у=0,95.
Из (2.12.) следует:
Р0Є [0,525 ± 2,31x0,391], откуда -0,378 < р0 < 1,428 и Р1Є [0,74861 ± 2,31x0,0428], откуда 0,650 < р1 <0 ,847.
Обсуждение Эконометрика
Комментарии, рецензии и отзывы