2.4. нормальные линейные модели с несколькими объясняющими переменными
2.4. нормальные линейные модели с несколькими объясняющими переменными
Начиная с этого момента, мы будем предполагать, что
(1) Модель наблюдений имеет вид
Уі =°i xa +•••+# pxip +£і ' j = 'n' n > P' где yi значение объясняемой переменной в і -мна-блюдении;
xij известное значение j -ой объясняющей переменной в i -м наблюдении;
в j неизвестный коэффициент при j -ой объясняющей переменной;
є j - случайная составляющая ("ошибка") в i -мнаблюдении.
(2) £j'...'£n случайные величины, независимые в совокупности, имеющие одинаковое нормальное распределениє N (0,а ) с нулевым математическим ожиданием и дисперсией сг2 > 0.
(3) Если не оговорено противное, то в число объясняющих переменных включается переменная, тождественно равная единице, которая объявляется первой объясняющей переменной, так что
x,j — J, i — J,..., n.
При сделанных предположениях yJ,...,yn являются наблюдаемыми значениями нормально распределенных случайных величин YJ,...,Yn, которые независимы в совокупности и
для которых
E(Y) = вхx,-j +...+0pxp , D(Y) = a2,
так что
Y ~N(0xx,j +■■■+&pxp Л i = Jv,n.
В отличие от є J,...,s n , случайные величины YJ,...,Yn имеют распределения, отличающиеся сдвигами.
Определенную указанным образом модель наблюдений мы будем называть нормальной линейной моделью с p объясняющими переменными. Иначе ее еще называют нормальной линейной моделью множественной регрессии переменной y на переменные Х,... , xp . Термин "множественная" указывает на использование в правой части модели наблюдений двух и более объясняющих переменных, отличных от постоянной. Термин "регрессия" имеет определенные исторические корни и используется лишь в силу традиции.
Оценивание неизвестных коэффициентов модели методом наименьших квадратов состоит в минимизации по всем возможным значениям в J,..., вp суммы квадратов
Минимум этой суммы достигается при некотором наборе значений коэффициентов
01 ,вр
в.
так что
Это минимальное значение мы опять обозначаем RSS так что
RSS = Yd[yl -в 1 xn-...-врxp)2
/=1
остаточной суммой квадратов.
и называем
Коэффициент детерминации R определяется как
R2 = 1 RSS
TSS
где
і
TSS = £(yf -y):
і=1
Обозначая
yi =° 1 x.1 +•••+#pxip , і = 1, ■•■, n,
(подобранные fittedзначения объясняющей переменной по оцененной линейной модели связи), и определяя остаток (residual) от i-го наблюдения как
ei = yi ~ y і , мы получаем:
RSS = 2>, j))2 =X ef
і= 1
і=1
Обозначая
ESS = ^(9, ~Уf
і=1
объясненная моделью (explained) сумма квадратов, или регрессионная сумма квадратов, мы так же, как и в случае простой линейной регрессии с p = 2, имеем разложение
|TSS = RSS + ESS ,
так что
R2 =
ESS TSS
И опять, это разложение справедливо только при наличии постоянной составляющей в модели линейной связи. При этом, также, здесь
R2
у, У '
т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции гу~ между переменными у
и у. Последний называется множественным коэффициентом корреляции (multiple-R).
Для поиска значений #j,...,6p, минимизирующих сумму
еК--л )=Х(* -0і хп ---врхіР )2,
і=1
следует приравнять нулю частные производные этой суммы (как функции от 61,...,6 ) по каждому из аргументов
в1,... ,0 . В результате получаем систему нормальных уравнений
Z2 (yt -61 xn-...-Єpxip)(-xn) = 0,
n
Z 2 (yi ' 61 -'-Opxip )("xi2 ) = 0,
Z2 {Уі -в 1 x.1 Pxip-xip) = 0,
i=1 или
i=1
i=1
Z ] 1 + [ Z x 1 xi 2 Г*9 2 + ••• + [ Z xi1 xip I'0 P =Z yixi1 ,
i=1
I^ i=1
i=1
i=1
91 +[Z x22 -в 2 +-+IZ xi 2 xip -в p =Z yixi 2,
i=1
z
xi pxi1
в 1+1Z x pxi2 ] -°2Zx 2 p IA = Z yixi p .
Это система p линейных уравнений с p неизвестными
в 1, ..., #p. Ее можно решать или методом подстановки или по
правилу Крамера с использованием соответствующих определителей. В векторно-матричной форме эта система имеет вид
ХтХв = XTy
где
1p
x21 x22
2p
матрица значений р объясняющих переменных в п на-
блюдениях;
X
(
Х21 х22
хп1
Хп 2
Х2 р
хп
р J
транспонированная матрица;
У
f УіЛ
Уг
V Уп J
и
в
в.
р
соответственно, вектор-столбец значений объясняемой переменной в п наблюдениях и вектор-столбец оценок р неизвестных коэффициентов. Система нормальных уравнений имеет единственное решение, если выполнено условие
(4) матрица отличен от нуля:
XTX
невырождена, т.е. ее определитель
которое можно заменить условием
(4) столбцы матрицы Xлинейно независимы.
При выполнении этого условия матрица XTX (размера
р х р ) имеет обратную к ней матрицу (XTX) 1. Умножая в
таком случае обе части последнего уравнения слева на матрицу (XTX)_1, находим искомое решение системы нормальных
уравнений:
в = (XTXУ XTy .
det XTX ф 0
У і = °j xij +•••+# рхір +£і , І = Іу ,п
можно представить в матрично-векторной форме
у X6 + 7~
Зектор подобранных значений имеет вид
У = хв
и вектор остатков равен
e = у у = у хв .
Определяющим для всего последующего является то обстоятельство, что в нормальной линейной модели с несколькими объясняющими переменными оценки 0 j,... ,0 р коэффициентов 9Х,... ,0 как случайные величины имеют
нормальные распределения (хотя эти случайные величины уже не являются независимыми в совокупности).
Действительно, поскольку 0 = IJ XI X у , то оценки
0 j,... ,0 р являются линейными комбинациями значений у1,...,уп, т.е. имеют вид
где Cjk коэффициенты, определяемые значениями объясняющих переменных. Поскольку же у нас у^...,уп на-
блюдаемые значения случайных величин У1,...,Уп , то вj является наблюдаемым значением случайной величины Cj1Y1 + Cj2Y2 +...+cjnYn, которую мы также будем обозначать
&j ■
в j = CjiYi + cj2Y2 + ■•■+CjnYn , j = Ъ..^р.
Ранее мы выяснили, что при наших предположениях Yi ~N(0iхп +...+&рХрр ,а2), i = 1,...,п.
Поэтому случайные величины 01,...,6р также будут нормальными как линейные комбинации независимых нормально распределенных случайных величин.
Можно показать, что математическое ожидание случайной
величины 6?j равно
Е(в j) = 0j , j = 1,...,р,
(вj является несмещенной оценкой истинного значения коэффициента 0j), а дисперсия этой случайной величины равна j -му диагональному элементу матрицы а2 (XTX) 1:
Р(в j ) = [а2( xTx ) 1 г
Рассмотренная ранее модель простой линейной регрессии yt = a + fi хі +st , i = 1,...,п,
вкладывается в модель множественной линейной регрессии с р = 2:
1/3 )
є =
2
\£n J
Матрица (XTX) 1 имеет вид
n
і=1
nZx2 "I Z x<
Учитывая, что
Z(x<-x )2
n Z' n Л 2
nZ x«2 [Zx'
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы