2.5. нормальная множественная регрессия: доверительные интервалы для коэффициентов
2.5. нормальная множественная регрессия: доверительные интервалы для коэффициентов
Рассматривая нормальную модель линейной множественной регрессии
с є і ~ і. і. d. N (о, а2), мы установили, что оценка наименьших квадратов в j неизвестного истинного значения в j коэффициента при j — ой объясняющей переменной имеет нормальное распределение, причем
Е(в j) = в] , d(6> j) = [a2(XTX) 1 j = 1,...,n .
Рассмотрим теперь случайную величину
~0 j-0j
получаемую путем вычитания из случайной величины в j ее математического ожидания и деления полученной разности на корень из дисперсии в j (т. е. путем центрирования и
нормирования случайной величины в j). При совершении
этих двух действий мы не выходим из семейства нормальных случайных величин, получая опять же нормальную случайную величину, но только уже с другими математическим ожиданием и дисперсией. Используя упомянутые ранее свойства математического ожидания и дисперсии, находим:
[Е ф j)-в} ) = 0,
1,
<р( z)
1
Для каждого значения p,0 < p < 1 , определим символом
zp число, для которого Ф(гр) = p , так что если случайная величина Z имеет стандартное нормальное распределение, то
тогда
Такое число называется квантилью уровня p стандартного нормального распределения.
эта квантиль равна z0 95 = 1.645. Поэтому площадь под кривой, лежащая левее точки z = 1.645, равна 0.95, а заштрихованная площадь равна 1 0.95 = 0.05 . Последняя величина есть вероятность того,что случайная величина Z, имеющая стандартное нормальное распределение, примет значение, превышающее 1.645.
то получим следующую картину:
Если мы возьмем какое-нибудь число а в пределах от 0.5 до 1, 0.5 <а < 1, и выделим интервал
Из симметрии функции плотности нормального распределения вытекает равенство площадей областей, заштрихованных на последнем рисунке. Но площадь правой заштрихованной области равна 1 -(l--f) = -f; следовательно, такова же и
площадь левой заштрихованной области. Это, в частности, означает, что вероятность того, что случайная величина Z примет значение, не превышающее -z , равна -f, так что
2 2
Часть площади под кривой стандартной нормальной плотности, лежащая в пределах выделенного интервала, меньше единицы на сумму площадей заштрихованных областей («хвостов»), т. е. равна
1 "(f + т ) = 1
2 Заметим, что в этом и других подобных выражениях знак < можно свободно заменять знаком < , а знак > знаком > (и обратно), поскольку мы всегда предполагаем существование функции плотности распределений рассматриваемых случайных величин.
Эта величина равна вероятности того, что случайная величина Z, имеющая стандартное нормальное распределение, примет значение в пределах указанного интервала2:
-zj_^ < Z < zx_J.
J -a
Но ранее мы установили, что стандартное нормальное распределение имеет случайная величина
О ,-в
И* j)
Иными словами, с вероятностью, равной 1-а, случайный
интервал
накрывает истинное значение коэффициента в j. Такой интервал называется доверительным интервалом для в j с уровнем доверия (доверительной вероятностью) 1-а, или (1—а)-доверительным интервалом, или 100(1—а)-процентным доверительным интервалом для в j.
Последний рисунок был получен при значении а = 0.05. Поэтому площади заштрихованных областей («хвосты») равны у = 0.025, сумма этих площадей равна 0.05 , и площадь области под кривой в пределах интервала |—, z12L j равна 1—0.05 = 0.95. Остается заметить, что
Zo.95 1-960 ,
так что случайный интервал
в j -1.96 , в j +1.96
является 95\%-доверительным интервалом для в j. Его длина
2 • 1.96
да
пропорциональна j j — среднеквадратической
ошибке (среднеквадратическому отклонению) оценки коэффициента 6j.
Хотелось бы, конечно, прямо сейчас построить доверительные интервалы для коэффициентов линейной модели по
каким-нибудь реальным статистическим данным. Однако этому препятствует то обстоятельство, что в выражения для дисперсий
D& j) = [<х2(XTX)-1 ] , і = 1,...,n ,
2
входит не известное нам значение а .
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы