3.5. точность коэффициентов регрессии
3.5. точность коэффициентов регрессии
Рассмотрим теперь теоретические дисперсии оценок а и Ь. Они задаются следующими выражениями (доказательства для эквивалентных выражений можно найти в работе Дж. Томаса [Thomas, 1983, section 8.3.3]):
pop.var(*) = ^jl + ^fe)j И P°pVarW = ^)(3-25)
Из уравнения (3.25) можно сделать три очевидных заключения. Во-первых, дисперсии а и Ъ прямо пропорциональны дисперсии остаточного члена а2. Чем больше фактор случайности, тем хуже будут оценки при прочих равных условиях. Это уже было проиллюстрировано в экспериментах по методу Монте-Карло в разделе 3.2. Оценки в серии II были гораздо более неточными, чем в серии I, и это произошло потому, что в каждой выборке мы удвоили случайный член. Удвоив и, мы удвоили его стандартное отклонение и, следовательно, удвоили стандартные отклонения аи Ь. Во-вторых, чем больше число наблюдений, тем меньше дисперсии оценок. Это также имеет определенный смысл. Чем большей информацией вы располагаете, тем более точными, вероятно, будут ваши оценки. В-третьих, чем больше дисперсия х, тем меньше будет дисперсия коэффициентов регрессии. В чем причина этого? Напомним, что (1) коэффициенты регрессии вычисляются на основании предположения, что наблюдаемые изменения у происходят вследствие изменений х, но (2) в действительности они лишь отчасти вызваны изменениями х, а отчасти вариациями и. Чем меньше дисперсия х, тем больше, вероятно, будет относительное влияние фактора случайности при определении отклонений у и тем более вероятно, что регрессионный анализ может оказаться неверным. В действительности, как видно из уравнения (3.25), важное значение имеет не абсолютная, а относительная величина а2 и Var (х).
На практике мы не можем вычислить теоретические дисперсии а или Ь, так как а2 неизвестно, однако мы можем получить оценку а2 на основе остатков. Очевидно, что разброс остатков относительно линии регрессии будет отражать неизвестный разброс и относительно линии у = a + рх, хотя в общем остаток и случайный член в любом данном наблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков Var (е), которую мы можем измерить, сможет быть использована для оценки а2, которую мы получить не можем.
Прежде чем пойти дальше, задайте себе следующий вопрос: какая прямая будет ближе к точкам, представляющим собой выборку наблюдений по х и у: истинная прямая>> = а + или линия регрессии^ = a + bxl Ответ будет таков: линия регрессии, потому что по определению она строится таким образом, чтобы свести к минимуму сумму квадратов расстояний между ней и значениями наблюдений. Следовательно, разброс остатков у нее меньше, чем разброс значений и, и Var (е) имеет тенденцию занижать оценку а2. Действительно, можно показать, что математическое ожидание Var (е), если имеется всего одна независимая переменная, равно [(п — 2)/п] а2. Однако отсюда следует, что если определить 52 как
'2=^Var(e), (3.26)
то а2 будет представлять собой несмещенную оценку а2 (см. доказательство в работе Дж. Томаса).
Используя уравнения (3.25) и (3.26), можно получить оценки теоретических дисперсий для а и Ъ и после извлечения квадратного корня — оценки их стандартных отклонений. Вместо слишком громоздкого термина «оценка стандартного отклонения функции плотности вероятности» коэффициента регрессии будем использовать термин «стандартная ошибка» коэффициента регрессии, которую в дальнейшем мы будем обозначать в виде сокращения «с. о.» Таким образом, для парного регрессионного анализа мы имеем:
c.o.(*) = J^ 1 +
-2 X
Var(jc)j
и с.о.(£) = ,
AiVar(jc)
(3.27)
Если воспользоваться компьютерной программой оценивания регрессии, то стандартные ошибки будут подсчитаны автоматически одновременно с оценками а и Ь.
Полученные соотношения будут проиллюстрированы экспериментами по методу Монте-Карло, описанными в разделе 3.2. В серии I и определялось на основе случайных чисел, взятых из генеральной совокупности с нулевым средним и единичной дисперсией (а2 = 1), a х представлял собой набор чисел от 1 до 20. Можно легко вычислить Var (х), которая равна 33,25. Следовательно,
/ ч 1 fl 10>5 pop. var (а) = — +
20 33,25
= 0,2158
(3.28)
pop. var (b) = 1 = 0,< 20 x 33,25
(3.29)
Таким образом, истинное стандартное отклонение для Ъ равно д/0,001504 =
Следует подчеркнуть один основной момент. Стандартная ошибка дает только общую оценку степени точности коэффициента регрессии. Она позволяет вам получить некоторое представление о кривой функции плотности вероятности, как показано на рис. 3.1. Однако она не несет информации о том, находится ли полученная оценка в середине распределения и, следовательно, является точной или в «хвосте» распределения и, таким образом, относительно неточна.
Чем больше дисперсия случайного члена, тем, очевидно, больше будет выборочная дисперсия остатков и, следовательно, существеннее стандартные ошибки коэффициентов в уравнении регрессии, что позволяет с высокой вероятностью заключить, что полученные коэффициенты неточны. Однако это всего лишь вероятность. Возможно, что в какой-то конкретной выборке воздействия случайного фактора в различных наблюдениях будут взаимно погашены и в конечном итоге коэффициенты регрессии будут точны. Проблема состоит в том, что, вообще говоря, нельзя утверждать, произойдет это или нет.
Упражнения
В тех случаях, когда результат какой-то игры, требующей определенного умения, измеряется числом, повышение уровня игры, достигаемое постоянной практикой, можно представить графически с помощью так называемой кривой обучения. Это особенно наглядно для видеоигр, когда играющий в реальном времени управляет объектом, который атакует и защищается от других объектов, управляемых программой. Тот, кто первый раз участвует в такой игре, обычно проигрывает уже через несколько секунд. Чем больше вы будете играть, тем скорее привыкнете к игре и тем большее количество очков вы будете набирать, хотя очевидно, что могут иметь место некоторые отклонения, вызванные фактором случайности. Предположим, что количество очков определяется кривой обучения
.у =500+ 100х +и,
где у — результат очередной игры, х — число игр, проведенных игроком до текущей игры (порядковый номер текущей игры минус единица), и и — случайный член.
В следующей таблице приведены результаты первых 20 игр нового игрока: х автоматически изменяется от 0 до 19; в качестве значений и были взяты числа, полученные с помощью генератора нормально распределенных случайных чисел с нулевым средним и единичной дисперсией, которые были затем умножены на 400; величина у определялась через значения х и и в соответствии с линейной кривой обучения.
Наблюдение | X | и | У | Наблюдение | X | и | У |
1 | 0 | -236 | 264 | 11 | 10 | 636 | 2136 |
2 | 1 | -96 | 504 | 12 | 11 | -368 | 1232 |
3 | 2 | -332 | 368 | 13 | 12 | -284 | 1416 |
4 | 3 | 12 | 812 | 14 | 13 | -100 | 1700 |
5 | 4 | -152 | 748 | 15 | 14 | 676 | 2576 |
6 | 5 | -876 | 124 | 16 | 15 | 60 | 2060 |
7 | 6 | 412 | 1512 | 17 | 16 | 8 | 2108 |
8 | 7 | 96 | 1296 | 18 | 17 | -44 | 2156 |
9 | 8 | 1012 | 2312 | 19 | 18 | -364 | 1936 |
10 | 9 | -52 | 1348 | 20 | 19 | -568 | 2968 |
Оценивая регрессию между у и х, получим уравнение (в скобках указаны стандартные ошибки):
у = 369 + П6,8х. (190) (17,1)
Почему постоянный член в этом уравнении не равен 500, а коэффициент перед х не равен 100?
Каковы значения стандартных ошибок?
Эксперимент повторяется с 9 другими новыми игроками (в каждом случае случайный член получают путем умножения на 400 разных наборов из 20 случайных чисел), а результаты оценивания регрессии для всех 10 игроков приведены в следующей таблице. Почему постоянный член, коэффициент при х и их стандартные ошибки меняются от выборки к выборке?
Игрок | Постоянная | со. постоянной | Коэффициент при X | со. коэффициента при X |
1 | 369 | 190 | 116,8 | 17,1 |
2 | 699 | 184 | 90,1 | 16,5 |
3 | 531 | 169 | 78,5 | 15,2 |
4 | 555 | 158 | 99,5 | 14,2 |
5 | 407 | 120 | 122,6 | 10,8 |
6 | 427 | 194 | 104,3 | 17,5 |
7 | 412 | 175 | 123,8 | 15,8 |
8 | 613 | 192 | 95,8 | 17,3 |
9 | 234 | 146 | 130,1 | 13,1 |
10 | 485 | 146 | 109,6 | 13,1 |
3.4. Дисперсия х равна 33,25, а дисперсия и равна 160 ООО. Используя уравнение (3.25), покажите, что стандартное отклонение функции плотности вероятности коэффициента при х равно 15,5. Являются ли приведенные в таблице стандартные ошибки хорошими оценками стандартного отклонения?
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы