2.7. качество оценки: коэффициент я2
2.7. качество оценки: коэффициент я2
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у). Мы должны уметь рассчитывать величину этой дисперсии.
В парном регрессионном анализе мы пытаемся объяснить поведение >> путем определения регрессионной зависимости у от соответственно выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение у. в каждом наблюдении на две составляющих — у. и е.:
У, = 9і+*і. (2.43)
Величина $j — расчетное значение у в наблюдении і — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению х в данном наблюдении. Тогда остаток е{ есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Используя (2.43), разложим дисперсию у:
VarOO = Var(p + е) = Угт(у) + Var(e) + 2Cov(£, e). (2.44)
Далее, оказывается, что Cov (p., e) должна быть равна нулю (см. упражнение 2.12). Следовательно, мы получаем:
Var(>0 = Var(p) + Var(e). (2.45)
Это означает, что мы можем разложить Var (у) на две части: Var (j>) — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var(e) — «необъясненную» часть1.
Согласно (2.45), Var (p)/Var (у) — это часть дисперсии >>, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают R2:
2 _ Уаг(>;)
R ~VarO0' (2А6)
1 Слова «объясненный» и «необъясненный» взяты в кавычки, так как объяснение, в сущности, может быть мнимым. В действительности у может зависеть от какой-то другой переменной Z, И X может действовать как величина, замещающая z(бoлee подробно об этом см. в главе 6). Поэтому вместо слова «объясненный» здесь лучше употреблять выражение «представляющийся объясненным».
что равносильно
2=, Var(e) VarOO"
(2.47)
Максимальное значение коэффициента/?2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что yt = ytдля всех / и все остатки равны нулю. Тогда Var (у) = Var Q>), Var (е) = О и R2=l.
Если в выборке отсутствует видимая связь между .у и х, то коэффициент R2 будет близок к нулю.
При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и Ь, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и Ъ должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.47) используется как определение коэффициента Л2. Отметим сначала, что
i>/ = .V/-*-**/. (2.48)
откуда, беря среднее значение еі по выборке и используя уравнение (2.25), получим:
e = y-a-bx = y-[y-bx]-bx = 0. (2.49)
Следовательно,
Var(e) = IX (*,■ ~е)2 = -п Xef. (2.50)
Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.25). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.47) автоматически максимизируется коэффициент R2.
Альтернативное представление коэффициента R2
На интуитивном уровне представляется очевидным, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений^, и наоборот. Покажем, что Л2 фактически равен квадрату такого коэффициента корреляции между у и pi, который мы обозначим гу. (заметим, что Cov (е, у) = 0; см. упражнение 2.12):
r Со(у,у) = Cov({y + e},y) = Co($,y) + Cov(e,y) =
у'у VVar(>>)Var(5>) VVar(>>)Var(5>) VVar^Vartf)
VVar(j>)Var(j>) JVar(y) *Z,;H'
Пример вычисления коэффициента R2
Вычисление коэффициента R2 выполняется на компьютере в рамках программы оценивания регрессии, поэтому данный пример приведен лишь в целях иллюстрации. Будем использовать простейший пример с тремя наблюдениями, описанный в разделе 2.3, где уравнение регрессии
j>= 1,6667 + 1,5000* (2.52)
построено по наблюдениямх и у, приведенным в табл. 2.3. В таблице также даны у, и е, для каждого наблюдения, вычисленные с помощью уравнения (2.52), и все остальные данные, необходимые для вычисления Var (у), Var (у) и Var (е).
(Заметим, что е должно быть равно нулю, так что величина Var (е) = (l/n) ^Lef )
Таблица | 2.3 | ||||||||
Наблюдения | X | У | У | е | У-у | Л у-у | {у-у)2 | (у У) | 2 е* |
1 | 1 | 3 | 3,1667 | -0,1667 | -1,6667 | -1,5 | 2,7778 | 2,25 | 0,0278 |
2 | 2 | 5 | 4,6667 | 0,3333 | 0,3333 | 0,0 | 0,1111 | 0,00 | 0,1111 |
3 | 3 | 6 | 6,1667 | -0,1667 | 1,3333 | 1,5 | 1,7778 | 2,25 | 0,0278 |
Сумма | 6 | 14 | 14 | 0 | 4,6667 | 4,50 | 0,1667 | ||
Среднее | 2 | 4,6667 | 4,6667 | 0 | 1,5556 | 1,50 | 0,0556 |
Из табл. 2.3 можно видеть, что Var (у) = 1,5556, Var (у) = 1,5000 и Var (е) = 0,0556. Заметим, что Var (у) = Var (у) + Var (е), как это и должно быть. На основании этих значений мы можем вычислить коэффициент R2, используя уравнение (2.46) или (2.47):
2 _ Vartf) _ 1,5000 R " VaTO0"U556 " ' ' (2-53)
2_ Var(e) 0.0556 \%.
Упражнения
Докажите, что Cov (у, ё) должна быть равна нулю, используя равенства у = a + bx, е = у — a — bx и ковариационные правила.
Используя данные, приведенные в табл. 2.3, вычислите коэффициент корреляции между у и у и убедитесь, что значение коэффициента R1, полученное путем возведения его в квадрат, является таким же, как в нашем примере.
Значения коэффициента R2 для регрессионных зависимостей (1) расходов на продукты питания и (2) расходов на жилье от располагаемого личного дохода [см. уравнение (2.42) и упражнение 2.2] составили, соответственно, 0,98 и 0,99. Какой вывод можно сделать на основании этих значений (если какой-либо вывод здесь возможен)?
Каково значение коэффициента Л2 в регрессии между характеристиками выбранного вами товара и располагаемым личным доходом? Прокомментируйте это.
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы