2.2. анализ вариации зависимой переменной
2.2. анализ вариации зависимой переменной
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у.
Пусть на основе выборочных наблюдений построено уравнение регрессии у, тогда значение зависимой переменной у в каждом наблюдении можно разложить на две составляющие:
Уі = У,+еп
где остаток е, есть та часть зависимой переменной у, которую невозможно объяснить с помощью уравнения регрессии.
Разброс значений зависимой переменной характеризуется выборочной дисперсией ат(у). Разложим дисперсию var(y):
var(y) = var(.y + е) = var(j>) + var(e) + 2cov(j>, e).
Поскольку cov( y, e) = О, то
var(j) = var(j)) + var(e). (2.5)
Таким образом, дисперсия var(y) разложена на две части:
var(j)) — часть, объясненная регрессионным уравнением;
var(e) — необъясненная часть.
Коэффициентом детерминации R2 называется отношение
Jj2 = var№ = 1_va!Wi о<Я2<1, var(^) var(y)
характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии. var(e)
Отношение — представляет собой долю необъясненной
г.т{у)
дисперсии.
Если R2 = 1, то подгонка точная:
var(j;) = var(j>), var(e) = 0, у, = у„ i = 1, п,
т.е. все точки наблюдения лежат на регрессионной прямой. Если R2 = 0, то регрессия ничего не дает:
var(j>) = var(e), var(j>) = 0, j>, = у, і = 1, п,
т.е. переменная х не улучшает качества предсказания у по сравнению с горизонтальной прямой у у.
Чем ближе к единице R2, тем лучше качество подгонки, т.е. у более точно аппроксимирует у.
Замечание. Вычисление R2 корректно, если константа а включена в уравнение регрессии.
Пример 2.1. Покажем, что I~R~2 = гу<у, где гуу — коэффициент корреляции между у и у.
Действительно, учитывая соотношение
cov(j), у) = cov(j), у + е) = cov(j), у) + cov(y, е) = var(j>),
получим
r = covjy, у) = arjy) = ^2 у'у y/var(y)var(y) yvar(y)
Пример 2.2. Покажем, что гу = гху в случае парной регрессии у а + Ьх.
Действительно, из соотношений
cov(j), у) = cov(a + Ьх, у) bcov(x, у),
var( у) = var(a + Ьх) = b2 var(x) имеем
= со(у,у) = cov(x,y) = г у'у у/аг(у)аг(у) ,/var(x)var(>>) х'у
Вывод. В случае парной регрессии коэффициент детерминации есть квадрат коэффициента корреляции переменных х и у, т.е. R2 = г2 у.
Пример 2.3. Зависимость переменной в регрессии у = а + (Зх + є разбивается на две компоненты: у = у1 + у2. Рассмотрим две регрессии для компонент:
Докажем следующие соотношения для МНК-оценок параметров двух регрессий: а -ах + а2, Ь-Ьх + Ь2. Действительно,
b = cov(x,у) = cov(x,yx +у2) _ cov(x,^) + cov(x,у2) = ,+ь
var(x) var(x) var(x) 2'
а = у Ьх = (ух + у2) x{t + Ь2) = ах + а2.
Пример 2.4. Покажем, что если все значения переменных изменить на одно и то же число или в одно и то же число раз, то величина коэффициента b в парной регрессии не изменится.
Пустьх' = х + с, у'-у + с,тогда
_ cov(x', у') _ cov(x + с,у + с) _ cov(x, у) _
var(x') var(x + с) var(xr)
Пустьх' = toe, у'= ку, тогда
^, _ cov(x', у') _ cov(toc, ку) _ к2 cov(x, у) _ var(x') var(toc) k2var(x)
F-TECT НА КАЧЕСТВО ОЦЕНИВАНИЯ
Для определения статистической значимости коэффициента детерминации R2 проверяется гипотеза Н0: FО для /-статистики:
F = R2(n-2) l-R2
Величина F имеет распределение Фишера с V| = 1, v2 = п 2. Проверку значимости R2 можно выполнить двумя способами.
Критическое значение FKp при заданных a, vb v2 определяется по таблице ^-распределения Фишера или в Excel с помощью функции
FKp = .РРАСПОБР (ОС; V1#V2).
Из сравнения наблюдаемого значения Fc критическим получаем:
если F< FKp, то Н0 принимается, т.е. R1 незначим;
если F> FKp, то Щ отвергается, т.е. R2 значим.
Наблюдаемому (расчетному) значению критерия /"соответствует определенная значимость F, которую можно вычислить в Excel с помощью функции
Значимость F = FPACII (F; V1#V2).
Из сравнения значимости F с заданным стандартным уровнем значимости получаем:
если значимость /"больше стандартного уровня, то R2 н е з н а -чим;
если значимость F меньше стандартного уровня, то R2 значим.
3-2337
Чаще всего .F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом.
СРЕДНЯЯ ОШИБКА АППРОКСИМАЦИИ
Оценку качества построенной модели дает коэффициент детерминации, а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации — среднее отклонение расчетных значений зависимой переменной от фактических:
у-у
100\%.
п
у
Допустимый предел значений А — не более 8—10\%.
Пример 2.5. Построим регрессионные зависимости: а) расходов на питание у и личного дохода х; б) расходов на питание у и времени t — по следующим данным (усл. ед.):
Год | 1990 | 1991 | 1992 | 1993 | 1994 |
л: | 2 | 6 | 10 | 14 ^ | 18 |
У | 1 | 2 | 4 | 11 | 12 |
и оценим качество подгонки.
а) Пусть истинная модель описывается выражением у = а + (к + є.
По выборочным наблюдениям определяем оценки (а, Ь).
Исходные данные и расчетные показатели удобно представить в виде следующей таблицы:
Год | X | У | X2 | ху | У | (у-у)2 | (у-у)2 | (у-у)2 |
1990 | 2 | 1 | 4 | 2 | -0,2 | 25 | 38,44 | 1,44 |
1991 | 6 | 2 | 36 | 12 | 2,9 | 16 | 9,61 | 0,81 |
1992 | 10 | 4 | 100 | 40 | 6 | 4 | 0 | 4 |
1993 | 14 | 11 | 196 | 154 | 9,1 | 25 | 9,61 | 3,61 |
1994 | 18 | 12 | 324 | 216 | 12,2 | 36 | 38,44 | 0,04 |
Итого | 50 | 30 | 660 | 424 | 30 | 106 | 96,1 | 9,9 |
Среднее | 10 | 6 | 132 | 84,8 | 6 | 21,2 | 19,22 | 1,98 |
X | У | 72 | ху | У | var(y) | var(^) | var(e) |
Окончательно имеем
cov(x, у) = ху х у = 84,8 60 24,8,
var(x) = Xі (х)2 = 132 -100 = 32,
cov(x,y) 24,8 _ , „71! ,„ , пс:
b = — = = 0,775, а = у-Ьх = Ь0,775 • 10 = -1,75.
var(jc) 32
Следовательно, у -1,75 + 0,775х.
Коэффициент b = 0,775 показывает, что при увеличении дохода на 1 усл. ед. расходы на питание увеличиваются в среднем на 0,775 усл. ед.
Замечание. В Excel оценки (а, Ь) можно также определить с помощью функций:
а = ОТРЕЗОК (массив у; массив х),
b = НАКЛОН (массив у; массив х).
Условие var(j) = var(j>) + var(e) выполняется. Качество подгонки оцениваем коэффициентом детерминации:
R2 = ™У> = 1^2 = 0,907, var(y) 21,2
т.е. 90,7\% вариации зависимой переменной (расходы на питание) объясняется регрессией.
Значимость коэффициента R2 проверяем по /'-тесту:
/,= ^-2) = 0190L3 = l-R2 0,093
Выполним проверку значимости R2 двумя способами.
При а = 0,05, V] = 1 и v2 = 3 по таблице или с помощью функции FPACrtOBP(a; v1#v2) находим FKp = 10,13. Поскольку F= 29,2 > FKp = 10,13, то R2 = 0,907 значим при 5\%-ном уровне.
Наблюдаемому (расчетному) значению критерия Е= 29,2 соответствует значимость F= 0,0124, которую можно определить в Excel с помощью функции
Значимость F = FPhCTl{F; v1; V2),
гдеу, = 1, v2 = 3.
Поскольку значимость F= 0,0124 < 0,05, то R2 значим при уровне 5\%.
б) Пусть истинная модель у = а + р/ + є (модель временного ряда). Выборочная регрессия у а + bt, где t — время, определяемое как t1 для 1990 г., t = 2 для 1991 г. и т.д.
Представим исходные и расчетные показатели в виде таблицы:
A = J^H-= 2^8=3,1, в = 7-АГ = 6-3,1.3 = -3,3. /2-(02 11-9
Следовательно, j> = -3,3 + 3,1/.
Коэффициент Ъ = 3,1 показывает, что за год расходы на питание в среднем возрастают на 3,1 усл. ед.
Пример 2.6. Покажем, что в модели регрессии без свободного члена У= $Х+ є оценка МНК для р есть
■ _ 2>,У, _ ху
Выборочная регрессия для этой модели у = Ъх. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = у, + et. Оценку Ъ найдем из минимизации величины
Q = 5>,2 = 5>, bx,f = 2>,2 2*Хзд + й21х2. Получаем
a' = -2X*,y,+2Z>2>,2=0,
Вычисление R при отсутствии свободного члена некорректно.
Пример 2.7. Покажем, что в модели регрессии Y= а + є оценка МНК для а есть а = у.
Выборочная регрессия для заданной модели есть у, = а. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = yt+e, = а + е,. Оценку а найдем из минимизации величины
Q = Xе'2 = 5>, " о? = ІУ? 2*5>. + па2. Получаем
£=-25>,+2*/i = 0,
откуда
Выборочная регрессия у = у.
Упражнение 2.1. По данным примера 2.5 покажите, что зависимость расходов на питание у от личного дохода х для модели регрессии без свободного члена есть у = 0,642х, при этом у Ф у и var(y) * var(y) + var(e).
КОНТРОЛЬНЫЕ ВОПРОСЫ
С чем связана ошибка регрессии?
В чем заключается метод наименьших квадратов?
Каков смысл коэффициента регрессии и каким способом его оценивают?
Что характеризует коэффициент детерминации?
Для чего используется F-критерий Фишера?
В чем смысл средней ошибки аппроксимации и как она определяется?
Обсуждение Эконометрика
Комментарии, рецензии и отзывы