2.2. анализ вариации зависимой переменной

2.2. анализ вариации зависимой переменной: Эконометрика, А.И. Новиков, 2007 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Содержит систематическое изложение основ эконометрики, подготовлено в соответствии с требованиями государственного стандарта. Рассмотрены линейная модель парной и множественной регрессии, проверка гипотез, гетероскедастичность и автокорреляция ошибок.

2.2. анализ вариации зависимой переменной

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у.

Пусть на основе выборочных наблюдений построено уравнение регрессии у, тогда значение зависимой переменной у в каждом наблюдении можно разложить на две составляющие:

Уі = У,+еп

где остаток е, есть та часть зависимой переменной у, которую невозможно объяснить с помощью уравнения регрессии.

Разброс значений зависимой переменной характеризуется выборочной дисперсией ат(у). Разложим дисперсию var(y):

var(y) = var(.y + е) = var(j>) + var(e) + 2cov(j>, e).

Поскольку cov( y, e) = О, то

var(j) = var(j)) + var(e). (2.5)

Таким образом, дисперсия var(y) разложена на две части:

var(j)) — часть, объясненная регрессионным уравнением;

var(e) — необъясненная часть.

Коэффициентом детерминации R2 называется отношение

Jj2 = var№ = 1_va!Wi о<Я2<1, var(^) var(y)

характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии. var(e)

Отношение — представляет собой долю необъясненной

г.т{у)

дисперсии.

Если R2 = 1, то подгонка точная:

var(j;) = var(j>), var(e) = 0, у, = у„ i = 1, п,

т.е. все точки наблюдения лежат на регрессионной прямой. Если R2 = 0, то регрессия ничего не дает:

var(j>) = var(e), var(j>) = 0, j>, = у, і = 1, п,

т.е. переменная х не улучшает качества предсказания у по сравнению с горизонтальной прямой у у.

Чем ближе к единице R2, тем лучше качество подгонки, т.е. у более точно аппроксимирует у.

Замечание. Вычисление R2 корректно, если константа а включена в уравнение регрессии.

Пример 2.1. Покажем, что I~R~2 = гу<у, где гуу — коэффициент корреляции между у и у.

Действительно, учитывая соотношение

cov(j), у) = cov(j), у + е) = cov(j), у) + cov(y, е) = var(j>),

получим

r = covjy, у) = arjy) = ^2 у'у y/var(y)var(y) yvar(y)

Пример 2.2. Покажем, что гу = гху в случае парной регрессии у а + Ьх.

Действительно, из соотношений

cov(j), у) = cov(a + Ьх, у) bcov(x, у),

var( у) = var(a + Ьх) = b2 var(x) имеем

= со(у,у) = cov(x,y) = г у'у у/аг(у)аг(у) ,/var(x)var(>>) х'у

Вывод. В случае парной регрессии коэффициент детерминации есть квадрат коэффициента корреляции переменных х и у, т.е. R2 = г2 у.

Пример 2.3. Зависимость переменной в регрессии у = а + (Зх + є разбивается на две компоненты: у = у1 + у2. Рассмотрим две регрессии для компонент:

Докажем следующие соотношения для МНК-оценок параметров двух регрессий: а -ах + а2, Ь-Ьх + Ь2. Действительно,

b = cov(x,у) = cov(x,yx +у2) _ cov(x,^) + cov(x,у2) = ,+ь

var(x) var(x) var(x) 2'

а = у Ьх = (ух + у2) x{t + Ь2) = ах + а2.

Пример 2.4. Покажем, что если все значения переменных изменить на одно и то же число или в одно и то же число раз, то величина коэффициента b в парной регрессии не изменится.

Пустьх' = х + с, у'-у + с,тогда

_ cov(x', у') _ cov(x + с,у + с) _ cov(x, у) _

var(x') var(x + с) var(xr)

Пустьх' = toe, у'= ку, тогда

^, _ cov(x', у') _ cov(toc, ку) _ к2 cov(x, у) _ var(x') var(toc) k2var(x)

F-TECT НА КАЧЕСТВО ОЦЕНИВАНИЯ

Для определения статистической значимости коэффициента детерминации R2 проверяется гипотеза Н0: FО для /-статистики:

F = R2(n-2) l-R2

Величина F имеет распределение Фишера с V| = 1, v2 = п 2. Проверку значимости R2 можно выполнить двумя способами.

Критическое значение FKp при заданных a, vb v2 определяется по таблице ^-распределения Фишера или в Excel с помощью функции

FKp = .РРАСПОБР (ОС; V1#V2).

Из сравнения наблюдаемого значения Fc критическим получаем:

если F< FKp, то Н0 принимается, т.е. R1 незначим;

если F> FKp, то Щ отвергается, т.е. R2 значим.

Наблюдаемому (расчетному) значению критерия /"соответствует определенная значимость F, которую можно вычислить в Excel с помощью функции

Значимость F = FPACII (F; V1#V2).

Из сравнения значимости F с заданным стандартным уровнем значимости получаем:

если значимость /"больше стандартного уровня, то R2 н е з н а -чим;

если значимость F меньше стандартного уровня, то R2 значим.

3-2337

Чаще всего .F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом.

СРЕДНЯЯ ОШИБКА АППРОКСИМАЦИИ

Оценку качества построенной модели дает коэффициент детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации — среднее отклонение расчетных значений зависимой переменной от фактических:

у-у

100\%.

п

у

Допустимый предел значений А — не более 8—10\%.

Пример 2.5. Построим регрессионные зависимости: а) расходов на питание у и личного дохода х; б) расходов на питание у и времени t — по следующим данным (усл. ед.):

Год

1990

1991

1992

1993

1994

л:

2

6

10

14 ^

18

У

1

2

4

11

12

и оценим качество подгонки.

а) Пусть истинная модель описывается выражением у = а + (к + є.

По выборочным наблюдениям определяем оценки (а, Ь).

Исходные данные и расчетные показатели удобно представить в виде следующей таблицы:

Год

X

У

X2

ху

У

(у-у)2

(у-у)2

(у-у)2

1990

2

1

4

2

-0,2

25

38,44

1,44

1991

6

2

36

12

2,9

16

9,61

0,81

1992

10

4

100

40

6

4

0

4

1993

14

11

196

154

9,1

25

9,61

3,61

1994

18

12

324

216

12,2

36

38,44

0,04

Итого

50

30

660

424

30

106

96,1

9,9

Среднее

10

6

132

84,8

6

21,2

19,22

1,98

X

У

72

ху

У

var(y)

var(^)

var(e)

Окончательно имеем

cov(x, у) = ху х у = 84,8 60 24,8,

var(x) = Xі (х)2 = 132 -100 = 32,

cov(x,y) 24,8 _ , „71! ,„ , пс:

b = — = = 0,775, а = у-Ьх = Ь0,775 • 10 = -1,75.

var(jc) 32

Следовательно, у -1,75 + 0,775х.

Коэффициент b = 0,775 показывает, что при увеличении дохода на 1 усл. ед. расходы на питание увеличиваются в среднем на 0,775 усл. ед.

Замечание. В Excel оценки (а, Ь) можно также определить с помощью функций:

а = ОТРЕЗОК (массив у; массив х),

b = НАКЛОН (массив у; массив х).

Условие var(j) = var(j>) + var(e) выполняется. Качество подгонки оцениваем коэффициентом детерминации:

R2 = ™У> = 1^2 = 0,907, var(y) 21,2

т.е. 90,7\% вариации зависимой переменной (расходы на питание) объясняется регрессией.

Значимость коэффициента R2 проверяем по /'-тесту:

/,= ^-2) = 0190L3 = l-R2 0,093

Выполним проверку значимости R2 двумя способами.

При а = 0,05, V] = 1 и v2 = 3 по таблице или с помощью функции FPACrtOBP(a; v1#v2) находим FKp = 10,13. Поскольку F= 29,2 > FKp = 10,13, то R2 = 0,907 значим при 5\%-ном уровне.

Наблюдаемому (расчетному) значению критерия Е= 29,2 соответствует значимость F= 0,0124, которую можно определить в Excel с помощью функции

Значимость F = FPhCTl{F; v1; V2),

гдеу, = 1, v2 = 3.

Поскольку значимость F= 0,0124 < 0,05, то R2 значим при уровне 5\%.

б) Пусть истинная модель у = а + р/ + є (модель временного ряда). Выборочная регрессия у а + bt, где t — время, определяемое как t1 для 1990 г., t = 2 для 1991 г. и т.д.

Представим исходные и расчетные показатели в виде таблицы:

A = J^H-= 2^8=3,1, в = 7-АГ = 6-3,1.3 = -3,3. /2-(02 11-9

Следовательно, j> = -3,3 + 3,1/.

Коэффициент Ъ = 3,1 показывает, что за год расходы на питание в среднем возрастают на 3,1 усл. ед.

Пример 2.6. Покажем, что в модели регрессии без свободного члена У= $Х+ є оценка МНК для р есть

■ _ 2>,У, _ ху

Выборочная регрессия для этой модели у = Ъх. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = у, + et. Оценку Ъ найдем из минимизации величины

Q = 5>,2 = 5>, bx,f = 2>,2 2*Хзд + й21х2. Получаем

a' = -2X*,y,+2Z>2>,2=0,

Вычисление R при отсутствии свободного члена некорректно.

Пример 2.7. Покажем, что в модели регрессии Y= а + є оценка МНК для а есть а = у.

Выборочная регрессия для заданной модели есть у, = а. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = yt+e, = а + е,. Оценку а найдем из минимизации величины

Q = Xе'2 = 5>, " о? = ІУ? 2*5>. + па2. Получаем

£=-25>,+2*/i = 0,

откуда

Выборочная регрессия у = у.

Упражнение 2.1. По данным примера 2.5 покажите, что зависимость расходов на питание у от личного дохода х для модели регрессии без свободного члена есть у = 0,642х, при этом у Ф у и var(y) * var(y) + var(e).

КОНТРОЛЬНЫЕ ВОПРОСЫ

С чем связана ошибка регрессии?

В чем заключается метод наименьших квадратов?

Каков смысл коэффициента регрессии и каким способом его оценивают?

Что характеризует коэффициент детерминации?

Для чего используется F-критерий Фишера?

В чем смысл средней ошибки аппроксимации и как она определяется?

Эконометрика

Эконометрика

Обсуждение Эконометрика

Комментарии, рецензии и отзывы

2.2. анализ вариации зависимой переменной: Эконометрика, А.И. Новиков, 2007 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Содержит систематическое изложение основ эконометрики, подготовлено в соответствии с требованиями государственного стандарта. Рассмотрены линейная модель парной и множественной регрессии, проверка гипотез, гетероскедастичность и автокорреляция ошибок.