Раздел 5 учет нарушений стандартных предположений о модели тема 5.1 включение в модель фиктивных переменных

Раздел 5 учет нарушений стандартных предположений о модели тема 5.1 включение в модель фиктивных переменных: Эконометрика Книга первая Часть 1, Носко Владимир Петрович, 2011 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон В учебнике излагаются методы эконометрического анализа — от самых простых до весьма продвинутых. В основе учебника — курсы лекций, прочитанные автором в Институте экономической политики им. Е.Т. Гайдара, на механико-математическом факультете...

Раздел 5 учет нарушений стандартных предположений о модели тема 5.1 включение в модель фиктивных переменных

В разд. 4 для выявления наличия структурного сдвига к данным по США за период с 1960 по 1985 г. был применен критерий Чоу. Мы пришли к выводу, что вследствие мирового топливно-энергетического кризиса 1973 г. в модели

CONSt =вх+ e2DPIt + в3 ASSETS t +et, t = 1,..., 26,

выявляется наличие структурного сдвига (изменяются значения коэффициентов). Для того чтобы примененить этот критерий, была допущена возможность изменения всех трех коэффициентов при переходе от периода с 1960 по 1972 г. к периоду с 1973 по 1985 г. и соответственно изменена спецификация модели с переходом к расширенной модели:

CONS, = +Г2Ф2), +уъ{ЭР1\ +уАфРП +

+ ys(ASSETS)t+y6(ASSETS2)t+en t = l,..., 26,

использующей искусственно построенные переменные (D1), и (Z)2)„ при этом (D2)t = 1 (D)n (D)t = 1 для t = 1,13 (что соответствует периоду с 1960 по 1972 г.) и (D)t = 0 для t = 14,26 (что соответствует периоду с 1973 по 1985 г.).

Переменные такого типа принято называть фиктивными переменными (dummy variables — дамми-переменные, или просто dummies — дамми), поскольку они не являются собственно макроэкономическими (или микроэкономическими) показателями, а указывают просто на какие-то временные промежутки, группы стран или отдельные страны, группы регионов или отдельные регионы, служат для обозначения принадлежности субъекта той или иной социальной или этнической группе и т.п. Введение таких переменных позволяет выявлять наличие эффектов, специфических для отдельных стран, групп стран, социальных групп, регионов и т.п.

В отличие от исходной модели с 3 объясняющими переменными, в модели с 6 переменными использованные статистические критерии не выявили нарушений стандартных предположений. Поэтому в рамках расширенной модели уже можно было пользоваться стандартными статистическими выводами в отношении коэффициентов модели, и это привело нас к редуцированной модели с 4 объясняющими переменными, которая, по сути, является двухфазной линейной моделью.

Расширение модели наблюдений за счет включения в нее дамми-пере-менных весьма типично при анализе факторов, имеющих сезонный характер (сезонную динамику). Рассмотрим в связи с этим следующий пример.

ПРИМЕР 5.1.1

Приведенный на рис. 5.1 график показывает динамику изменения совокупного располагаемого дохода DPI и объемов продаж SALES лыжного инвентаря в США (квартальные данные за период с 1964 по 1972 г.; DPI— в млрд долл., SALES— в млн долл., в ценах 1972 г., см. табл. 5.1). Оценивание линейной модели

SALES t =a + j3DPIt +єп ґ = 1,...,36,

дает результаты, приведенные в табл. 5.2.

Оценка коэффициента при переменной DPI статистически значима. Однако график стандартизованных остатков (приведенный для удобства в двух формах — рис. 5.2 и рис. 5.3) обнаруживает явную неадекватность построенной модели имеющимся наблюдениям.

Характер этой неадекватности таков, что он не улавливается критерием Дар-бина — Уотсона: значение 1.966 статистики Дарбина — Уотсона близко к 2.

Рис. 5.3

Это неудивительно: за положительными остатками с равным успехом следуют как положительные, так и отрицательные остатки, что соответствует практическому отсутствию корреляции между соседними ошибками и подтверждается диаграммой рассеяния (рис. 5.4).

RES01 8 6 4

2 --0 --■

-2

-4

-6

-8

На рис. 5.4 RES01 — переменная, образованная остатками от подобранной модели линейной связи, a RES0l(-l) — переменная, образованная запаздывающими на один квартал значениями переменной RES01.

В то же время налицо отрицательная коррелированность остатков для наблюдений, отстоящих на два квартала (рис. 5.5), и положительная — для наблюдений, отстоящих на четыре квартала (рис. 5.6).

-8

4 8

RES01(-1)

Рис. 5.4

В отличие от критерия Дарбина — Уотсона, критерий Бройша — Годфри «замечает» такую коррелированность: допустив коррелированность очищенных ошибок для наблюдений, разделенных двумя кварталами, получим Р-значение = 0.000009, что ведет к безусловному отклонению гипотезы о независимости ошибок.

Обратим теперь внимание на весьма специфическое поведение остатков. Все остатки, соответствующие I и IV кварталам, положительны, а все остатки, соответствующие II и III кварталам, отрицательны. Такое положение, конечно, просто отражает тот факт, что спрос на зимний спортивный инвентарь возрастает в осенне-зимний период и снижается в весенне-летний период года, т.е. имеет сезонный характер.

Построенная модель не учитывает фактора сезонности спроса и потому оказывается неадекватной. Вследствие этого такая модель не может, в частности, быть использована для прогнозирования объема спроса в зависимости от величины совокупного располагаемого дохода.

Дополним модель переменной DUMMY, значение которой равно 1 для I и IV кварталов и равно 0 для II и III кварталов. Добавление такой переменной в качестве объясняющей позволяет учесть сезонные колебания спроса. Оценивание расширенной модели

SA LESt =а + р DPIt + yD UMMYt +et9 / = 1,...,36,

дает результаты, приведенные в табл. 5.3.

Оцененное значение 6.410 коэффициента при переменной DUMMY фактически свидетельствует о том, что спрос на лыжный инвентарь в I и IV кварталах возрастает по сравнению со спросом во II и III кварталах в среднем примерно на 6.41 млн долл. (в ценах 1972 г.). График на рис. 5.7 иллюстрирует качество подобранной расширенной модели.

На сей раз Р-значение для статистики критерия Бройша — Годфри (с включением в правую часть запаздываний на 1 и 2 шага) равно 0.4389 против

прежнего 0.000009, так что теперь этот критерий не отвергает гипотезу независимости случайных ошибок єІ9єп.

По существу, мы подобрали две различные модели линейной связи между DPI и SALES:

модель SALES = 23.93338 + 0.124919DP7 для весенне-летнего периода;

модель SALES = (23.93338 + 6.410030) + 0.124919£>Р/ для осенне-зимнего периода.

При этом (одинаковая для обеих моделей) предельная склонность к закупке лыжного инвентаря оценивается величиной 0.124919.

Вообще говоря, в подобных задачах возможны ситуации, когда и угловой коэффициент не остается постоянным для различных наблюдений, как это было показано при рассмотрении зависимости расходов на потребление от располагаемого дохода по данным для США за период с 1960 по 1985 г. Поэтому в текущем примере следовало бы предусмотреть и такую возможность. Для этого рассмотрим расширенную модель:

SALES, =а + J3DPI, + у DUMMY, + 8 {DUMMYt • DPIt) + є,, t = 1,..., 36.

В такой модели предельная склонность к потреблению имеет вид:

*ШЬ=0 + 6 DUMMY,, dDPI,

т.е. зависит от значения DUMMY,:

d SALES, _ Р, если DUMMY, = 0 dDPI, ~fi + S, если DUMMY, =1.

Иначе говоря, переменная DPI взаимодействует с переменной DUMMY (фактически с климатическими условиями), и в этом контексте входящую в правую часть уравнения переменную DUMMY, • DPI, называют взаимодействием {interaction) переменных DPI и DUMMY.

Вопрос о действительном наличии такого взаимодействия в рассматриваемом примере оставляем для практических занятий. ■

у/ Замечание 5.1.1. Вместо модели SALES, = а + pDPl, + /DUMMY, + s„

t = I, 36, можно было бы рассмотреть модель с двумя дамми-переменными — той же переменной DUMMY, значение которой равно 1 для I и IV кварталов и равно 0 для II и III кварталов, и переменной DUMMY* = 1 DUMMY, значение которой равно 0 для I и IV кварталов и равно 1 для II и III кварталов:

SALES, = J3DPI, + у DUMMY, +S DUMMY,* +є,, t = 1,..., 36.

При такой спецификации оцененные значения коэффициентов у и д представляют собой постоянные составляющие в подобранных моделях связи для весенне-летнего и осенне-зимнего периодов, тогда как в первой спецификации оцененное значение коэффициента у представляет дифференциальный эффект {differential effect) осенне-зимнего периода.

Замечание 5.1.2. При спецификации моделей с дамми-переменными следует помнить о существовании так называемой дамми-ловушки (dummy trap). В уравнение, рассмотренное в Замечании 5.1.1, мы намеренно не включили постоянную составляющую, чтобы не попасть в такую ловушку. Если бы в правую часть уравнения помимо двух использованных дамми-переменных включили еще и постоянную, т.е. оценивали модель

SALES, =а + J3DPI, + у DUMMY, + S DUMMY* +є,, t = 1,..., 36,

то матрица значений объясняющих переменных приняла бы вид:

х =

1 1 1

1 1 1 1

DPIX DPI2 DPI3 DPI.

DPI DPI DPI DPI

0 0 1

1 0 0

Но в этой матрице 1-й столбец равен сумме 3-го и 4-го столбцов, т.е. столбцы матрицы X линейно зависимы, столбцовый ранг этой матрицы меньше 4, матрица XТХ вырождена (det XТХ = 0) и не имеет обратной, так что выражение (XтХ)~хХту попросту не определено.

В пакете Econometric Views при возникновении подобных ситуаций программа отказывается от вычисления оценки наименьших квадратов вектора коэффициентов и выдает следующее сообщение об ошибке (Error Message): Near singular matrix (матрица близка к вырожденной).

Замечание 5.1.3. Вместо подбора отдельных моделей для осенне-зимнего и весенне-летнего периодов можно было бы заняться подбором отдельных моделей для каждого из четырех кварталов года. С этой целью в качестве дополнительных объясняющих переменных можно взять, например, переменные DUMMYl, DUMMYl, DUMMY4, принимающие значение 1 соответственно в I, II и IV кварталах и равные 0 в остальных кварталах. При оценивании такой расширенной модели для наших данных оказывается незначимым коэффициент при DUMMYl, что означает близость в среднем уровней продаж во II и в III кварталах. Более того, оказываются близкими оценки коэффициентов при переменных DUMMY4 и DUMMYl. Гипотеза о совпадении двух последних коэффициентов не отвергается, и в итоге возвращаемся к модели с одной фиктивной переменной DUMMY, которую мы уже оценили ранее.

Использование фиктивных переменных полезно при анализе агрегированных (объединенных) данных, полученных при объединении наблюдений, относящихся к различным полам (мужчины и женщины), к различным возрастным, языковым и социальным группам, к разным периодам времени. В таких ситуациях модели, построенные по отдельным группам, могут существенно различаться, и тогда модель, построенная по объединенным данным, не учитывает этого различия. При привлечении фиктивных переменных становится возможным оценить значимость такого различия и в зависимости от результата остановиться на модели с агрегированными данными или на модели, в которой учитывается различие параметров связи для разных групп, на модели с едиными коэффициентами связи для всех наблюдений или на модели, в которой учитывается различие параметров связи на разных периодах времени. Достаточно подробно модели с дамми-переменными рассматриваются в учебнике (Доугерти, 2004).

yf Замечание 5.1.4. Если дамми-переменные используются для разбиения множества наблюдений по некоторому признаку на К категорий и в модель включена постоянная составляющая, то для непопадания в дамми-ловушку, о которой говорилось в Замечании 5.1.2, в правую часть уравнения следует включать только (К 1) дамми-переменных. Это связано с тем, что сумма всех К дамми-перемен-ных дает переменную, равную 1 во всех наблюдениях.

J Замечание 5.1.5. Если множество наблюдений разбивается на две части с использованием соответствующей дамми-переменной и при этом оказывается, что имеется лишь одно наблюдение, для которого эта дамми-переменная равна 1, то это наблюдение фактически не участвует в формировании оценок наименьших квадратов коэффициентов при остальных объясняющих переменных.

Использование дамми-переменных оказывает практическую пользу при анализе панельных данных {panel data), т.е. данных об экономических показателях нескольких предприятий (регионов, стран) за несколько месяцев (кварталов, лет). В этом контексте данные по нескольким предприятиям (регионам, странам) за один промежуток времени (месяц, квартал, год) называют одномоментными или перекрестными данными (cross-section data), тогда как данные по отдельным предприятиям (регионам, странам) за несколько месяцев (кварталов, лет) — временными рядами (time-series data).

ПРИМЕР 5.1.2

Рассмотрим приведенные в табл. 5.4 ежегодные данные об объемах инвестиций у и прибыли х 3 предприятий (N = 3) за десятилетний период (Т = 10) (см. (Greene, 1993), с. 481). Столбцы Yi9 Xi содержат данные по /-му предприятию, і 1, 2, 3.

Раздельное оценивание (в пакете Econometric Views) парных моделей регрессии

yXt = ах + pxxXt+sXt9 f = 1,...,10,

У*=а2+р2Х2і + 62t> ^ = 1, 10,

У ъг = аз + Ръхь +еЪп f = 1,...,Ю, дает следующие результаты:

для 2-го предприятия (табл. 5.6):

для 3-го предприятия (табл. 5.7):

для 1-го предприятия (табл. 5.5):

Различие между оценками коэффициентов при переменных хХ9 х29 х3 довольно невелико, так что возникает вопрос о проверке гипотезы совпадения этих коэффициентов:

Я0: Д=А=АПроверить эту гипотезу можно в рамках расширенной модели, обращенной ко всем 30 наблюдениям и допускающей различие постоянных составляющих и угловых коэффициентов для разных предприятий (модель ковариационного анализа). Определим дамми-переменные Dl9 D29 D3 следующим образом:

Ґ1, если/ = 1, Ґ1, если/= 2, Ґ1, если/ = 3,

Dh= D2it= D3it=

[О, если/VI; [0, если/* 2; [0, если/*3.

Тогда указанная расширенная модель принимает вид: М0 : yit =a{Dlit + a2D2it + а3D3it + Д(Ditxit) + J32(D2itxit)+fi3(D3itxit) + sit,

/=1,...,3, r= 1 10,

и ее можно записать в матрично-векторной форме следующим образом: