Непреднамеренное использование замещающих переменных
Непреднамеренное использование замещающих переменных
Иногда случается, что вы используете замещающую переменную, не осознавая этого. Вы полагаете, что у зависит от z, а в действительности эта величина зависит от х.
Если корреляция между величинами z и х незначительна, то результаты будут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тесная, то результаты окажутся удовлетворительными (коэффициент/?2 будет близок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полученное соотношение неверно.
Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии является предсказание будущих значений величины у, то использование замещающей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой случайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на поведение зависимой переменной, то последствия могут оказаться катастрофическими. Если только не будет функциональной связи между замещающей переменной и истинной объясняющей переменной, манипулирование замещающей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным.
Непреднамеренное использование замещающих переменных особенно распространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднамеренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объясняющей переменной, вы, вероятно, получите аналогичные результаты независимо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обычно изменяются взаимосвязанно, в соответствии с экономическим циклом.
Упражнения
6.11. В приведенной ниже таблице даны коэффициенты (с указанными в скобках стандартными ошибками) логарифмической регрессионной зависимости расходов на жилье: 1) от располагаемого личного дохода (dpi) и цены; 2) только
от цены; 3) от цены и времени. Показатель dpi и цена, вычисленные поданным выборочного периода, оказались отрицательно коррелированными. Прокомментируйте результаты.
Используя данные по товару, выбранному вами в упражнении 2.4, постройте парную логарифмическую регрессионную зависимость спроса от относительной цены и множественную регрессионную зависимость спроса от относительной цены и времени {не включая dpi). Сопоставьте результаты со множественной регрессионной зависимостью спроса от располагаемого личного дохода и относительной цены, оцененной вами в упражнении 5.6. Сделали бы вы вывод, что время может служить удовлетворительной замещающей переменной для располагаемого личного дохода, если бы вам не удалось получить данные о последнем?
Исследователь считает, что соотношение между годовым доходом индивида (у), числом лет трудового стажа (х) и количеством лет обучения (S) выражается формулой:
у = а + pjX + р25 + и,
где и — случайный член. Исследователь располагает данными перекрестной выборки по у и S для 1000 человек, но не имеет прямых данных по х. Имеются данные о возрасте каждого индивида, а отсюда z — число лет, прошедших с момента официального завершения обучения, может быть вычислено по формуле:
z~ Возраст-5-6,
исходя из предположения, что каждый индивид начал учиться в возрасте 6 лет. Подчеркните преимущества и недостатки построения регрессионной зависимости у: 1) только от величины 5; 2) от S и z, используя z в качестве замещающей переменной для х. Обсудите в каждом случае, каким образом должны интерпретироваться результаты регрессии и какие могут быть выполнены статистические тесты.
6.5. Проверка линейного ограничения
В разделах 5.3 и 5.5 было показано, что число объясняющих переменных в уравнении регрессии можно уменьшить на единицу, если известно, что параметры этого уравнения линейно зависимы. Воспользовавшись этой зависимостью, вы сделаете оценки регрессии более эффективными. Если до этого имела место проблема мультиколлинеарности, то она может быть смягчена. Даже если эта проблема в исходной модели отсутствовала, то выигрыш в эффективности может дать улучшение точности оценок, что отражается их стандартными ошибками.
Например, в разделе 5.3 мы видели, что наиболее общая форма функции Кобба—Дугласа
Y=AK*Lb (5.31)
при наложении ограничения р = 1 — а могла бы быть преобразована к виду:
Y/L = A(K/L)*v. (5.28)
Соответственно этому регрессии, построенные на основе функции Кобба— Дугласа, рассчитанной для производственного сектора США за 1899—1922 гг., выглядели так (в скобках указаны стандартные ошибки):
log Y= -0,18 + 0,23 log К+ 0,81 log L Л2 = 0,96; (5.32)
(0,43) (0,06) (0,15) F = 236,1;
и (с учетом линейного ограничения на параметры):
lo£ Y/L = 0,02 + 0,25 log K/L; R2 = 0,63; (5.30)
(со.) (0,02) (0,04) F = 38,0.
Оценки величин а и Р в формуле (5.32) действительно в сумме дают примерно единицу, что может служить обоснованием для использования ограничения, учет которого, как видно, повышает эффективность, поскольку стандартная ошибка оценки величины а в версии с ограничением составляет всего 0,04 против 0,06 при отсутствии ограничения. Однако прежде, чем использовать версию с ограничением, мы должны провести формальную проверку гипотезы о наличии ограничения. Имеется несколько способов сделать это, но мы рассмотрим два наиболее распространенных, которые оказываются эквивалентными.
Проверка ограничения с помощью критерия F
Постройте обе формы регрессии — как с учетом ограничения, так и без него — и обозначьте сумму квадратов остатков (автоматически рассчитанных компьютером) через RSSR — в варианте с ограничением и RSSV — в варианте без ограничения. Поскольку ввод ограничения ведет к сужению возможностей подбора уравнения регрессии, обеспечивающего наибольшее соответствие с имеющимися данными, RSSR не может быть меньше, чем RSSW а будет в общем случае больше. Нам хотелось бы проверить, является ли улучшение качества регрессии при переходе от варианта с ограничением к варианту без ограничения статистически значимым. Если это так, то ограничение должно быть отброшено.
Для этой цели мы можем использовать критерий F, сконструированный так же, как и в разделе 5.6:
Улучшение качества уравнения / Число использованных степеней свободы ~~ Оставшаяся сумма квадратов отклонений / Оставшееся число степеней свободы
• (5.58)
Здесь улучшение качества регрессии, получаемое при переходе от модели с ограничением к модели без ограничения, выражается величиной (RSSR — RSSy), в модели без ограничения появляется одна дополнительная степень свободы (поскольку оценивается на один параметр больше), и сумма квадратов отклонений, остающаяся после перехода от ограниченного к неограниченному варианту, составляет RSSV. Следовательно, /^статистика в данном случае равна:
г __ RSS я — RSSy ~~ RSSu/in-k-l)9 <6-29)
где к — число объясняющих переменных в варианте без ограничения. Она распределена с одной и (я — к — 1) степенями свободы при предположении, что ограничение верно.
В случае с производственной функцией Кобба—Дугласа сумма квадратов отклонений составила 0,0716 в модели с ограничением и 0,0710 — в модели без ограничения. Отсюда/^-статистика равнялась:
г 0,0716-0,0710 ЛІО
F- 0,0710/21 =0Д8(6-30>
Критический уровень величины F с 1 и 21 степенью свободы при 5-процентном уровне значимости равен 4,32. Поскольку значение F-статистики оказалось ниже критического уровня, мы не отбрасываем ограничение. Другими словами, Ч. Кобб и П. Дуглас были правы, используя ограничение о постоянном эффекте от масштаба применительно к рассматриваемому периоду.
Проверка ограничения с помощью критерия t1
При проверке ограничения с помощью критерия t используется факт, что модель с ограничением может быть сведена к модели без ограничений путем добавления в уравнение соответствующего члена. Для удобства мы назовем эту формулировку модели «вариант З»2. Коэффициент дополнительного члена в варианте J будет равен нулю, если и только если ограничение выполняется. Поэтому вы можете проверить ограничение, оценив регрессию для варианта 3 и выяснив, значимо или нет отличается от нуля коэффициент дополнительного члена.
1 Данный подраздел можно пропустить без потери целостности изложения.
2 Данный термин не является стандартным.
В случае функции Кобба—Дугласа добавление члена ((3 + а — 1) log L в уравнение преобразует модель с ограничением в модель без ограничений. Если расширить уравнение (5.29) для перехода к варианту J, то
log Y/L = log А + a log K/L + (Р + а 1) log L + log v. (6.31)
Отсюда
log Ylog L = log A + a[log K— log L] + plog L + alog L log L + log v. (6.32)
Путем упрощения можно вернуться вновь к модели без ограничений:
log Y = log А + alog К + plog L + log v. (6.33)
Таким образом, формула (6.31) является новым способом записи модели без ограничений. Если ограничение верно, то коэффициент при log L не должен значимо отличаться от нуля (если мы не совершим, к несчастью, ошибку I рода), и тогда мы имеем право исключить этот член, т. е. использовать модель с ограничением.
В рассматриваемом случае, оценивая регрессию для варианта J, мы получим (в скобках даны стандартные ошибки):
log Y/L= —0,18 + 0,23 ogK/L +0,04 log L; R2 = 0,64. (6.34) (0,43) (0,06) (0,09)
Коэффициент при log L не отличается значимо от нуля. Это подразумевает, что (а + р) не отличается значимо от единицы. Поэтому ограничение мы не отбрасываем.
Каким образом найти дополнительный член, который преобразует модель с ограничением обратно в модель без ограничений? Попрактиковавшись немного, вы сможете делать это путем изучения и проверки. Если вы предпочитаете формально строгий, но более механический путь его определения, то напишите сначала вариант модели без ограничений, а затем — с ограничением со всеми членами в левой стороне уравнения и проведите вычитание. Разность и будет тем выражением, которое вы ищете.
Почему этот способ эквивалентен использованию F-теста? Напомним, что F-TecT проверяет улучшение качества регрессии при переходе от модели с ограничением к модели без ограничений. Это осуществляется путем включения в уравнение дополнительного члена, но, как нам известно, F-itci для проверки улучшения качества регрессии путем включения в уравнение дополнительного члена эквивалентен /-тесту для проверки значимости коэффициента этого члена (см. раздел 5.6).
Еще один пример
Допустим, вы предполагаете, что совокупный расход на продовольствие (у) зависит от совокупного личного дохода (z), совокупного личного налога (tax) и относительной цены продовольствия (р). Вы допускаете наличие зависимости:
у = а + р,г + $2tax + р^ + и, (6.35)
Пользуясь данными по США за период 1959—1983 гг. из табл. Б.1 и Б.2, а также из упражнения 6.17 и вычисляя налог (tax) как разность между личным доходом и располагаемым личным доходом, мы получим регрессию:
у= 116,7 + 0,113*-0,115/ах-0,741р; Д2 = 0,99. (6.36) (со.) (9,8) (0,009) (0,040) (0,120)
Заметив, что коэффициент при tax близок к коэффициенту при z по абсолютной величине, но противоположен по знаку, мы видим, что величина у в конечном счете может зависеть в большей степени не от z или tax по отдельности, а от располагаемого личного дохода, т. е. разности между ними, и поэтому мы имеем право ввести ограничение
Р2 = -Р„ (6.37)
для того чтобы повысить эффективность оценок. Последнее уравнение может быть переписано в виде:
у = а + р,х + + w, (6.38)
где х — располагаемый личный доход, а соответствующая регрессия выглядит как
у= 116,7 + 0,1 12jc -0,739/?; Д2 = 0,99. (5.3) (со.) (9,6) (0,003) (0,114)
Мы действительно видим улучшение эффективности, так как стандартная ошибка коэффициента при доходе сейчас составляет только 0,003 вместо 0,009.
Суммы квадратов отклонений в вариантах уравнений без ограничений и с ограничениями составляют 65,379 и 65,398 соответственно, и /^-статистика для проверки ограничения равна:
^=653797 2ї = °'006(6-39)
Критический уровень F с 1 и 21 степенью свободы при 5-процентном уровне значимости составляет 4,32, и мы, таким образом, не отвергаем ограничения. Фактически это было, в сущности, почти предрешенным выводом, поскольку коэффициенты регрессии в уравнении без ограничений (6.36) очень близки к значениям, полученным при выполнении ограничения.
Можно, конечно, использовать подход с /-тестом. В данном случае вариант.? представляется в виде:
у = а + р,л+ + (р, + р2) tax + и. (6.40) Соответствующей регрессией является (в скобках даны стандартные ошибки):
у= 11б,7 + 0,113х-0,741р-0,002гдх; Л2 = 0,99; (6.41) (9,8) (0,009) (0,120) (0,031)
и мы приходим к выводу, что оценка коэффициента (р, + Р2) не отличается значимо от нуля, т. е. что Р2 не отличается значимо от —р,.
Упражнения
В разделе 5.5 мы рассмотрели добавление временного тренда к производственной функции Кобба—Дугласа с целью учета технического прогресса. Мы обнаружили, что это вызвало мультиколлинеарность [уравнение (5.48)], и получили значительно лучшие результаты, когда ввели ограничение, определяющее постоянный эффект от масштаба [уравнение (5.49)]. Суммы квадратов отклонений в уравнениях без ограничений и с ограничениями были, соответственно, равны 0,056 и 0,068. Проведите проверку ограничения, предполагающего постоянный эффект от масштаба.
Построение регрессионной зависимости расходов на жилищные услуги от личного дохода, налога и относительной стоимости жилья дает следующие результаты (в скобках указаны стандартные ошибки):
у = -41,6 +0,177*-0,160/лх +0,131/?; /?2 = 0,99. (50,0) (0,020) (0,094) (0,432)
Сравните данное уравнение с регрессией между спросом, располагаемым личным доходом и относительной ценой, представленной в упражнении 5.2. Суммы квадратов отклонений в вариантах без ограничений и с ограничением были равны 382,4 и 383,3 соответственно. Проведите проверку ограничения, тщательно сформулировав нулевую гипотезу.
Регрессионная зависимость для «варианта 3» от располагаемого личного дохода, относительной цены и налогов дает следующий результат (стандартные ошибки указаны в скобках):
у = -41,6 + 0,177* +0,131 + 0,017/лх; Л2 = 0,99. (50,0) (0,020) (0,432) (0,075)
Проведите проверку ограничения и сравните это уравнение с уравнением из упражнения 6.15.
Постройте регрессионную зависимость расходов на выбранный вами вид благ от личного дохода, налогов и относительной цены и сравните результаты с результатами оценивания регрессии между расходами, располагаемым личным доходом и относительной ценой в упражнении 5.3. Укажите, какую из регрессий следует считать лучше специфицированной.
2. Регрессия в упражнении 5.3 может рассматриваться как модель новой регрессии с ограничением. Сформулируйте соответствующее ограничение и проведите его формальную проверку.
Новая регрессия соответствует той же модели, что и регрессия функции спроса на продовольствие в уравнении (6.35). При работе с программой регрессионного анализа вам нужно будет использовать данные о личном доходе, взятые из приведенной ниже таблицы (с. 193). Однако нет необходимости вводить отдельно данные по налогам: эти данные вы можете вычислить (или «поручить» это сделать за вас компьютеру) как разность между личным доходом и располагаемым личным доходом.
В своей классической статье М. Нерлов (Nerlove, 1963) вывел следующую формулу функции издержек для производства электроэнергии:
где С — полные издержки производства; Y— выпуск (измеренный в киловатт-часах); Рх — стоимость затрат труда; Р2 — цена использования капитала, Ръ — стоимость топлива (все показатели измеряются в соответствующих единицах) и v — случайный член. Теоретически сумма показателей ценовой эластичности должна равняться единице:
Yi + Y2 + Y3 = 1,
и, следовательно, формула функции издержек может быть переписана:
Эти два варианта формулы функции издержек оценены для 29 фирм среднего размера, в выборке Нерлова, со следующими результатами (стандартные ошибки даны в скобках; RSS — сумма квадратов отклонений):
log С= -4,93 + 0,94 log Y+ 0,31 log/*, 0,26 ogP2 + 0,441og/>3; RSS= 0,336; (1,62) (0,11) (0,23) (0,29) (0,07)
log C/P2 = -6,55 + 0,91 logy+ 0,51 ogPl/P5 + 0,09ogP2/P2; RSS= 0,364. (0,16) (0,11) (0,19) (0,16)
Сравните результаты оценивания регрессии по указанным двум уравнениям и проведите формальную проверку выполнения ограничения.
6.6. Как извлечь максимум информации из анализа остатков
Существует два пути рассмотрения остатков, полученных в результате оценивания уравнения регрессии по какому-то набору данных. Если вы по натуре пессимист или проявляете пассивность, то будете смотреть на них как на свидетельство своей неудачи. Чем больше остатки, тем хуже регрессия и тем меньше коэффициент/?2. Общей целью является такая оценка уравнения регрессии, чтобы свести до минимума сумму квадратов остатков. Однако при некоторой предприимчивости вы будете видеть в этих остатках потенциально неограниченный источник для зарождения новых идей, а возможно, и новых теорий. Они дают одновременно основу для постановки задач и конструктивной критики. Формулируемые задачи создают стимул для научных исследований: необходимость найти лучшее объяснение для наблюдаемых событий. А конструктивная критика вызывается тем, что остатки, взятые по отдельности, указывают, когда, где и в какой степени существующая модель не смогла объяснить наблюдаемые события. Извлечение пользы из такой конструктивной критики требует от исследователя большого терпения. Если выборка достаточно мала, то вам следует очень внимательно рассмотреть каждое наблюдение с большим положительным или отрицательным отклонением и попытаться сформулировать для них гипотетические объяснения. Некоторые из этих объяснений могут включать какие-то особые факторы, которые вряд ли повторятся в дальнейшем. Такие факторы не приносят теоретику большой пользы. Они могут помочь вам дать объяснение явлениям в прошлом, но не могут оказать большой помощи в прогнозировании будущего.
Предположим, что вы исследуете связь между продажей каких-то предметов длительного пользования и располагаемым личным доходом, пользуясь данными погодового временного ряда. Если вы находите, что отрицательный остаток в каком-то году может быть отнесен к длительной забастовке у ведущего поставщика, то этим вы сделаете вклад в историю, но не в теорию.
Другие факторы, однако, могут оказаться связанными с отклонениями, появляющимися в нескольких наблюдениях. Как только вы обнаруживаете закономерность такого характера, вы делаете шаг вперед. Следующим шагом должно быть нахождение разумного способа для количественного описания данного фактора и включения его в модель. Например, в своих исследованиях продажи предметов длительного пользования вы можете обнаружить, что имели место большие положительные остатки в годы большей инфляции. Тут было бы естественным выдвинуть гипотезу, что покупатели пытаются защитить себя от инфляции путем приобретения товаров вместо сбережения денег, и вы, разумеется, должны включить темп этой инфляции в уравнение в качестве объясняющей переменной.
Заметим, что данным примером иллюстрируется исходный момент. Определение величины остатков является только частью решения задачи. Вам необходимо также иметь базовые знания и воображение, чтобы оценить факторы, способные объяснить их. Уже по одной только этой причине эконометрическое моделирование представляет собой вид искусства.
Иллюстрация
Для более подробной иллюстрации рассмотренных моментов вернемся к эксперименту по методу Монте-Карло, описанному в разделе 6.2, где исследователь изучает соотношение между доходом (у) и продолжительностью обучения (5) в некоторой стране. Истинным соотношением было: у = -26250 + 1500S + 250/G + и, (6.9)
однако исследователь не учитывает влияния фактора способностей и оценивает уравнение регрессии в следующем виде:
у = -6418 + 19855. (6.11) (со.) (3349) (248)
Здесь, как вы видите, имеются большие положительные остатки у индивидов 6, 12 и 18, а также большие отрицательные остатки у индивидов 11 и 14. Если бы исследователь побеседовал с ними, то он выяснил бы, что индивид 6 происходит из рабочей семьи и что он рано оставил школу, как и все его товарищи, и, тем не менее, достиг положения руководителя в сфере мелкого бизнеса, где продвижение основывается на результатах работы. Индивиды 12 и 18, которые имеют более высокое образование, также исключительно хорошо продвигались по службе, что не было удивительным для тех, кто знал о том, что они всегда были среди лучших в учебе. Если посмотреть на отрицательные остатки, то при опросе индивидов 11 и 14 исследователь установил бы, что оба они были весьма неспособны к учебе и с радостью оставили школу, когда это им позволили сделать их родители.
Если бы эти опросы были сделаны, то исследователь, пусть даже смутно, понял бы, что природные способности являются важным фактором в определении уровня дохода и это привело бы его к регрессии с правильной спецификацией, с предположением, что может быть измерен показатель IQ каждого индивида. (Согласимся, что это является упрощением: IQ отражает только один вид способностей, не самый важный для успеха в бизнесе или деятельности такого же рода.)
Анализ остатков имеет также важное значение при выборе наиболее подходящей формулы уравнения регрессии. Как мы увидим ниже, в разделе 7.9, поведение остатков может указывать на математически неправильную спецификацию модели. И наконец, анализ остатков может быть полезным при проверке того, удовлетворены ли второе и третье условия Гаусса—Маркова. Условия Гаусса—Маркова относятся к случайному члену и. Измерение величины и в каждом отдельном наблюдении невозможно, но остаток в этом наблюдении может быть взят в качестве замещающей переменной для и. Отсюда если остатки подчиняются второму и третьему условиям Гаусса—Маркова, то будет разумным считать, что им подчиняется и случайный член. К этому вопросу мы вернемся в главе 7.
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы