Доверительные интервалы для предсказаний
Доверительные интервалы для предсказаний
Мы можем получить значение стандартной ошибки предсказания, если заменим ol в уравнении (10.76) на si и извлечем квадратный корень. Тогда отношение величины (уТ+р — Ут+Р) к стандартной ошибке при оценивании уравнения для периода выборки будет подчиняться r-распределению с соответствующим числом степеней свободы. Отсюда можно получить доверительный интервал для действительного значения ут+р:
9т+Р Крит х с. о. < ут+р < рт+р + tKpum х с. о, (10.77)
В уравнении множественной регрессии выражение, соответствующее (10.76), имеет гораздо более сложный вид, и оно лучше может быть представлено с
помощью аппарата матричной алгебры. Однако имеется простой прием, который можно использовать для расчета значений стандартных ошибок с помощью компьютера. Вы оцениваете уравнение регрессии на выборке, совмещающей выборочный и прогнозный периоды, добавив (различные) фиктивные переменные для каждого из наблюдений периода предсказания. Это означает включение в модель набора фиктивных переменных DT+l, DT+2, DT+m, где значение DT+ = 0 для всех наблюдений, кроме наблюдения Т+р, для которого оно равно единице. Как может быть показано, оценки коэффициентов при нефиктивных переменных и их стандартные отклонения будут в точности такими же, как и в уравнении регрессии, оцененном только на периоде выборки (см. работы Д. Салкевера [Salkever, 1976] и Ж.-М. Дюфора [Dufour, 1980]). Компьютер использует фиктивные переменные для получения точного значения каждого наблюдения в период предсказания и делает это, приравнивая коэффициент при фиктивной переменной к значению ошибки предсказания, как она была определена выше. Стандартная ошибка этого коэффициента равна стандартной ошибке предсказания.
Пример
Стандартная ошибка предсказания в уравнении функции спроса на продукты питания для 1980 г. равна 0,019. При числе степеней свободы, равном 18, и уровне значимости в 5\% критический уровень /-статистики равен 2,10, откуда можно получить следующий 95-процентный доверительный интервал для предсказания в этом году:
4,995 2,10 х 0,019 < logy < 4,995 + 2,10 х 0,019, (10.78)
т. е.
4,955 <ogy< 5,035. (10.79)
Как мы видим, действительное значение переменной попадает в этот доверительный интервал, поэтому предсказание, по крайней мере в данном году, можно считать удовлетворительным. Это верно и для оставшихся лет периода предсказания.
Упражнение
10.13. Используйте косвенный метод Салкевера для расчета прогнозов и их стандартных ошибок для логарифмической функции спроса на выбранный вами товар. Добавьте фиктивные переменные для последних четырех наблюдений и рассчитайте ошибки предсказания для этих лет, базируясь на уравнении регрессии, полученном на первых 21 наблюдении. Добавьте это к реальным значениям для получения прогноза. Рассчитайте доверительный интервал для прогноза по крайней мере на год вперед.
10.9. Тесты на устойчивость
Тесты на устойчивость для регрессионной модели предназначены для оценки того, насколько поведение модели в послевыборочном периоде сравнимо с ее поведением в период выборки, на которой она была получена. В основе организации тестов на устойчивость могут лежать два принципа. Один подход — сосредоточиться на предсказательной способности модели; другой подход — оценить, происходит ли сдвиг параметров в период предсказания.
Тест Чоуна неудачу предсказания
Как мы видели в предыдущем разделе, ошибку предсказания можно рассчитать, добавив набор фиктивных переменных для наблюдений периода предсказания. Теперь вполне естественно определить, существенно ли ошибка предсказания отличается от нуля, и мы можем сделать это с помощью .Р-теста на совместную объясняющую способность фиктивных переменных. Совместив период выборки и период предсказания, мы оценим уравнение регрессии сначала без набора фиктивных переменных, а затем — вместе с этим набором. Обозначим полученные суммы квадратов отклонений как RSST+m и RSSDT+m, где нижний индекс показывает число наблюдений в регрессии, а верхний индекс «D» означает включение в уравнение фиктивных переменных. С помощью .Р-теста, описанного в разделе 5.6, мы можем определить, было ли существенным улучшение качества уравнения после добавления набора фиктивных переменных. Данное улучшение можно представить в виде (RSST+m — RSSDT+m)', число фиктивных переменных равно т сумма квадратов отклонений после включения фиктивных переменных составляет RSSDT+m; остающееся число степеней свободы равно числу наблюдений в совмещенной выборке (Т + т) за вычетом числа оцененных параметров (k + т + 1). В итоге значение .Р-статистики составит:
w-k-^Risz:,f:t':<>*«»
На самом деле для реализации теста даже не требуется оценивать уравнение регрессии с фиктивными переменными, поскольку значение RSSDT+m равно значению RSST — сумме квадратов отклонений для уравнения регрессии, оцененного на периоде выборки. Качество этой регрессии в точности такое же, как и у регрессии для первых Г наблюдений в уравнении с фиктивными переменными, и отклонения здесь те же самые. Для последних т наблюдений в уравнении с фиктивными переменными нет отклонений, так как включение специальной фиктивной переменной для каждого наблюдения гарантирует точность уравнения для этих наблюдений. В итоге значение RSSDT+m в точности такое же, как и значение RSSr и Р-статистика может быть переписана как
F(m,T-k-)= /г5^/(Г_/_,) • (10.81) Этот тест известен как тест Чоу и был назван так по имени своего создателя
Г. Чоу (Chow, 1960), однако приводимая здесь интерпретация теста была предложена несколько позже X. Песараном, Р. Смитом и С. Ео (Pesaran, Smith, Yeo, 1985).
Пример
Функция спроса на продукты питания сначала была оценена на данных за период 1959—1979 гг., и RSST = 0,0052, а затем — на данных за период 1959— 1983 гг., RSST+m = 0,0070. Как следствие значение F-статистики равно:
Г(А 1СЧ (0,0070 0,0052)/4 , _
тЩ = 0,0052/18 = 1)56(10-82)
Критическое значение /^-статистики с 4 и 18 степенями свободы при 5-процентном уровне значимости равно 2,93, поэтому мы не отвергаем нулевую гипотезу о стабильности коэффициентов уравнения регрессии.
F-тестна стабильность коэффициентов
Если имеются приемлемые наблюдения за период предсказания, то можно провести /*-тест на наличие структурного перелома, описанный в разделе 9.5, и оценить, значимо ли различаются коэффициенты периода выборки и периода предсказания. Для реализации этого теста сначала необходимо оценить раздельно уравнения регрессии для периода выборки и периода предсказания, а затем — совместно для этих двух периодов. После этого нужно проверить, значимо ли улучшается качество уравнения при разделении общего периода оценки регрессии на период выборки и период предсказания. Подтверждение этой гипотезы может служить свидетельством того, что коэффициенты регрессии нестабильны.
Пример
При оценивании функции спроса на продукты питания с использованием наблюдений за 1959-1979 гг. в качестве периода выборки, а за 1980—1983 гг. — в качестве периода предсказания, суммы квадратов отклонений для периода выборки, периода предсказания и совмещенного периода равнялись 0,0052; 0,0002 и 0,0070 соответственно. Оценка отдельных уравнений регрессии для двух под-периодов ведет к утрате трех степеней свободы, и число степеней свободы, остающееся после оценивания шести параметров (двух постоянных членов, двух коэффициентов при logx, двух коэффициентов при log/?), равно 19. В итоге мы получаем следующую /^статистику, распределенную с 3 и 19 степенями свободы:
_ (0,0070 [0,0052 + 0,0002)) / 3
W9) (0,0052 + 0,0002) /19 " 13& <10-83)
Критическое значение /^статистики с таким числом степеней свободы при 5-процентном уровне значимости равно 3,13, что позволяет нам сделать вывод об отсутствии явной нестабильности коэффициентов.
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы