7.3. обнаружение гетероскедастичности
7.3. обнаружение гетероскедастичности
1 В выборке имеются некоторые различия оценок расходов на образование, вызванные расхождениями в методике их определения.
Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющей переменной (или объясняющих переменных): тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера.
Источники:Рунные о государственных расходах на образование и о населении взяты из табл. 1.1, 4.1 и приложения С статистического ежегодника ЮНЕСКО «Statistical Yearbook» (1984). Данные о расходах на образование для Италии и Греции относятся к 1979 г. Данные о валовом внутреннем продукте взяты из источника Международного валютного фонда "International Financial Statistics*, Supplement (1984).
Тест ранговой корреляции Спирмена
При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения jc, и поэтому в регрессии, оцениваемой с помощью МНК, абсолютные величины остатков и значениях будут коррелированы. Данные пох и остатки упорядочиваются, и коэффициент ранговой корреляции определяется как
/і(/Г -1) v '
где Dg — разность между рангом х и рангом е.
Если предположить, что коэффициент корреляции для генеральной совокупности равен нулю, то коэффициент ранговой корреляции имеет нормальное распределение с математическим ожиданием 0 и дисперсией 1/(л— 1) в больших
выборках. Следовательно, соответствующая тестовая статистика равна rxeyln-,
и при использовании двустороннего критерия нулевая гипотеза об отсутствии гетероскедастичности будет отклонена при уровне значимости в 5\%, если она превысит 1,96, и при уровне значимости в 1\%, если она превысит 2,58. Если в модели регрессии имеется более одной объясняющей переменной, то проверка гипотезы может выполняться с использованием любой из них.
Пример
По данным, приведенным в табл. 7.1, с помощью МНК оценена следующая регрессионная зависимость расходов на образование (ЕЕ) от валового внутреннего продукта (GDP) (стандартные ошибки указаны в скобках):
£\% = -2,32 + 0,067 GDP; Л2 = 0,98; (7.4)
(0,91) (0,002) /-= 1,524.
Это предполагает, что при каждом увеличении ВВП в перекрестной выборке на 1 млрд. долл. на образование будет затрачиваться дополнительно 67 млн. долл. (другими словами, 6,7 цента на дополнительный доллар). Отклонения от линии регрессии, а также объемы ВВП приведены в упорядоченном по возрастанию виде в табл. 7.2, и на их основе вычислены показатели D, и D}. Сумма последних составила 2,676. Таким образом, коэффициент ранговой корреляции равен:
6(2,676)
х'е 34(1,155) <7-5'
и тестовая статистика составляет (0,59)(7зЗ) = 3,39. Это выше, чем 2,58, и, следовательно, нулевая гипотеза об отсутствии гетероскедастичности при однопроцентном уровне значимости отклоняется.
Тест Голдфелда—Квандта
Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом (Goldfeld, Quandt, 1956). При проведении проверки по этому критерию предполагается, что стандартное отклонение (с,) распределения вероятностей и{ пропорционально значению х в этом наблюдении. Предполагается также, что случайный член распределен нормально и не подвержен автокорреляции.
Все п наблюдений в выборке упорядочиваются по величине х, после чего оцениваются отдельные регрессии для первых п' и для последних п' наблюдений; средние (п — 2п) наблюдений отбрасываются. Если предположение относительно природы гетероскедастичности верно, то дисперсия и в последних п' наблюдениях будет больше, чем в первых л', и это будет отражено в сумме квадратов остатков в двух указанных «частных» регрессиях. Обозначая суммы квадратов остатков в регрессиях для первых л'и последних «'наблюдений соответственно через RSSX и RSS2, рассчитаем отношение RSS2/RSS{, которое имеет F-распределение с (n'—k— 1) и (п'— к — 1) степенями свободы, где к — число объясняющих переменных в регрессионном уравнении. Мощность критерия зависит от выбора л'по отношению к п. Основываясь на результатах некоторых проведенных ими экспериментов, С. Голдфелд и Р. Квандт утверждают, что п' должно составлять порядка 11, когда п = 30, и порядка 22, когда п = 60. Если в модели имеется более одной объясняющей переменной, то наблюдения должны упорядочиваться по той из них, которая, как предполагается, связана с а,., и л'должно быть больше, чем к + 1 (где к — число объясняющих переменных).
Метод Голдфелда— Квандта может также использоваться для проверки на гетероскедастичность при предположении, что а. обратно пропорционально При этом используется та же процедура, что и описанная выше, но тестовой статистикой теперь является показатель /RSS2, который вновь имеет/^-распределение с (я'— к-) и (п'-к—) степенями свободы.
Примеры
На основе данных табл. 7.1 с помощью обычного МНК были оценены регрессии сначала по наблюдениям для 12 стран с наименьшим валовым национальным продуктом (ВНП), а затем для 12 стран с наибольшим ВНП. Сумма квадратов отклонений в первой регрессии была равна 2,68, а во второй — 388,24. Соотношение RSS2/RSSV следовательно, составило 144,9. Критическое значение /г(10,10) равно 4,85 при однопроцентном уровне значимости, и нулевая гипотеза об отсутствии гетероскедастичности снова отклоняется.
ТестГлейзера
Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что а,, пропорционально х/5 и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например
а^а + рх/. (7.6)
Чтобы использовать данный метод, следует оценить регрессионную зависимость у от х с помощью обычного МНК, а затем вычислить абсолютные величины остатков е{ по функции (7.6) для данного значения у. Можно построить несколько таких функций, изменяя значение у. В каждом случае нулевая гипотеза об отсутствии гетероскедастичности будет отклонена, если оценка р значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка р, то ориентиром при определении характера гетероскедастичности может служить наилучшая из них.
Пример
На основе данных табл. 7.2 по х и | е с использованием значений у от -1,0 до 1,5 были оценены уравнения (7.6). Результаты представлены в обобщенном виде в табл. 7.3.
Sf =0,58 + 0,24^. (7.7)
Другими словами, стандартное отклонение распределения величины и действительно увеличивается с ростом х, но не в такой же пропорции.
Упражнения 7. 1
Страна | М | G | Страна | М | G |
Бельгия | 849 | 2652 | Люксембург | 1368 | 3108 |
Канада | 778 | 3888 | Нидерланды | 704 | 2429 |
Дания | 853 | 3159 | Норвегия | 634 | 2881 |
Франция | 1000 | 2777 | Португалия | 215 | 718 |
Германия | 1331 | 3095 | Испания | 239 | 957 |
Греция | 185 | 1091 | Швеция | 1025 | 4101 |
Ирландия | 399 | 1331 | Великобритания | 609 | 2174 |
Италия | 554 | 1731 | США | 1248 | 4799 |
Япония | 679 | 1887 |
Используя данные из приведенной выше таблицы, исследователь оценивает регрессионную зависимость выпуска продукции обрабатывающей промышленности на душу населения в 1970 г. (М) от валового внутреннего продукта на душу населения в том же году (G) (как М, так и G измеряются в долларах США) и получает формулу (в скобках приводятся стандартные ошибки):
М = 74,2 + 0,27(7; Д2=0,69. (128,1) (0,05)
Изобразите диаграмму рассеяния, используя данные из таблицы, и объясните, почему исследователь может подозревать наличие гетерос кед астичности.
Исследователь оценивает две «частные» регрессии для шести стран с наименьшими значениями показателя G и для шести стран с наибольшими значениями этого показателя. Сумма квадратов отклонений составляет 20,523 в первом случае и 313,842 — во втором. Выполните проверку на гетероскедастичность по критерию Голдфелда—Квандта.
Как гетероскедастичность будет влиять на свойства оцениваемых коэффициентов?
7.2. Что касается примера с государственными расходами на образование, то здесь можно высказать мнение о том, что гетероскедастичность в значительной степени обусловлена наблюдением для США, которые по сравнению с другими странами в выборке имеют значительно большие значения ЕЕ и GDP. Поэтому был повторно выполнен тест Голдфелда—Квандта с исключением из выборки этого наблюдения. Суммы квадратов отклонений в регрессиях с использованием первых 12 и последних 12 из 33 наблюдений соответственно составили 2,68 и 202,9. Какой вывод вы сделаете?
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы