1.3. эконометрическая модель и экспериментальные данные
1.3. эконометрическая модель и экспериментальные данные
Чтобы получить достаточно достоверные и информативные данные о распределении какой-либо случайной величины, необходимо иметь выборку ее наблюдений достаточно большого объема. Выборка наблюдений зависимой переменной Y и объясняющих переменных Xj (j = 1,..., р) является отправной точкой любого эконометрического исследования.
Такие выборки представляют собой наборы значений (Jt/i,..., xip Уд> гДе *' — 1 v->л; Р — количество объясняющих переменных, п — число наблюдений.
Как правило, число наблюдений п достаточно велико (десятки, сотни) и значительно превышает число р объясняющих переменных. Проблема, однако, заключается в том, что наблюдения yh рассматриваемые в разных выборках как случайные величины Yi и получаемые при различных наборах значений объясняющих переменных Xj, имеют, вообще говоря, различное распределение. А это означает, что для каждой случайной величины Yi мы имеем всего лишь одно наблюдение. Разумеется, на основании одного наблюдения никакого адекватного вывода о распределении случайной величины сделать нельзя, и нужны дополнительные предположения.
В классическом курсе эконометрики рассматривается два типа выборочных данных.
Пространственная выборка или пространственные данные (cross-sectional data). В экономике под пространственной выборкой понимают набор показателей экономических переменных, полученный в данный момент времени. Для эконометриста, однако, такое определение не очень удобно — из-за неоднозначности понятия «момент времени». Это может быть и день, и неделя, и год. Очевидно, о пространственной выборке имеет смысл говорить в том случае, если все наблюдения получены примерно в неизменных условиях, т. е. представляют собой набор независимых выборочных данных из некоторой генеральной совокупности.
Таким образом, мы будем называть пространственной выборкой серию из п независимых наблюдений (/?+1)-мерной случайной величины (Х,...,Хр; Y). (При этом в дальнейшем можно не рассматривать Xj как случайные величины.) В этом случае различные случайные величины I/ оказываются между собой независимыми, что влечет за собой некоррелированность их возмущений, т. е.
г(е/, Sj) = 0 при / =у, (1.4)
где г (є„ sj) — коэффициент корреляции между возмущениями Є/
ИЄу.
Условие (1.4) существенно упрощает модель и ее статистический анализ.
Как определить, является ли выборка серией независимых наблюдений? — На этот вопрос нет однозначного ответа. Формальное определение независимости случайных величин, как правило, оказывается реально непроверяемым. Обычно за независимые принимаются величины, не связанные причинно. Однако на практике далеко не всегда вопрос о независимости оказывается бесспорным.
Вернемся к примеру о продаже машины (см. § 1.1).
Пусть Y — цена машины, X — год выпуска, а (х9 у),..., (хп-> Уп) ~ серия данных, полученная из газеты «Из рук в руки». Можно ли считать эти наблюдения независимыми?
Различные продавцы не знакомы между собой, они дают свои объявления независимо друг от друга, так что предположение о независимости наблюдений выглядит вполне разумно. С другой стороны, человек, назначающий цену за свой автомобиль, руководствуется ценами предыдущих объявлений, так что и возражение против независимости наблюдений также имеет право на существование.
Из этого можно сделать вывод, что решение о пространственном характере выборки в известной степени субъективно и связано с условиями используемой модели. Впрочем, то же самое можно сказать о многих предположениях, которые делаются в математической статистике и особенно ее приложениях.
Итак, эконометрическая модель, построенная на основе пространственной выборки экспериментальных данных (xh у), имеет вид:
У і =/(*/) + еі> ' = І,-, п, (1.5)
где ошибки регрессии удовлетворяют условиям
М(є,) = 0, (1.6)
г(є/?є7) = 0, (1.7)
Жє,) = а?. (1.8)
Что касается условия (1.8), то здесь возможны два случая:
а) cj = а2при всех / и j. Свойство постоянства дисперсий
ошибок регрессии называется гомоскедастичностъю. В этом случае распределения случайных величин Y( отличаются только значением математического ожидания (объясненной части);
б) gJ Ф о];. В этом случае имеет место гетероскедастичностъ
модели. Гетероскедастичность «портит» многие результаты статистического анализа и, как правило, требует устранения. (Подробнее об этом см. в гл. 7.)
Как определить, является ли изучаемая модель гомоили ге-тероскедастичной? — В некоторых случаях это достаточно очевидно. Например, цена автомобиля, которому пятнадцать лет, вряд ли может подняться выше 2000 у.е., так что стандартная ошибка цены в этом случае вряд ли может быть больше, чем 300—400 у.е. Между тем автомобиль, которому два года, может стоить и 7000, и 17 000 у.е., т.е. стандартная ошибка заведомо не меньше 1500—2000 у.е.
Однако во многих случаях гетероскедастичность модели далеко не столь очевидна, и требуется применение методов математической статистики для принятия решения о том, какой тип модели будет рассматриваться.
Временной (динамический) ряд (time-series data). Временным (динамическим) рядом называется выборка наблюдений, в которой важны не только сами наблюдаемые значения случайных величин, но и порядок их следования друг за другом. Чаще всего упорядоченность обусловлена тем, что экспериментальные данные представляют собой серию наблюдений одной и той же случайной величины в последовательные моменты времени. В этом случае динамический ряд называется временным рядом. При этом предполагается, что тип распределения наблюдаемой случайной величины остается одним и тем же (например, нормальным), но параметры его меняются в зависимости от времени.
Модели временных рядов, как правило, оказываются сложнее моделей пространственной выборки, так как наблюдения в случае временного ряда вообще говоря не являются независимыми, а это значит, что ошибки регрессии могут коррелировать друг с другом, т. е. условие (1.4) вообще говоря не выполняется. В последующих главах мы увидим, что невыполнение условия (1.4) значительно усложняет статистический анализ модели.
Следует особенно отметить, что имея только ряд наблюдений без понимания их природы, невозможно определить, имеем мы дело с пространственной выборкой или временным рядом. Пусть, например, имеется 500 пар чисел (х, у),...9 (*500> Увоо), где Y — цена автомобиля, а X — год выпуска. Данные взяты из газеты «Из рук в руки». Возможны следующие варианты:
1) п газет было упорядочено по дате их выпуска, и из каждой газеты было выбрано (случайным образом) по одному объявлению. — В этом случае мы, очевидно, можем считать, что имеем дело с временным рядом; 2) газеты были произвольным образом перемешаны, и невзирая на дату выпуска случайным образом было отобрано п объявлений. — В этом случае мы, скорее всего, можем считать, что наша выборка — пространственная. При этом, вообще говоря, возможно, что в обоих случаях мы получим один и тот же набор числовых данных. Более того, теоретически возможно даже и то, что они окажутся в той же последовательности! Однако во втором случае мы должны постулировать некоррелированность ошибок регрессии (выполнение условия (1.4)), между тем как в первом случае подобная предпосылка может оказаться неправомерной.
Обсуждение Эконометрика
Комментарии, рецензии и отзывы