2.8. мультиколлинеарность

2.8. мультиколлинеарность: Путеводитель по современной эконометрике, Вербик Марно, 2008 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Марно Вербик (Marno Verbeek) — профессор эконометрики в Центре экономических исследований Лёвенского университета (Бельгия). Работает также в Центре экономических исследований Тилбургского университета (Голландия).

2.8. мультиколлинеарность

В общем, нет ничего неправильного в том, что в модель включаются коррелированые объясняющие переменные. Например, в уравнение заработной платы, мы можем включить переменные возраста и опыта работы, хотя можно ожидать, что пожилые люди, в среднем, имеют больше опыта работы. Однако, если корреляция между двумя переменными слишком высока, это может привести к проблемам. Технически, проблема состоит в том, что матрица XіX близка к вырожденной, не обратимой матрице. Это может привести к ненадежным оценкам параметров с высокими стандартными ошибками и с неожиданными знаками или величинами. Проблема также понятна интуитивно. Если возраст и опыт работы высоко коррелированны, то, по-видимому, трудно идентифицировать индивидуальные воздействия этих двух переменных модели, что мы в точности пытаемся сделать. В таком случае большое количество наблюдений с достаточно большой вариацией, как в возрасте, так и в опыте работы может помочь нам получить осмысленные результаты. Если дело обстоит не так, и мы действительно получаем неудовлетворительные оценки (например, і-критерии показывают, что ни возраст, ни опыт работы индивидуально не значимы), то мы можем только заключить, что в выборке содержится недостаточная информация, чтобы идентифицировать интересующие нас эффекты. В уравнении заработной платы мы попробуем идентифицировать эффект возраста, удерживая опыт работы и другие включенные переменные постоянными, а так же идентифицировать эффект опыта работы, удерживая возраст и другие переменные постоянными (при условии ceteris paribus (при прочих равных условиях)). Ясно, что, в крайнем случае, люди с одним и тем же возрастом имели бы один и тот же уровень опыта работы, и мы были бы не в состоянии идентифицировать эти эффекты. В случае, когда возраст и опыт работы высоко коррелированны, но не полностью, оцененные эффекты, возможно, будут очень неточными.

Вообще, термин мультиколлинеарность используется для описания проблемы, когда существует приближенное линейное соотношение между объясняющими переменными, приводящее к ненадежным оценкам регрессии. Это приближенное соотношение не ограничивается двумя объясняющими переменными, а может включать больше или даже все регрессоры. Например, в уравнении заработной платы проблема может осложниться, если мы включаем переменную времени обучения дополнительно к переменным возраста и опыта работы. В крайнем случае, одна объясняющая переменная в точности является линейной комбинацией одной или более других объясняющих переменных (включая свободный член). Такой случай обычно называется точной мультиколлинеарностью*^, случай в котором МНК-оценки определяются неоднозначно из условий первого порядка проблемы наименьших квадратов (матрица Xі X является необратимой).

Применение слишком многих манекенов (фиктивных переменных, которые могут принимать только два значения, нуль или единица) является типичной причиной точной мультиколлинеарности. Рассмотрим случай, в котором мы хотели бы включить манекен для мужчин (malei), манекен для женщин (femalei), а так же константу. Поскольку malei + femalei = 1 для каждого наблюдения (и как константа включается единица), то матрица X'X становится вырожденной. Проблема точной мультиколлинеарности легко решается с помощью исключения из модели одной из переменных и оценивания модели с включением либо malei и константы, либо femalei и константы, либо обеих переменных как malei, так и femalei, но без константы. Последний подход не рекомендуется, потому что стандартное программное обеспечение имеет тенденцию вычислять статистики, подобные R2 и F-статистике, разными способами, если исключена константа; см. пример в следующем разделе. В этом контексте другим полезным примером точной мультиколлинеарности является включение переменных возраста, времени обучения (в годах) и

Используется также термин «чистой» или «полной» мультиколлинеарности (примеч. научн. ред. перевода).

потенциального опыта, определяемого как возраст минус время обучения минус шесть. Ясно, что это приводит к вырожденной матрице, если константа включена в модель (см. пример в разделе 5.4).

Чтобы проиллюстрировать эффект влияния мультиколлинеар-ности на МНК-оценки более подробно, рассмотрим следующий пример. Пусть оценивается следующая модель регрессии

Уг = РіХц + t32Xi2 +Єі,

где предполагается, что выборочные средние у = Х = х2 = 0 23 Кроме того, предположим, что выборочные дисперсии хц и Хі2 равны 1, в то время как выборочная ковариация (коэффициент корреляции) равен г 12. Тогда, дисперсию МНК-оценки можно написать как

Ясно, что дисперсии как Ъ, так и &2 увеличиваются, если увеличивается абсолютное значение коэффициента корреляции между и Х2 24^. Благодаря возрастанию дисперсии МНК-оценки t-статистики будут уменьшаться. Если хц и Х{2 будут показывать сильную положительную корреляцию {г 12 > 0), то оценки Ъ и 62 будут коррелированны отрицательно.

Другое последствие мультиколлинеарности состоит в том, что некоторые линейные комбинации параметров оцениваются довольно точно, в то время как остальные линейные комбинации оцениваются очень неточно. Обычно, когда регрессоры коррелированны положительно, сумма коэффициентов регрессии может определяться довольно точно, в то время как разность коэффициентов регрессии определяться точно не может. В вышеупомянутом примере для дисперсии суммы Ь + 62 мы имеем

v-{6l+w = J^L(2_2ri2) = 2^

23) Этого можно достичь вычитанием своего выборочного среднего из всех

переменных. В этом случае постоянный член не требуется, потому что МНКоценка свободного члена будет равна нулю.

24) Заметим, что это также справедливо, если истинное значение одного из

коэффициентов регрессии равно нулю. Таким образом, включение в модель

регрессоров, не являющихся необходимыми, снижает точность МНК-оценки

для других коэффициентов (см. главу 3).

12 1 + Г12

в то время как для дисперсии разности Ъ — &2 мы имеем

1-42 1 Г12

Поэтому, если г 12 близко к 1, то дисперсия Ъ — 62 на много раз выше, чем дисперсия Ъ + Например, если т2 = 0,95, то отношение этих двух дисперсий равно 39. Важное следствие состоит в том, что на результаты прогнозирования, в частности на точность прогнозирования мультиколлинеарность как правило оказывает малое влияние. Это отражает тот факт, что «суммарное влияние» всех объясняющих переменных определяется точно.

В итоге высокие корреляции между объясняющими переменными (или их линейными комбинациями) могут привести к проблеме мультиколлинеарности. Если такое случится, то один или более интересующих нас параметров будет оцениваться очень неточно. По существу, это означает, что наша выборка не обеспечивает достаточную информацию об этих параметрах. Чтобы ослабить проблему, мы вынуждены использовать больше информации, например, с помощью наложения некоторых априорных ограничений на вектор параметров. Обычно это означает, что одна или более объясняющих переменных исключаются из модели. Другое решение, которое, как правило, не практично, состоит в том, чтобы увеличить объем выборки. Как пояснялось на вышеприведенном примере, при увеличении объема выборки все дисперсии уменьшаются. Обширный и критический обзор проблемы мультиколлинеарности и (не) пригодности некоторых механических процедур ее решения представлен у Мад-дала (Maddala, 1992, Chapter 7)*}.

2.8.1. Пример: индивидуальная заработная плата (продолжение)

Возвратимся к простому уравнению заработной платы раздела 2.3.3. Как объяснялось выше, включение манекена для женщин в модель вызвало бы точную мультиколлинеарность. Интуитивно также очевидно, что одна фиктивная переменная и константа являются

Более подробный анализ способов борьбы с «мультиколлинеарностью», включающий в себя возможность перехода к другим методам оценивания, читатель найдет, например, в (Айвазян, Енюков, Мешалкин, 1985) или в (Айвазян, 2001) (примеч. научн. ред. перевода).

достаточными для описания только двух разных групп молодых работников. Выбор включения манекена для мужчин или женщин произволен. Включение двух фиктивных переменных (манекенов) для каждого наблюдения не подразумевает мультиколлинеарность, если модель не содержит свободного члена. Следовательно, при исключении свободного члена, возможно, включить оба манекена. Чтобы проиллюстрировать последствия этих альтернативных выборов, рассмотрим результаты оценивания в таблице 2.6.

Так как спецификация В не включает свободный член, то она характеризуется нецентрированным R2 (см. (2.43)), чем и объясняется его высокое значение. Как и прежде коэффициент регрессии при манекене для мужчин в спецификации А обозначает ожидаемую разность заработной платы между мужчинами и женщинами. Точно так же коэффициент регрессии при манекене для женщин в спецификации Б обозначает ожидаемую разность заработной платы между женщинами и мужчинами. Однако для спецификации В коэффициенты регрессии при манекенах для мужчин и женщин отражают ожидаемую заработную плату для мужчин и женщин соответственно. Ясно, что все три спецификации являются эквивалентными, несмотря на то, что их параметризация несколько отличается.

2.9. Прогнозирование

Работа экономиста не заканчивается после получения оценок коэффициентов регрессии и соответствующих стандартных ошибок.

Следующий шаг состоит в интерпретации результатов и применении модели для достижения поставленных целей. Одна из таких целей, особенно для данных временного ряда, заключается в прогнозировании. В этом разделе мы рассмотрим прогнозирование, применяя модель регрессии, то есть, мы хотим получить прогнозное значение для зависимой переменной при заданном значении объясняющих переменных xq . При условии, что модель предполагается справедливой для всех потенциальных наблюдений, также справедливо, что

уо = х'0Р + є0,

где є о удовлетворяет таким же свойствам, как и все другие регрессионные остатки. Очевидный прогноз для у о есть уо = xf0b*K Так как Е{Ь} = /3, то легко проверить, что этот прогноз является несмещенным прогнозом, то есть25 Е{уо — уо} — 0. Согласно предположениям (А1)-(А4), дисперсия прогноза задается как

V{y0} = V{x'0b} = x'0V{b}x0 = а2х'0{Х'Х)-1х0. (2.81)

Однако эта дисперсия является только показателем вариации в прогнозе при извлечении различных выборок, то есть показателем вариации в прогнозе обусловленной вариацией Ъ. Чтобы проанализировать, насколько точен прогноз, нам требуется дисперсия ошибки прогноза. Ошибка прогноза определяется в виде

Уо-Уо = х'о0 + є0х'0Ъ = є0х'0(Ъ /3). (2.82)

Ошибка прогноза имеет дисперсию

Необходимо обратить внимание читателя на тот факт, что все нижеследующие рекомендации и формулы данного параграфа верны только для случая гомоскедастичных и взаимнонекоррелированных регрессионных остатков, т.е. при соблюдении условий (А3)-(А4). Если остатки автокоррелированны, то наилучший прогноз в точке хо не будет равен Ждб, а в случае гетерос-кедастичности остатков «не работают» формулы (2.83) и (2.84). Описание техники прогнозирования в этих более общих случаях читатель может найти, например, в (Айвазян, 2001) (примеч. научн. ред. перевода). В этом математическом ожидании как §Ь> так и уо рассматриваются как случайные переменные.

V{yo ~ Уо} = <т2+ ^x'oiX'X^xo (2.83)

при условии возможности предположения, что b и So являются некоррелированными. Такое предположение обычно не является проблемой, потому что во не используется при оценивании (3. В простой модели регрессии (с одной объясняющей переменной Хі) вышеприведенное выражение можно переписать в виде (см. (Maddala, 1992, Section 3.7))

Следовательно, чем дальше значение #0 от выборочного среднего х, тем больше дисперсия ошибки прогноза. Это — осмысленный результат: если мы хотим спрогнозировать у для значений ж, сильно удаленных от выборочного среднего х, то не можем ожидать, что прогноз у будет очень точным. Наконец мы можем вычислить так называемый интервал прогноза. 95\%-ый интервал прогноза для Уо задается в виде

x'ob-lflesy/l + x'oiX'Xyixo, x'0b + 1,96^1 + х'^Х'Х)-^ ],

(2.84)

где как прежде 1,96 является критическим значением стандартного нормального распределения. Можно сказать, что с 95\%-ой вероятностью этот интервал содержит истинное ненаблюдаемое значение уо.

Поскольку одной из важных целей динамических моделей является прогнозирование, то мы возвратимся к проблеме предсказания в главе 8.

Упражнения

Упражнение 2.1 (регрессия)

Рассмотрите следующую линейную модель регрессии: У і = /Зі + (32хі2 + (ЗзХіз + = х'і/3 + Єі.

а. Объясните, как определяется МНК-оценка для вектора неизвестных параметров (З и получите выражение для b.

б. Какие предположения необходимо сделать, чтобы b была несмещенной оценкой для вектора параметров (31

в. Объясните, как можно построить доверительный интервал для

параметра /З2. Какие дополнительные предположения необходимы?

г. Объясните, как можно протестировать гипотезу, что /З3 = 1.

д. Объясните, как можно протестировать гипотезу, что /З2+Р3 = 0.

е. Объяснить, как можно протестировать гипотезу, что /З2 = /?з = 0.

ж. Какие предположения необходимо сделать, чтобы b была состоятельной оценкой для вектора параметров /3?

з. Предположим, что Хі2 = 2 + З^гз. Что случится, если Вы попытаетесь оценить вышеупомянутую модель?

и. Предположим, что модель оценивается с включением х2 —

2хі2 — 2, а не Хі2 . Как коэффициенты в этой модели связанной

с коэффициентами в исходной модели? И как і?2-ты?

к. Предположим, что Хі2 = Хіз + щ, где щ и Хіз являются некор-релироваными. Предположим, что модель оценена с включением щ, а не Хі2. Как коэффициенты в этой модели связанной с коэффициентами в исходной модели? И как связаны і?2-ты?

Упражнение 2.2 (заработные платы работников)

Используя выборку 545 работников, занятых полный рабочий день в США, исследователь интересуется ответом на вопрос, недоплачивают ли систематически женщинам по сравнению с мужчинами. Сначала исследователь оценивает среднюю почасовую заработную плату в выборке мужчин и женщин, которая равняется 5,91 доллара и 5,09 доллара соответственно.

а. Дают ли ответ на интересующий нас вопрос эти числа? Почему

нет? Как можно было бы получить правильный (по крайней

мере, частично) ответ?

Исследователь также строит простую регрессию заработной платы работников с помощью фиктивной переменной, равной 1 для мужчин и 0 — для женщин. Это приводит к результатам, представленным в таблице 2.7.

б. Как Вы можете проинтерпретировать оценку коэффициента

0,82? Как Вы проинтерпретируете оценку свободного члена 5,09?

в. Как Вы проинтерпретируете R2 = 0,26?

г. Объясните соотношение между оценками коэффициентов в таблице и средними тарифными ставками заработной платы мужчин и женщин.

д. Студент расстроился из-за этой модели, поскольку альтернативная «женская» фиктивная переменная (равная 0 для мужчин и

1 — для женщин) исключена из модели. Прокомментируйте его

реакцию.

е. Используя вышеприведенные результаты, проверьте, нулевую

гипотезу, что мужчины и женщины в среднем имеют одну и

ту же тарифную ставку заработной платы, против односторонней альтернативной гипотезы, что женщины получают меньше.

Сформулируйте предположения, требуемые для обоснования

такой проверки.

ж. Постройте 95\%-ый доверительный интервал для средней разности заработной платы между мужчинами и женщинами в генеральной совокупности.

Впоследствии, модель была расширена так, что учитывала разницу в возрасте и в образовании рабочих, введением переменных age (возраст в годах) и educ (уровень образования от 1 до 5). Одновременно к эндогенной переменной было применено логарифмическое преобразование, и эндогенная переменная стала натуральным логарифмом почасовой тарифной ставки заработной платы. Результаты представлены в таблице 2.8.

з. Как вы проинтерпретируете коэффициенты регрессии 0,13 при

фиктивной переменной для мужчин и 0,09 при переменной

«возраст».

и. Протестируйте совместную гипотезу, что переменные пола, возраста и образования не влияют на заработную плату работников.

к. Студент остался недовольным этой моделью, так как «эффект образования довольно ограничен». Можете ли Вы объяснить его реакцию? Как модель можно расширить или изменить, чтобы противостоять его реакции? Как Вы можете протестировать, было ли полезно расширение модели?

Исследователь повторно оценивает вышеупомянутую модель, включая в качестве дополнительного регрессора переменную «возраст в квадрате» (age)2. Значение і-статистики для этой новой

2 —2

переменной равно —1,14, в то время как R = 0,699, a R возрастает до 0,683.

л. Могли бы Вы привести причину, почему включение переменной (age)2 может быть уместно?

м. Сохранили бы Вы эту новую переменную при данных значениях R2 и R ? Сохранили бы Вы переменную (age)2 при ее данном і-значении? Объясните это очевидное противоречие в выводах.

Упражнение 2.3 (оценивание активов — эмпирическое)

В современной литературе по финансам предполагается, что оценки активов очень хорошо описываются так называемой факторной моделью, в которой избыточные доходности линейно объясняются избыточными доходностями на некоторое количество «факторных портфелей». Как и в модели ценообразования финансовых активов (ЦФАМ) свободный член должен равняться нулю, точно так же как коэффициент регрессии для любой другой переменной, включенной в модель, значение которого известно заранее (например, фиктивная переменная января). Совокупность данных по активам содержит избыточные доходности на четыре факторных портфеля (см. Carhart, 1997) за период с июля 1963г. по октябрь 1993г.:

гт — избыточная доходность на взвешенно-стоимостные приближенные заменители рыночного портфеля;

г size — доходность на имитационно-факторный портфель с нулевой инвестицией для фактора «размер»; rbm — то же для акции «книги на рынок»; гтот — то же для однолетнего моментума ;.

Все данные взяты по США. Каждая из последних трех переменных обозначает разность в доходностях на две гипотетические портфельные акции. Каждый месяц эти портфели формируются вновь на основе последней доступной информации о размерах фирм, о стоимость акции «книги-на-рынок» и о предыстории доходностей соответственно. Например, г size отражает разность доходностей на портфель малых фирм и портфель больших фирм. Эти факторы мотивируются эмпирически найденными отклонениями модели оценки финансовых активов. Например, оказывается, что маленькие фирмы, имеют более высокие доходности, чем большие фирмы, даже после рисковой коррекции модели оценки финансовых активов.

В дополнение к избыточным доходностям на эти четыре фактора мы имеем наблюдения по доходам на десять различных «активов», которые являются десятью портфелями акций разных фирм, сохраняемых и пополняемых Центром исследования курсов ценных бумаг ("Center for Research in Security Prices"). Эти портфели составляются на основе размера фирм, что означает, что портфель 1 содержит 10\% самых малых фирм, зарегистрированных на Нью-Йоркской фондовой бирже, а портфель 10 содержит 10\% самых больших зарегистрированных фирм. Избыточные доходности (сверх безрисковой процентной ставки) на эти портфели обозначаются от rl до г10 соответственно.

В ответе на следующие вопросы используйте rl, г 10 и доходности на два дополнительных портфеля, которые Вы выбираете.

а. Постройте регрессии избыточных доходностей на ваши четыре

портфеля в зависимости от избыточной доходности на рыночный портфель (приближенный заменитель), обратив внимание,

что эта регрессия соответствует модели ценообразования финансовых активов. Включите константу в эти регрессии.

б. Дайте экономическую интерпретацию оцененных коэффициентов регрессии (3.

Моментум (momentum) (биржевая лексема) — технический индикатор, который измеряет величину изменения цены актива за определенный период (примеч. переводчика).

в. Дайте экономическую и статистическую интерпретацию R2.

г. Протестируйте нулевую гипотезу, что /Зj — 1 для каждого из

этих четырех портфелей. Сформулируйте предположения, которые Вы должны сделать для тестирования, чтобы оно было

(асимптотически) обоснованным.

д. Протестируйте обоснованность модели ценообразования финансовых активов, тестированием равенства нулю постоянных членов в этих четырех регрессиях.

е. Протестируйте наличие эффекта января в каждой из этих четырех регрессий.

ж. Затем оцените с помощью МНК четыре факторных модели Tjt = ay + fijirmt + pj2rsizet + (3j3rbmt + (3^rmomt + et.

Сравните результаты оценивания с результатами, полученными для однофакторной модели ЦФАМ. Обратите внимание на оцененные частные коэффициенты наклона и і?2-ты.

з. Протестируйте с помощью і^-критериев совместную гипотезу,

что коэффициенты для трех новых факторов одновременно

равны нулю.

и. Протестируйте обоснованность четырехфакторной модели, тестированием равенства нулю постоянных членов в этих четырех

регрессиях. Сравните ваши выводы с выводами, полученными

для модели ценообразования финансовых активов.

Путеводитель по современной эконометрике

Предмет: Экономика Автор: Вербик Марно Год издания: 2008 Язык учебника: русский Рейтинг:

Просмотров: 347

Обсуждение Путеводитель по современной эконометрике

Комментарии, рецензии и отзывы