5.4. свойства коэффициентов множественной регрессии
5.4. свойства коэффициентов множественной регрессии
Как и в случае парного регрессионного анализа, коэффициенты регрессии должны рассматриваться как случайные переменные специального вида, случайные компоненты которых обусловлены наличием в модели случайного члена. Каждый коэффициент регрессии вычисляется как функция значений у и независимых переменных в выборке, а у в свою очередь определяется независимыми переменными и случайным членом. Отсюда следует, что коэффициенты регрессии действительно определяются значениями независимых переменных и случайным членом, а их свойства существенно зависят от свойств последнего.
Мы продолжаем считать, что выполняются условия Гаусса—Маркова, а именно: 1) математическое ожидание и в любом наблюдении равно нулю; 2) теоретическая дисперсия его распределения одинакова для всех наблюдений; 3) теоретическая ковариация его значений в любых двух наблюдениях равняется нулю; 4) распределение и независимо от распределения любой объясняющей переменной. Первые три условия идентичны условиям для парного регрессионного анализа, а четвертое условие является обобщением своего аналога. На данный момент мы примем усиленный вариант четвертого условия, допустив, что независимые переменные являются нестохастическими.
т Речь идет о доле труда в США. {Прим. ред.)
Существуют еще два практических требования. Во-первых, нужно иметь достаточное количество данных для проведения линии регрессии, что означает наличие стольких (независимых) наблюдений, сколько параметров необходимо оценить. Во-вторых, как мы увидим далее в этом разделе, между независимыми переменными не должно существовать строгой линейной зависимости.
Несмещенность
Мы покажем, что Ьх является несмещенной оценкой р, для случая с двумя объясняющими переменными. Доказательство можно легко обобщить, используя матричную алгебру для любого числа объясняющих переменных. Как видно из уравнения (5.12), величина Ьх является функцией от х{9 х2 и у в свою очередь у определяется пох,, х2 и и. Следовательно, величина Ьх фактически зави-хит от значений xv х2 и и в выборке (поняв суть преобразований, можно опустить детали математических выкладок):
= Соу(х1,у)Уаг(х2)-Соу(х2?у)Соу(х1,х2) = Var(x1)Var(x2)-{Cov(x1,x2)}2
= 1{Соу(х!,{а + pjXj + р2х2 + w})Var(x2) -А
-Cov(x2, {а + PiX! + р2х2 + u})Cqv(xi, х2)} =
= I №{Уаг(х{) + 02Cov(x,, х2 ) + Соу(х{ , u)]Var(x2 ) -А
4PiCov(xlf х2) + р2 Var(x2) + Cov(x2, it)]Cov(xb х2)} =
= 1 {PjA + Cov(xlf w)Var(x2) Cov(x2, u)Cow(xb x2)} = A
= Pj +i{Q)v(x1,w)Var(x2)-Cov(x2,w)Cov(x1,x2)}, (5.33)
где А равно Var (x{) Var (x2) — {Cov (xv x2)}2. Отсюда величина b{ имеет две составляющие: истинное значение Р, и составляющую ошибки. Перейдя к математическому ожиданию, получим:
= Pi + 4" (Var(x2 )£[Cov(x19m)]-Cov(xx,x2)E[Cov(x2,u)]} = ft, (5.34) A
при допущении, что выполняется четвертое условие Гаусса—Маркова.
Точность коэффициентов множественной регрессии
В теореме Гаусса—Маркова для множественного регрессионного анализа доказывается, что, как и для парной регрессии, обычный метод наименьших квадратов (МНК) дает наиболее эффективные линейные оценки в том смысле, что на основе той же самой выборочной информации невозможно найти другие несмещенные оценки с меньшими дисперсиями при выполнении условий Гаусса—Маркова. Мы не будем доказывать эту теорему, но исследуем факторы, регулирующие возможную точность коэффициентов регрессии. В общем случае можно сказать, что коэффициенты регрессии, скорее всего, являются более точными:
чем больше число наблюдений в выборке;
чем больше дисперсия выборки объясняющих переменных;
чем меньше теоретическая дисперсия случайного члена;
чем меньше связаны между собой объясняющие переменные.
Первые три из желательных условий повторяют то, на чем мы уже останавливались в случае парного регрессионного анализа. Лишь четвертое условие является новым. Сначала мы рассмотрим случай с двумя независимыми переменными и затем перейдем к более общему случаю.
Две независимых переменных
Если истинная зависимость имеет вид:
у = а + р^ + р2х2 + и, (5.35)
и вы получили уравнение регрессии
у = a + Ьххх + (5.36)
использовав необходимые данные, то теоретическая дисперсия вероятностного распределения для Ьх будет описываться выражением:
P0P™W = l^)XTZ^> (5-37)
где с2 — теоретическая дисперсия величины и. Аналогичное выражение можно получить для теоретической дисперсии величины Ь2, заменив Var (хх) на Var (х2).
Из уравнения (5.37) можно видеть, что, как и в случае парного регрессионного анализа, желательно, чтобы величины п и Var (хх) были большими, а величина с 2 — малой. Однако теперь мы получили еще и член (1 ), и вполне очевидно, что желательно иметь слабую корреляцию между х{ и х2.
Этому легко дать интуитивное объяснение. Предположим, что истинная зависимость имеет вид:
у = 2 + 3х, +х2 + ы. (5.38)
Предположим, что между хх и х2 существует нестрогая линейная зависимость:
х2 = 2х,-1, (5.39)
и допустим, что величина хх увеличивается на одну единицу в каждом наблюдении. Тогда х2 увеличится на две единицы, а у — на пять единиц, как показано, например, в табл. 5.2.
величина у определяется уравнением (5.38) (правильное утверждение);
величина х2 не имеет отношения к данному случаю, и величина у определяется зависимостью:
у = 1 + 5*! + и;
величина х{ не имеет отношения к данному случаю, и величина у определяется зависимостью:
у = 3,5 + 2,5х2 + w.
В действительности этими возможностями дело не ограничивается. Любая зависимость, которая является средним взвешенным условий (2) и (3), также будет соответствовать описанным данным. Условие (1) можно рассматривать как среднее взвешенное условий (2) с коэффициентом 0,6 и (3) с коэффициентом 0,4.
При использовании регрессионного анализа или любого другого метода применительно к данному случаю трудно провести различие между этими возможностями, и полученные оценки будут очень чувствительными по отношению к случайному члену и могут содержать значительные ошибки. Дисперсии коэффициентов регрессии будут большими, что, очевидно, является другим способом выражения того же самого.
Если истинная зависимость (5.39) была строгой, то при оценивании представляется совершенно невозможным провести различие между всеми вероятными зависимостями, поскольку каждая из них будет одинаково хорошо соответствовать данным. Вы даже не сможете вычислить коэффициенты регрессии, так как и числитель и знаменатель уравнения (5.12) будут равны нулю.
Если между х{ и х2 существует нестрогая линейная зависимость, то коэффициент корреляции rX{iX2 будет близким к единице, если зависимость положительна, и к минус единице, если зависимость отрицательна, и в обоих случаях г* >JC2 будет близким к единице. В результате знаменатель второго члена в уравнении (5.37) будет близок к нулю, а теоретические дисперсии Ь{ и Ъ2 будут большими числами. В предельном случае наличия строгой линейной зависимости дисперсии будут стремиться к бесконечности.
Отметим, что отсюда не следует автоматически, что величины Ьх и Ь2 будут иметь большие теоретические дисперсии, если между х, их2 существует нестрогая линейная зависимость. Дисперсии зависят также от л и а2, как и в случае парного регрессионного анализа. Если п велико, а о2 — мало, то теоретические дисперсии Ьх и Ь2 могут быть небольшими, несмотря на нестрогую линейную зависимость. Если имеется большой объем информации (п велико), а случайный фактор является относительно незначимым (а2 мало), то все еще можно разграничить влияние хх и х2 на величину у.
Общий случай
Мы не будем выводить выражения для дисперсий коэффициентов регрессии в общем случае. Подобно выражениям для самих коэффициентов, их лучше всего рассчитывать с помощью матричной алгебры.
Вместо этого будет показан один важный момент на основе эксперимента по методу Монте-Карло. Согласно условию (4), желательно, чтобы независимые переменные не были тесно связаны. Чтобы исследовать это, оценим множественную регрессию три раза. Во-первых, если независимые переменные не слишком тесно связаны, то результаты оценивания регрессии будут надежными. Во-вторых, при более тесной зависимости между переменными результаты регрессии будут содержать ошибки. И в-третьих, при той же самой тесной корреляции между независимыми переменными, но при меньшей дисперсии случайного члена результаты оценивания регрессии значительно улучшаются.
Это показывает, что тесная корреляция между независимыми переменными может привести к неудовлетворительным результатам, но это не происходит автоматически. Это зависит также от дисперсии случайного члена.
Предположим, что заработная плата у в некоторой стране определяется числом лет обучения (5), стажем работы (X), возрастом (А), а также случаем. Базовая заработная плата составляет 10000, к которым добавляется 1500 за каждый год обучения сверх минимальных 10 лет, 500 — за каждый год работы и 25 — за каждый прожитый год. Кроме того, существует случайный фактор и:
у = 10 000 + 1500 (5 10) + 500* +25А + и. (5.40)
В результате упрощения это уравнение проводится к виду:
у = -5000 + 1500S + 500*+ 25А + и. (5.41)
Первые четыре колонки табл. 5.3 представляют данйые воображаемой выборки из 20 индивидов. Цифры для срока обучения, стажа работы и возраста были взяты произвольно. Значения и определялись на основе выборки из 20 нормально распределенных случайных чисел с нулевым математическим ожиданиєм и единичной дисперсией, которые умножались на 2000. Полученные в результате из уравнения (5.41) значения у показаны в пятой колонке табл. 5.3. Допустив, что обучение начинается с 6 лет, можно получить неравенство:
В табл. 5.3 показана величина (А S— 5), и можно видеть, что данные для X соответствуют ей, но зависимость между A, S и X является довольно слабой. Многие из индивидов, вполне очевидно, посвящают часть своего трудоспособного возраста другим занятиям.
Оценив регрессию между у, S, ХиА, получаем следующий результат:
у = -4063+ 14095+ 481Х + 50А. (5.43) (со.) (4140) (280) (175) (88)
Эксперимент был повторен с теми же данными для S и А и такими же значениями и, но с другим набором данных для Х> который значительно лучше согласован с показателем (А — 5— 5). Эти данные обозначены в табл. 5.3 как*', а результирующие значения у обозначены как у Так как наше неравенство сейчас в каждом случае почти превращается в равенство, то можно наблюдать нестрогую линейную зависимость между независимыми переменными. Оценивая регрессию между^', S, Х'иА, теперь получаем:
j>= -7524 + 7815-207JT + 664A (5.44) (со.) (4204) (529) (538) (476)
Результаты оценки регрессии теперь действительно весьма плохи.
Наконец, эксперимент был повторен еще раз при сохранении тех же самых значений S, А и но с получением значений и путем умножения случайных чисел на 200 вместо 2000. Результирующие значения у показаны в табл. 5.3 как у". Оценивая регрессию между у", S, X' и А, получаем:
у = -5252 + 14285+ 429* + 89Л. (5.45) (со.) (420) (53) (54) (48)
За исключением коэффициента при А, эти результаты являются вполне удовлетворительными, несмотря на существование нестрогой линейной зависимости между независимыми переменными.
Конечно, нельзя придавать слишком большое значение результатам единственного набора экспериментов. Каждый из трех вариантов расчетов был выполнен еще 9 раз с использованием тех же данных для S, А, ХкХ но при различных наборах случайных чисел для получения величины и. Результаты экспериментов обобщаются в табл. 5.4.
Таблица 5.4 | ||||||||||||
Первый вариант (слабая связь) | Второй вариант (тесная связь) | Третий вариант (тесная связь, низкий af) | ||||||||||
Постоянная | 5 | * | А | Постоянная | S | * | А | Постоянная | S | * | А | |
1 | -4063 | 1409 | 481 | 50 | -7524 | 781 | -207 | 664 | -5252 | 1428 | 429 | 89 |
2 | -4905 | 1560 | 508 | 3 | -8093 | 892 | -218 | 636 | -5309 | 1439 | 428 | 86 |
3 | -9718 | 1812 | 597 | 33 | -3147 | 2790 | 1684 | -971 | -4815 | 1629 | 618 | -75 |
4 | 2584 | 935 | 347 | 53 | 3947 | 1744 | 1193 | -609 | -4105 | 1524 | 569 | -38 |
5 | -3754 | 1485 | 334 | 43 | -4106 | 1998 | 854 | -327 | -4911 | 1550 | 535 | -10 |
6 | -7628 | 1591 | 637 | 15 | -2595 | 2051 | 1168 | -522 | -4759 | 1555 | 567 | -30 |
7 | -8812 | 1712 | 754 | -8 | -4986 | 1590 | 679 | -74 | -4999 | 1509 | 518 | 15 |
8 | -7760 | 1791 | 636 | -26 | -3701 | 2128 | 1034 | -446 | -4870 | 1563 | 553 | -22 |
9 | -1326 | 1281 | 533 | 3 | -722 | 1288 | 547 | -27 | -4572 | 1479 | 509 | 20 |
10 | -8910 | 1847 | 835 | -107 | -7361 | 985 | -28 | 476 | -5236 | 1449 | 447 | 70 |
При рассмотрении табл. 5.4 мы сосредоточим внимание на коэффициентах при SnX. Коэффициент при А и постоянная считаются ненадежными в любом случае: коэффициент при А потому, что его истинное значение близко к нулю, а постоянная потому, что точка, определяемая условиями «5*= 0, ^=0, А = 0, весьма удалена от диапазона выборки.
В первом варианте коэффициенты при S и X находятся в целом в нужном диапазоне. Во втором варианте они безнадежно неточны, а в третьем — они весьма хороши. Результаты экспериментов обобщаются в табл. 5.5.
Отметим, что здесь не наблюдается смещения, характеризуемого тенденцией коэффициентов систематически оказываться выше или ниже их истинных значений, даже во втором варианте, где результаты весьма неточны. Во втором варианте средние значения коэффициентов при S и ^соответственно составили 1624 и 671, что не так далеко от истинных значений.
Стандартные ошибки коэффициентов регрессии
Стандартная ошибка коэффициента множественной регрессии имеет такой же смысл, как и в парном регрессионном анализе, в том плане, что она является оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения (см. раздел 3.5). Как и в парном регрессионном анализе, формула для стандартной ошибки может быть выведена на основе выражения дисперсии распределения, замены с2 на несмещенную оценку и извлечения квадратного корня. Как и прежде, значимость выражения, полученного таким образом, зависит от правильной спецификации модели и выполнения условий Гаусса—Маркова для случайного члена.
Таблица 5.5 | ||
Дисперсия | Линейная зависимость между независимыми переменными | |
случайного члена | Слабая зависимость | Тесная зависимость |
Низкая | Надежная | Приемлемая |
Высокая | Приемлемая | Ненадежная |
Например, если имеются только две независимые переменные, то теоретическая дисперсия коэффициента регрессии Ь{ выражается уравнением (5.37). Можно показать, что в этом случае несмещенная оценка величины а] может быть получена путем умножения величины Var (е), представляющей собой выборочную дисперсию остатков, на п/(п -3). Следовательно,
cofM- J« х 1 - (*/"~3)Var(g) 1
Var(g) x 1
Іп-ЗУахіхО* 1-й " (5-46)
I *1>*2
Соответствующее выражение для стандартной ошибки Ь2 можно получить путем перестановки индексов.
Когда имеется более двух независимых переменных, намного удобнее выразить стандартные ошибки, так же как и сами коэффициенты регрессии, с помощью матричной алгебры.
В начале этого раздела были сформулированы четыре условия, выполнение которых позволяет получать достаточно надежные оценки коэффициентов регрессии, при этом третье и четвертое условия исследовались непосредственно на основе экспериментов по методу Монте-Карло. Каждое условие отражено в выражениях для дисперсий коэффициентов регрессии, представленных в уравнении (5.37), и каждое в свою очередь отражено в соотношении (5.46).
В частности, тесная линейная связь между двумя объясняющими переменными приведет к получению значения , близкого к единице, а следовательно, стандартные ошибки (при прочих равных условиях) будут относительно большими, что отражает вероятную неточность коэффициентов регрессии, что мы уже наблюдали ранее. Например, можно заметить, что стандартные ошибки в уравнении (5.44), где наблюдалась тесная линейная связь между S, X' и А, намного больше, чем стандартные ошибки в уравнении (5.43), где эта связь была слабой.
Кроме того, целесообразно сравнить стандартные ошибки в уравнениях (5.44) и (5.45). В первом из них величина и получалась путем умножения случайных чисел на 2000. Во втором — эти числа умножались на 200. В результате оценки регрессии в уравнении (5.45) были намного точнее, о чем свидетельствуют их гораздо меньшие ошибки. Коэффициенты регрессии оказались в 10 раз точнее (если рассмотреть различие между оценкой и истинным значением), а стандартные ошибки составили лишь 1/ю прежнего размера.
t-тесты и доверительные интервалы
f-тесты для коэффициентов множественной регрессии выполняются так же, как это делается в парном регрессионном анализе. Отметим, что критический уровень t при любом уровне значимости зависит от числа степеней свободы, которое равно (п — к — 1): число наблюдений минус число оцененных параметров (один коэффициент для каждой независимой переменной и постоянный член). Доверительные интервалы определяются точно так же, как и в парном регрессионном анализе, в соответствии с указанным примечанием относительно числа степеней свободы.
Упражнения
5.7. Линейная и логарифмическая регрессии (упражнения 5.2 и 5.5) между расходами на жилищные услуги, располагаемым личным доходом и относительной ценой этих услуг имели вид (в скобках указаны стандартные ошибки):
j>= -43,4 + 0,181x-0,137p; R2 = 0,99; (48,4) (0,009) (0,421)
log у = -1,60 + 1,18 log x 0,34 logp R2 = 0,99. (1,75) (0,05) (0,31)
Выполните соответствующие f-тесты и сформулируйте ваши выводы.
Выполните аналогичные /-тесты для коэффициентов линейной и логарифмической регрессий, оцененных в упражнениях 5.3 и 5.6.
Отметим, что первая часть уравнения (5.46) может быть переписана в виде:
с.о.(йі)= *" 1
Используя это выражение, объясните вариации в стандартных ошибках оценок эластичности расходов по цене в логарифмических регрессиях для расходов на питание, жилье, лекарства и отдых (в каждом случае независимыми переменными служили доход и соответствующий индекс цен).
S и | ^Var(log р) | ^ log х, log р | Со. ценовой эластичности | |
Питание | 0,018 | 0,056 | 0,85 | 0,121 |
Жилье | 0,031 | 0,043 | -0,89 | 0,314 |
Лекарства | 0,037 | 0,155 | -0,96 | 0,160 |
Отдых | 0,037 | 0,060 | -0,27 | 0,128 |
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы