3.4. основные положения регрессионного анализа. оценка параметров парной регрессионной модели. теорема гаусса—маркова
3.4. основные положения регрессионного анализа. оценка параметров парной регрессионной модели. теорема гаусса—маркова
Как отмечено в §3.2, рассматриваемая в регрессионном анализе зависимость Y от X может быть представлена в виде модельного уравнения регрессии (3.1).
В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения переменной Убудут в большей или меньшей мере отклоняться от функции регрессии (р(х). В этом
случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:
У = ф(х)+є,
где є — случайная переменная (случайный член), характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением (либо ошибкой)1. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция ср(Д) с точностью до случайного возмущения Є.
Рассмотрим линейный регрессионный анализ, для которого функции <р(х) линейна относительно оцениваемых параметров:
Мх(У) = Ро+М(3.21)
Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая п пар значений переменных (х/, у і), где /=1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:
J>,-=Po+Pi*,-+e,-. (3.22)
В литературе переменную є называют также остаточной или остатком.
60
Отметим основные предпосылки регрессионного анализа.
В модели (3.22) возмущение1 є/ (или зависимая переменная Уі) есть величина случайная, а объясняющая переменная X/ — величина неслучайная2.
Математическое ожидание возмущения є/ равно нулю:
M{zt)=Q (3.23)
(или математическое ожидание зависимой переменной Уі равно линейной функции регрессии: м(^) = ро + $xxt).
Дисперсия возмущения є/ (или зависимой переменной уі) постоянна для любого і:
Ж') = °2 (3.24)
(или D(yt) = o2) — условие гомоскедастичности или равноизмен-чивости возмущения (зависимой переменной)).
Возмущения є/ и є/ (или переменные уі и jj) коррелированы3:
м(є,єу)=0(/*/).. (3.25)
Возмущение є/ (или зависимая переменная >>/) ес/яб нормально распределенная случайная величина.
В этом случае модель (3.22) называется классической нормальной линейной регрессионной моделью (Classical Normal Linear Regression model).
Для получения уравнения регрессии достаточно предпосылок 1—4. Требование выполнения предпосылки 5 (т. е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров.
1 Во всех предпосылках /=1,2,..., п.
2 При этом предполагается, что среди значений jc;(/=1,2,...,л) не все одинаковые, так что имеет смысл формула (3.13) для коэффициента регрессии.
3 Требование некоррелированности Cov(e;, є/)=0 с учетом (2.30) и (3.23) приводит к условию (3.25): Covfe, є/)=Л/[(є,— 0)(єу0)] = М(є/ єу) = 0. При выполнении предпосылки 5 это требование равносильно независимости переменных є; и є, (Уі и yj)r
Оценкой модели (3.22) по выборке является уравнение регрессии y = b0 +Ьхх (3.3). Параметры этого уравнения и Ь определяются на основе метода наименьших квадратов. Об их нахождении подробно см. § 3.2.
Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии а2. Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия1.
п 2 П
s2=^ = (3.26)
п-2 п-2
где fa — групповая средняя, найденная по уравнению регрессии; еі = У і ~ У і — выборочная оценка возмущения2 є/ или остаток регрессии.
Напомним, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений п, а на число степеней свободы (degress of freedom) п — т, равное разности между числом независимых наблюдений случайной величины п и числом связей, ограничивающих свободу их изменения, т. е. число т уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (3.26) стоит число степеней свободы п — 2, так как две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений (3.5).
Возникает вопрос, являются ли оценки Ь$, Ь, ^параметров Ро, Pi о2 «наилучшими»? Ответ на этот вопрос дает следующая теорема.
Теорема Гаусса—Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1—4 (с. 61), то оценки bo (3.11), b (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (Best Linear Unbiased Estimator, или BLUE)?
1 Формула (3.26) при р — 1 является частным случаем формулы (4.21), доказанной ниже в § 4.4.
2 еі называют также невязкой.
3 Доказательство теоремы Гаусса—Маркова в общем виде приведено в § 4.4.
Таким образом, оценки bo и b в определенном смысле являются наиболее эффективными линейными оценками параметров р0 и pi.
До сих пор мы использовали оценки параметров, полученные методом наименьших квадратов. Рассмотрим еще один важный метод получения оценок, широко используемый в эконометрике, — метод максимального правдоподобия.
Метод максимального правдоподобия. Для его применения должен быть известен вид закона распределения вероятностей имеющихся выборочных данных.
Полагая выполнение предпосылки 5 (с. 61) регрессионного анализа, т. е. нормальную классическую регрессионную модель (3.22), будем рассматривать значения у і как независимые нормально распределенные случайные величины с математическим ожиданием М(у,)--ро+0!*,, являющимся функцией ОТ X/,
и постоянной дисперсией а2.
Следовательно, плотность нормально распределенной случайной величины у і
Функция правдоподобия, выражающая плотность вероятности совместного появления результатов выборки, имеет вид
іСк-Ро-Рі*/)2
, ч п [ ill
ЧУіХГ^,уп,хпф0,^{;о2) = 11'{ .-g і*2
(стл/2я )
Согласно методу максимального правдоподобия в качестве оценок параметров ро? Рі и принимаются такие значения Ро, и а2, которые максимизируют функцию правдоподобия L.
Очевидно, что при заданных значениях х, *2,.--> хп объясняющей переменной X и постоянной дисперсии а2 функция правдоподобия L достигает максимума, когда показатель степени при е будет минимальным по абсолютной величине, т. е. при условии минимума функции
1=1
что совпадает с условием (3.4) нахождения оценок bo и Ь методом наименьших квадратов. Следовательно, оценки bo (3.11) и Ь (3.13) параметров ро, pi совпадают с оценками метода максимального правдоподобия р0 и р,
Для нахождения оценки а2 максимального правдоподобия параметра а2, максимизирующей функцию Z, качественных соображений уже недостаточно, и необходимо прибегнуть к методам дифференциального исчисления. Приравняв частную производную -^^ = 0 (соответствующие выкладки предлагаем продет2
вести читателю самостоятельно), получим
1 - 2 ^}
62 =-ZU -*b -£л)2 = (3.27)
где параметры ро и pi заменены их оценками Ь$ и Ь. Сравнивая с полученной ранее несмещенной оценкой s2 (3.26), видим, что оценка а2 (3.27) метода максимального правдоподобия параметра а2 является смещенной.
В соответствии со свойствами оценок максимального правдоподобия оценки (Ь$, Ь)и а2 (а значит, и s2) являются состоятельными оценками. Можно показать, что при выполнении предпосылки 5 о нормальном законе распределения возмущения є, (/=1,..., п) эти оценки являются независимыми.
Обсуждение Эконометрика
Комментарии, рецензии и отзывы