Лекция № 16. модели бинарного выбора. метод максимума правдоподобия

Лекция № 16. модели бинарного выбора. метод максимума правдоподобия: Эконометрика.Конспект лекций, Ангелина Витальевна Яковлева, 2009 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Эконометрика — это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым экономическим явлениям и процессам.

Лекция № 16. модели бинарного выбора. метод максимума правдоподобия

В нормальной линейной регрессионной модели вида:

Рассмотренные бинарные переменные являются величинами дискретными. Бинарная непрерывная величина задается как:

зависимая переменная y является непрерывной величиной, которая может принимать любые значения. Существуют регрессионные зависимости, в которых переменная y должна принимать определенный узкий круг заранее заданных значений. Эти зависимости называются моделями бинарного выбора. Примерами такой переменной могут служить:

Прогнозные значения y !>Рогтз будут выходить за пределы интервала [0; +1], поэтому их нельзя будет интерпретировать.

Задачу регрессии можно сформулировать не как предсказание конкретных значений бинарной переменной, а как предсказание непрерывной переменной, значения которой заключаются в интервале [0; +1].

Для аппроксимации данной регрессионной зависимости необходимо подобрать кривую, которая отвечала бы следующим свойствам: Д—оо) = 0; Д+оо) = 1; при х1 > х2 — F(x1) > F(x2).

Указанным свойствам удовлетворяет функция распределения вероятности. С помощью данной функции парную регрессионную модель с зависимой бинарной переменной можно представить в виде:

prob (yі =1) = F (в, +в^,),

где prob(y. = 1) — это вероятность того, что зависимая переменная у;.примет значение, равное единице.

Достоинством применения функции распределения вероятности является то, что прогнозные значения упрогно3 будут лежать в пределах интервала [0; +1].

Модель бинарного выбора можно записать через скрытую (латентную) переменную:

yi* = Л + А х1і + --+ ЛХИ + ЄІ или в векторном виде:

y* = xT в + Єі,

где зависимая бинарная переменная yi принимает следующие значения в зависимости от латентной у/:

їй, У< 0.

Если предположить, что остатки регрессионной модели бинарного выбора єі являются случайными нормально распределенными величинами, а функция распределения вероятностей является нормальной вероятностной функцией, то модель бинарного выбора будет называться пробит-моделью или про-бит-регрессией (probit regression).

Пробит-регрессия может быть выражена уравнением вида:

NP (yt ) = NP (в +e1xb +^ + ekxki),

где NP — это нормальная вероятность (normal probability).

Если же предположить, что случайные остатки єі подчиняются логистическому закону распределения, то модель бинарного выбора называется логит-моделью или логит-регрессией (logit regression).

Логит-регрессию можно записать с помощью следующего уравнения:

Уі (1 + exp (в +e1xn+ ^

_ exp +e1xn +.-. + ekxki )

Основное достоинство данного уравнения заключается в том, что при любых значениях факторных переменных и регрессионных коэффициентов значения зависимой переменной yi будут всегда лежать в интервале [0; +1].

Помимо рассмотренной логит-модели, существует также обобщенная логит-модель, которая может выражаться уравнением: ' 1 + Д хехр (j32 x x.)'

которая позволяет зависимой переменной произвольно меняться внутри фиксированного интервала (не только [0; +1]).

Логит модель может быть сведена к линейной с помощью преобразования, носящего название логистического, или логит-преобразования, которое можно записать на примере преобразования обычной вероятности p:

Р = loge

Показателем качества построенной пробитили логит-регрес-сии является псевдокоэффициент детерминации:

2 1

psevdoR =1 т г-.

У 1 + 2(/і Ч )

Если его значение близко к единице, то модель считается адекватной реальным данным.

Метод максимума правдоподобия.

Термин «метод максимума правдоподобия» (maximum likelihood function) был впервые использован в работе Р. А. Фишера в 1922 г.

Этот метод — альтернатива методу наименьших квадратов и со стоит в максимизации функции правдоподобия или ее логарифма. Общий вид функции правдоподобия:

L (X, в)=П{Р (У., X )}

;=1

где — это геометрическая сумма, означающая перемножение вероятностей по всем возможным случаям внутри скобок. Построена регрессионная модель бинарного выбора, где зависимая переменная представлена через скрытую (латентную) переменную:

У' |0, у* < 0,

где у* = xTв+єі.

Вероятность того, что переменная yi примет значение единицы, можно выразить следующим образом:

Р(Уі = 1) = Р(Уі* > 0)= p(xT0 + e> 0) = p(e<-x[0) = F (xT0).

Вероятность того, что переменная yi примет значение нуль, будет равно:

Р (у = 0)=1-F (xT 0).

Для вероятностей выполняется следующее равенство:

p (yi = 1, У2 = 0 )= p (yi = 1 )x p = 0 ).

С учетом данного равенства функцию правдоподобия можно записать как геометрическую сумму вероятностей наблюдений:

L(0, X)= p(yi =1, У2 = 0...)= ПF(xT0)П(1-F(xt0))

Функция правдоподобия для регрессионных логити пробит-моделей строится через сумму натуральных логарифмов правдоподобия:

l (0, X )= In L (0, X )= 2 In F (xT 0) + 2 In (1 F (xT 0))

Для нахождения оценок неизвестных коэффициентов логит-и пробит-регрессии метод наименьших квадратов применять не оптимально. Оценки 0определяются с помощью максимизации функции правдоподобия для логити пробит-регрессий:

l (0, X )—0-^max.

Для нахождения максимума функции l (0, X) вычислим частные производные по каждому из оцениваемых параметров и приравняем их к нулю:

(4=0,

301

4=0,

■ 302

4=0.

Путем преобразований исходной системы уравнений находим стационарную систему уравнений, а затем систему нормальных уравнений.

Решениями системы нормальных уравнений будут оценки максимального правдоподобия fiML.

Проверка значимости вычисленных коэффициентов пробити логит-регрессии и уравнения регрессии определяется с помощью величины (/1 — /0), где /1 соответствует максимально правдоподобной оценке основного уравнения регрессии; /0 — оценка нулевой модели регрессии, т. е. yi = в0.

Выдвигается основная гипотеза о незначимости коэффициентов пробитили логит-регрессии:

Ho/ ві = вг = = 0к = 0.

Для проверки гипотезы вычисляется величина H = — 2 (/1 — /0), которая подчиняется распределению с k степенями свободы.

Величина H сравнивается с критическим значением ^-критерия, которое зависит от заданного значения вероятности а и степени свободы k.

Если H> х2, то основная гипотеза отвергается, коэффициенты регрессионной зависимости являются значимыми, следовательно, значимым является само уравнение логитили пробит-ре-грессии.

Пусть о — это элемент, принадлежащий заданному пространству A. Если A является открытым интервалом, а функция L(o) дифференцируема и достигает максимума в заданном интервале A, то оценки максимального правдоподобия удовлетворяют равенству

Що>) = 0

до

Докажем высказанное утверждение на примере логит-регрессии.

Функция максимального правдоподобия для логит-модели имеет вид:

l (в, X) = ln L( в, X) = 2> F (xT в) + F( xT в))

= 2 х( yt p) = 0.

Утверждение доказано.

Если регрессионная модель удовлетворяет предпосылкам нормальной линейной регрессионной модели, то оценки коэффициентов, полученные с помощью метода наименьших квадратов, и оценки, полученные с помощью метода максимума правдоподобия, будут одинаковыми.

Термин «гетероскедастичность» в широком смысле означает предположение о дисперсии случайных ошибок регрессионной модели. Случайная ошибка — отклонение в модели линейной множественной регрессии:

Величина случайной регрессионной ошибки является неизвестной, поэтому вычисляется выборочная оценка случайной ошибки регрессионной модели по формуле:

ei = yi -yi = у -00 -0ixik ---0nxik,

где e — остатки регрессионной модели.

Нормальная линейная регрессионная модель строится на основании следующих предпосылок о случайной ошибке:

математическое ожидание случайной ошибки уравнения регрессии равно нулю во всех наблюдениях: е(є;.) = 0, где

i = 1, n;

дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений:/)^.) = E(e?) = G 2 =const;

случайные ошибки уравнения регрессии не коррелированы между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю: Cov(e,, є}) = Е(єр єр = 0, где i ^ j. Условие D(£) = Е(є2) = G 2 = const трактуется как гомоскедастичность (homoscedasticity — «однородный разброс») дисперсий случайных ошибок регрессионной модели. Гомоскедастич-ность — это предположение о том, что дисперсия случайной ошибки єі является известной постоянной величиной для всех i наблюдений регрессионной модели.

На практике предположение о гомоскедастичности случайной ошибки єі или остатков регрессионной модели ei далеко не всегда оказывается верным.

ЛЕКЦИЯ № 17. Гетероскедастичность остатков регрессионной модели. Обнаружение и устранение гетероскедастичности

Предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, называется гетероскедастичностью (heteroscedasticity — неоднородный разброс):

Щє) * Б(є}) * G2 * const,

где i * j.

0 0

Условие гетероскедастичности можно записать через ковариационную матрицу случайных ошибок регрессионной модели:

0 ... 0 ' G22 ... 0

0 ... G,

где G^*G22* ... *Gn2.

Тогда є( подчиняется нормальному закону распределения с параметрами: є( — N (0;G 2 Q ), где Q — матрица ковариаций случайной ошибки.

Наличие гетероскедастичности в регрессионной модели может привести к негативным последствиям:

оценки уравнения нормальной линейной регрессии остаются несмещенными и состоятельными, но при этом теряется эффективность;

появляется большая вероятность того, что оценки стандартных ошибок коэффициентов регрессионной модели будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости регрессионных коэффициентов и значимости уравнения регрессии в целом. Если дисперсии случайных ошибок регрессионной модели G?

известны заранее, то от проблемы гетероскедастичности можно было бы легко избавится. Но на практике, как правило, неизвестна даже точная функция зависимости y = fx) между изучаемыми переменными, которую предстоит построить и оценить. Чтобы в подобранной регрессионной модели обнаружить гетероске-дастичность, необходимо провести анализ остатков регрессионной модели. Проверяются следующие гипотезы.

Основная гипотеза H0, утверждающая о постоянстве дисперсий случайных ошибок регрессии, т. е. о присутствии в модели условия гомоскедастичности:

Альтернативной гипотезой H1 является предположение о неодинаковых дисперсиях случайных ошибок в различных наблюдениях, т. е. о присутствии в модели условия гетероскедастичности:

H0/G12 *G2 *...*GB2.

Эконометрика.Конспект лекций

Предмет: Экономика Автор: Ангелина Витальевна Яковлева Год издания: 2009 Язык учебника: русский Рейтинг:

Просмотров: 656

Обсуждение Эконометрика.Конспект лекций

Комментарии, рецензии и отзывы