1.6.2. мультиномиальная модель
1.6.2. мультиномиальная модель
В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между непрерывной латентной переменной и наблюдаемой переменной, принимающей конечное количество значений.
Пусть мы имеем K таких альтернатив (мы занумеруем их в произвольном порядке числами 1, к, K) и пусть г -й субъект исследования приписывает k -й альтернативе полезность uik, так что
где xlk =(xakх1р^ ), а \% (г = 1, к, n , k = K) независимые в совокупности (и независимые от xik) случайные величины, имеющие одинаковое распределение.
Предположим, что г -й субъект выбирает альтернативу k , если для него эта альтернатива имеет максимальную полезность. В этом случае мы полагаем Уг = k . Тогда (условная при заданных значениях , k = 1,..., K) вероятность того, что г -й субъект выберет альтернативу k , равна
Р{у, = к } = Р^гк = = max^ и1} j = Р jxTlkp + єік > j= max ^Ц j + єг] jJ.
Выразить такую вероятность в явном виде весьма проблематично. Однако если предположить, что общим для всех случайных величин єк является стандартное распределение экстремальных значений (максимума) I-го типа с функцией распределения
G(z) = exp(e~z j, oo < z < °° , (это распределение часто называют также распределением Гумбеля), то формула для вычисления вероятности Р{уг = к} принимает достаточно простой вид, а именно:
exWilP)+ expxi 2Р)+ — + expXiKP)
Заметим, однако, что если и числитель и знаменатель правой части последнего выражения разделить на exp^/?), то получим
Р{ = к}= (т eXp(xfJ-X4 т ГП.
1 + exp x2jj xTiJ)+ — + exp [xTK j xjifij
Следовательно, каким бы ни было значение линейной комбинации
xT1p, вероятность Р{уг = к } будет зависеть только от разностей
[xTi2pxT1j),a, {xTK//xTie). Это обстоятельство приводит к естественной нормализации, при которой полагают
xFi1JJ = 0, 1 = 1,n , так что тогда
1 + exp rx;2Jj+ — + exp ГxTKjj
Такую модель разные авторы называют по-разному. Так, в книгах [Verbeek (2000)] и [Amemiya (1985)] об этой модели говорится как о мультиномиальной логит-модели (multinomial logit model). В книгах [Green (1993)] и [Davidson, MacKinnon (1993)] эта модель именуется условной логит-моделью (conditional logti model), а под мультиномиальной логит-моделью подразумевается модель
Р = k= . . exp(xTek) , ,
^ 1 exp(xT в)+ exp(xJ/32)+... + exp(xT eK У в которой объясняющие переменные специфичны только в отношении самих субъектов исследования (но не в отношении альтернатив), а специфичными в отношении альтернатив являются
коэффициенты модели. Соответственно, здесь ek = (в k, —, вр k У вектор коэффициентов при объясняющих переменных в представлении функции полезности для k -й альтернативы:
uik = вkxa + L + Ар,kxip + \% = xT в + £ik, г =1, —, n .
Последняя модель под названием мультиномиальной логит-модели появляется и в пакете EVIEWS. Поскольку в этой модели хг не зависят от альтернативы, являясь собственными атрибутами субъекта, то
Pv = k= . . exp(xf (ek-в1)) „
^ 1 "1 + exptf (в2-в))+ l + exp(xf (eK-в1))' так что эта вероятность зависит только от разностей в2 в1 ,
—, вК — в, и для нормализации можно положить вектор в равным нулевому вектору. При такой нормализации
Р{Уг k } 1 + exp(xf в2).-L+ exp(xf AK )
В этом случае (условная при фиксированных xij , j = 1, —, р, г = 1, —, n) совместная вероятность получения конкретного набора наблюдений У1, —, уп (конкретного набора значений 1, —, K) равна произведению
Ь(в) = Ь(рхъ..., xn ) = ПП
i =1k=1
ехр(х]вк) 1 + exp(xT в2)+ l + exp(xT вК))
и эта функция как функция правдоподобия является объектом максимизации по в. Результатом такой максимизации являются оценки максимального правдоподобия для векторов
коэффициентов вk = (ви, —,вp,k)T, k = 1,...,К . П р и м е р
Рассмотрим смоделированную ситуацию, в которой, как и в последней модели, переменные специфичны только в отношении самих субъектов исследования.
Пусть xi1 = 1, xi 2 типичное количество посещений продуктового магазина в неделю i -й семьей (от 1 до 7), xi3 -среднемесячный доход на одного члена i -й семьи (от 50 до 250 у.е.). Выбранная модель порождения данных имитирует поведение 1000 семей, проживающих в одном и том же многоэтажном доме и приобретающих продукты в трех продуктовых магазинах, ближайших к этому дому. Каждая семья отдает предпочтение одному из трех магазинов, так что мы имеем здесь 3 альтернативы. Магазины различаются тремя сравнительными характеристиками: ассортиментом (наименее разнообразный из трех, наиболее разнообразный из трех, промежуточный), удаленностью от дома (наибольшая, наименьшая, средняя) и уровнем цен (максимальный, минимальный, средний). Альтернативы были занумерованы числами 1,2,3 произвольным образом. В итоге была получена следующая нумерация.
Характеристики k-го магазина | |
k | Ассортимент Удаленность Уровень цен |
1 | Богатый Максимальная Средний |
2 | Бедный Минимальная Минимальный |
3 | Промежуточный Средняя Максимальный |
Предполагается, что г -я семья приписывает k -й альтернативе полезность uk, где
Uik = ДЛ! + в2Хг2 + в3Хг3 + \% , г = I — ,1000,
где єік (г = 1, —,1000,k = 1,2,3) независимые в совокупности (и независимые от x j ) случайные величины, имеющие одинаковое распределение с функцией распределения
G(z) = exp^ e~z) , oo < z < °° . При этом мы используем нормализацию
ви = 0, в12 = 0, в13 = 0. Остальные коэффициенты выбраны следующим образом:
в21 =-0.8, в22 = 1.0, в23 =-0.0032,
в31 =-0.4, в32 = 0.3, в33 = 0.0032, так что функции полезности для трех альтернатив имеют вид
ut2 = 0.8 + x,2 0.0032xi3 +е,2,
ui3 = 0.4хг1 + 0.3хг2 + 0.0032хг3 +el3.
Их поведение иллюстрирует следующий график.
-8
U2
U3
В соответствии с моделью порождения данных, 1 -я семья выбирает альтернативу к , если для этой семьи альтернатива к имеет максимальную полезность. В этом случае полагаем уг = к . Результаты оценивания методом максимального правдоподобия:
Все оцененные коэффициенты, за высокую статистическую значимость.
имеют
Сравним истинные и оцененные значения коэффициентов:
Истинное значение | Оценка | |
-0.8 | -1.655130 | |
1.0 | 1.270612 | |
-0.0032 | -0.001778 | |
взі | -0.4 | -1.031242 |
А32 | 0.3 | 0.439590 |
взз | 0.0032 | 0.006283 |
Знаки оцененных коэффициентов соответствуют знакам истинных значений коэффициентов. Кроме того, соблюдается упорядочение значений соответственных коэффициентов, имеющих одинаковые знаки:
Д21 <Д31 и Д21 <Д31 • Д22 > Д32 и Д22 > Д32 •
На основании полученных оценок коэффицентов можно вычислить прогнозные значения вероятностей РУі = k} предпочтения альтернатив k = 1,2,3, полагая
РУ = = }= 1 + ехр^Д)^Ц(хГ д3), и, используя эти прогнозные значения, дать предсказание номера альтернативы, которую предпочтет семья из рассматриваемого дома с заданной частотой посещения продуктового магазина и заданным уровнем месячного дохода на одного члена семьи. Можно, например, предсказывать для -й семьи в качестве предпочтительной альтернативу k , если
Применяя такое правило к нашему примеру, получаем следующие
подразумевается семей),
семей (среди предпочтение
Объемы групп
600
500 4
400
300
200
100
0
] Истинные | Прогнозные
12 3
k
Предсказанные объемы групп правильно воспроизводят упорядочение между наблюдаемыми размерами групп: в обоих случаях максимальное количество семей предпочитает альтернативу 2 и минимальное количество семей предпочитает альтернативу 1.
Хотя индивидуальные прогнозы и не являются главной целью в подобных исследованиях, мы все же приведем сводную таблицу количеств правильных и неправильных прогнозов для значений У, = 1,2,3.
У,=1 | У, =2 | У і =3 | |
У, =1 | 48 | 26 | 72 |
У, =2 | 11 | 550 | 42 |
У, =з | 42 | 88 | 121 |
Таким образом, из 1000 прогнозов правильными оказались 719, т.е. 71.9\%. При этом значения yi = 1 правильно прогнозируются в 48 случаях из 146, т.е. только в 32.9\% случаев, тогда как значения yi = 2 правильно прогнозируются в 91.2\% случаев; значения yi = 3 правильно прогнозируются в 48.2\% случаев. П р и м е р
В следующей ситуации, в отличие от предыдущих примеров, одна из переменных специфична только в отношении альтернатив, а другая зависит и от альтернативы и от субъекта.
Пусть storeSk количество магазинов в k -м (из трех) торговом центре, distik расстояние от места проживания i -й семьи до k -го торгового центра. Выбранная модель порождения данных имитирует поведение 1000 семей, предпочитающих совершать покупки в этих трех торговых центрах. Каждая семья отдает предпочтение одному из трех торговых центров, так что мы имеем здесь 3 альтернативы. Альтернативы были занумерованы числами 1,2,3 произвольным образом.
Здесь переменная storesk специфична только в отношении альтернатив, тогда как значения переменной distik зависят и от альтернативы и от конкретной семьи.
Предполагается, что i -я семья приписывает k -й альтернативе полезность uik,
Uik = l^1storeSk + в2а^& +£ik , i = 1 — ,1000 ,
где єік (i = 1,...,1000,k = 1,2,3) независимые в совокупности (и независимые от storesk и distik) случайные величины, имеющие одинаковое распределение с функцией распределения G(z) = exp(e~z),oo < z < °° . Коэффициенты выбраны следующим образом:
А = 0.6, в = -1.о,
так что функции полезности для трех альтернатив имеют вид
ua = 0.6stores1 dista +єі1,
Uj2 = 0.6stores2 -disti2 +є,2 ,
ui3 = 0.6stores3 disti3 +єі3. В соответствии с моделью порождения данных, i -я семья выбирает альтернативу k , если для этой семьи альтернатива k имеет максимальную полезность. В этом случае полагаем yi = k .
Результаты оценивания методом максимального правдоподобия:
Coefficient Std. Error z-Statistic Prob.
А | 0.932414 | 0.061646 | 15.12519 | 0.0000 |
А | -1.521518 | 0.101902 | -14.93120 | 0.0000 |
Будем опять предсказывать для i -й семьи в качестве предпочтительной альтернативу k , если
Р{ = k }> Р{ = l }, l * k.
Применяя такое правило к нашему примеру, получаем следующие результаты.
Альтернатива (k) | 1 | 2 | 3 |
Истинный объем | |||
группы k | 674 | 275 | 51 |
Прогноз объема | |||
группы k | 681 | 272 | 47 |
Следующая диаграмма отображает содержимое таблицы.
Объемы групп
Ш
12 3
З а м е ч а н и е 1
Как мы уже отмечали выше, в рассмотренной нами мультиномиальной логит-модели, в которой объясняющие переменные специфичны только в отношении самих субъектов исследования,
Р{ = к }= , . ^ jk j) „
^ = ^ = 1 + exp(xT (j2 -j))+ — + exp(xX (jK jj)) •
Отсюда вытекает, что
РУ, = к } = exp(xT(fik -j
Ру, = m } exp (x Г (jjm -j
т. е. отношение вероятностей выбора альтернатив к и m определяется только параметрами уравнений для полезностей этих двух альтернатив и собственными атрибутами i -го субъекта и не зависит от параметров уравнений для полезностей остальных K — 2 альтернатив.
З а м е ч а н и е 2
Если рассматривается условная логит-модель (с постоянными значениями коэффициентов во всех K уравнениях полезности), в которой объясняющие переменные специфичны в отношении альтернатив, то, как уже говорилось выше, в такой ситуации
{ ^ ехр(хТр)+ ••• + ехр(хгКр))
так что здесь
P{y, = k } = exp(xfk в) = ((т T )в)
~Ы Т = 1 T а = eXP\Xik — X,m )Р),
т. е. отношение вероятностей выбора альтернатив k и m определяется только общим параметром уравнений для полезностей различных альтернатив и значениями в i -м наблюдении объясняющих переменных, соответствующих k -й и m -й альтернативам. Это отношение не зависит от значений в i -м наблюдении объясняющих переменных, соответствующих остальным K — 2 альтернативам. Такое свойство независимости оказывается нежелательным во многих ситуациях.
З а м е ч а н и е 3
Пусть среди объясняющих переменных в условной логит-модели (с постоянными значениями коэффициентов во всех K уравнениях полезности) имеются переменные, специфичные только в отношении субъектов (т.е. значения этих переменных для i -го субъекта не зависят от альтернативы). Пусть, соответственно,
x,k = v,k, w, ^
где вектор значений для і -го субъекта переменных, значения
т
которых зависят от альтернативы, а wi вектор значений для і -го субъекта переменных, значения которых не зависят от альтернативы; соответственно разбивается и вектор коэффициентов:
Тогда
РУ = k }= (т ^+ ~ =
ехруау+ wi д)+ ^ + exp[viKy+ wi 0j
= ехр(^Ы
exp(v'T1r)+ ■■■ + exp(v;Kr)'
так что эта вероятность не зависит от значений переменных, специфичных только в отношении субъектов.
Чтобы (в рамках модели с постоянным вектором коэффициентов) учесть возможное влияние таких переменных на вероятности P{yi = k}, модель надо модифицировать. Одним из возможных способов модификации является создание группы дамми переменных для альтернатив (DUMMY для альтернативы k принимает значение 1, если yi = k, и принимает значение 0 в
противном случае) и умножение каждой из них на переменные, не зависящие от альтернатив. Тем самым достигается изменение коэффициентов при этих переменных в зависимости от альтернатив.
1.7. Цензурированная модель регрессии (тобит-модель)
Развивая пример с наличием или отсутствием у семьи собственного автомобиля, представим, что мы имеем следующие данные. Для семей, имеющих автомобиль, известна стоимость этого автомобиля st (если в семье несколько автомобилей, то st -суммарная стоимость этих автомобилей). Таким образом, здесь мы наблюдаем пары (xi, price _ observedi), где xi среднедушевой
месячный доход i-й семьи,
Г st, если i я семья имеет автомобиль, price _ observedi = <
[ 0, если i я семья не имеет автомобиля.
Обратимся к смоделированной выборке, состоящей из 1000
семей со среднедушевым месячным доходом от 100 до 1600 у.е. Для
удобства наблюдения переупорядочены в соответствии в
возрастанием xt, так что x1 < x2 < • • • < x1000.
Обращает на себя внимание большое количество точек, расположенных на оси абсцисс. Таких точек 418, и это означает, что 418 из 1000 рассматриваемых семей не имеет собственного автомобиля. В то же время среди семей, владеющих автомобилем, минимальное значение цены автомобиля равно 2002 у.е., и это может просто означать, что на автомобильном рынке, в том числе и вторичном, просто нет автомобилей с ценой менее 2000 у.е.
Как проводить статистический анализ подобных данных? Можно попытаться, например, использовать все 1000 наблюдений и оценить по этим наблюдениям методом наименьших квадратов линейную статистическую модель
price _ observed^ = а + jxt + є.
Следующий график позволяет сравнить значения price _ observedt, прогнозные значения, получаемые по первой модели (по 1000 наблюдениям), т.е.
pricef _1000i =a + jjxt = -2427.821 + 6.915595xi, и прогнозные значения, получаемые по второй модели (по 582 наблюдениям), т.е.
pricef _5821 =a + jjxt = -1037.189 + 6.119677xi.
Обращаясь к той же выборке, состоящей из 1000 семей, рассмотрим линейную модель наблюдений
price* = a + fixi + <j£i, і = 1,n,
в которой price* цена, которую уплатила за покупку автомобиля
(автомобилей) і-я семья, если эта семья имеет автомобиль, или цена, которую уплатила бы за покупку автомобиля і-я семья, не имеющая автомобиля, если бы эта семья решила приобрести автомобиль. Естественно предполагать, что при этом в > 0 , так что возрастание
Xj приводит в среднем к возрастанию price*. Однако существенное
влияние других ненаблюдаемых факторов, объединяемых в случайную составляющую, может приводить к значительным отклонениям переменной price* от "средней линии"
price* =a + /3x. Возможные отрицательные значения price*
свидетельствуют о наличии факторов, в той или иной степени препятствующих планированию каких бы то ни было расходов на покупку автомобиля.
Предположим теперь, что i-я семья покупает автомобиль по цене
price*, если последняя превышает минимально возможную
стоимость у автомобиля на рынке (первичном и вторичном), т.е. если price* > у.
В такой модели наблюдений значения переменной price*
наблюдаются лишь для части наблюдений только для семей, имеющих автомобиль. Для остальных семей известно только, что
price <у. Такие данные называют цензурированными (в данном случае данные цензурированы слева на уровне у), а саму модель
получения этих данных называют цензурированной линейной моделью. При этом мы наблюдаем цензурированную переменную
[ price*', если price*] > у,
если price i < у.
В нашем примере диаграмма рассеяния переменных
xi, price _ censored i принимает вид
Если значение у известно, то вместо переменной price* можно рассмотреть переменную yt = price* у.
Значения последней также наблюдаются только для семей, имеющих автомобиль. Для остальных семей положим yi = 0, так что
[price* у, если price* > у,
^ 0, если price* < у.
Диаграмма рассеяния переменных xi, yi в нашем примере имеет вид
Обычно при рассмотрении подобных ситуаций опираются на предположение нормальности распределения ошибок єі. (Впрочем, имеющиеся пакеты статистических программ позволяют проводить статистический анализ и для других распределений ошибок. Например, в пакете EVIEWS допускается использование вместо нормального распределения ошибок логистического распределения и распределения экстремальных значений первого типа.)
Будем предполагать, что мы имеем дело с некоторым показателем у*, значения которого наблюдаются только при условии у* > 0 (в нашем примере в качестве такого показателя выступала переменная price* — 2000). Пусть в правую часть модели для этого показателя включаются p объясняющих переменных (показателей, характеризующих i-й субъект), т.е.
у* =в1ха + ••• + 9pXip , i = n ,
и ошибки є1,...,єп независимые в совокупности (и независимые от , j = 1,..., p ) случайные величины, имеющие одинаковое
нормальное распределение єі ~ N(о,<72). Наблюдаемыми являются значения Xj, j = 1,..., p, і = 1,..., n , и значения переменной yi,
y , если у, > 0, 0, если y* < 0.
О такой цензурированной модели регрессии говорят как о стандартной тобит-модели (tobit model).
В стандартной тобит-модели для фиксированных значений Xj, j = p , имеем
y* ~ N (6а-1+L+6pxip1
и
E (y* Ix j, j = ^1 , . * * , p)= 6>1xi1 + L+6pxip,
т. е.
E (y*x, )= xf6,
где, как и ранее, обозначено xi = (x^,...,xip)f, 6 = (61,...,6p)f . В нашем примере значение коэффициента 6j определяет изменение ожидаемой суммы расходов на (возможную) покупку автомобиля для семьи с вектором показателей xi = (x^,...,xip)fпри увеличении на единицу значения j -го показателя.
Если для оценивания коэффициентов 6j использовать только наблюдения с у, > 0, то получаем усеченную модель регрессии
Уі =6Л1 + ••• + 6pxXp +є, i = 1,...,
где п1 количество семей, имеющих автомобиль (среди всех п рассматриваемых семей). Конечно, при переходе к усеченной
модели придется заново перенумеровать используемые наблюдений. В такой модели для значений w > 0 имеем
n
ру* > о}
руі < w}=p{y{ < Ау] > °}= ^гМг
где
Яв У*. -xT6 w-xT6
<
а
а
Ф
T
w xT в
Ф
( xTe^
а
а
и
P{y]> °}= і р\^1< W-M = 1 Ф
а
Ф
v а J
Если взять теперь производную dP{y, < w}}dw, то получим функцию плотности распределения случайной величины yi (условного при заданном xt):
Ф
( xTe^
а
а
v а J
Отсюда получаем выражение для условного математического ожидания у :
E{y,x, )= j wpy. (w)dw = xT в + аЯ
о
( xTe^
v а J
где обозначено Я( z) = <p(z)/ ).
Таким образом, E(yixi) нелинейная функция от xi и p, причем E(yi|xi )> xTe.
Рассмотрим теперь другой подход к оцениванию коэффициентов исходной модели
У* =eix,i + ••• + Qpx,p + £,, i = n , при котором неполные наблюдения не отбрасываются, а учитываются при оценивании. В рамках этого подхода мы берем в качестве объясняемой переменную
lxje + є,, если xje + є, > 0
' [ 0, если xfe + є, < 0
В этом случае
P[y, = 0 x, } = Р[є,<xfe}= Ф
xT0
= 1 Ф | |
I a J |
а для w > 0
Ф
a a I
Это приводит к следующему выражению для условного математического ожидания yi:
E (y,x, ) = 0 •
1 Ф
v a JJ
+
0
о
dw^ Ф
v a J
9 + оЯ
Ф
v a JJ
V a J
Оно отличается от выражения для E(y,xt) в усеченной модели
умножением последнего на Ф
v a J
т.е. на величину, меньшую
единицы. Раскрывая скобки в правой части, получаем представление
+ оА
Ф
о
v a J
v a J
■xTe-Ф
V ° J
V ° J
Предельный эффект изменения переменной xij равен
dE(yx,^
dxv VJ "V a j
т.е. меньше значения коэффициента 0j в исходной модели: он получается умножением этого коэффициента на вероятность того, что у* > 0 .
Заметим в связи с этим, что если i~(ji|xi) — условное математическое ожидание значения yi в усеченной модели, то для него
dE(ylxi)
■ = в] [1 -zX(z)— Я2(z)],
dx.
где
Я( z) = p(z )1 ),
z=
xT0 a
Продолжим рассмотрение смоделированной выборки, состоящей из 1000 семей, 582 из которых имеют автомобиль. Подберем к тем же данным усеченную и цензурированную модели.
Заметим, что если переменная у* = price* — 2000 порождается
моделью у* =а + pxt +£j, i = 1,... ,1000, то сама переменная price*
порождается моделью price* = (а + 2000) + pxt + et. Поэтому достаточно произвести оценивание коэффициентов модели у* =a + /3xi +ei, опираясь на данные (xi,yi). Такое оценивание приводит к следующим результатам.
price* =-3710.678 + 8103471 xt (усеченная модель),
price* =-4041.883 + 8.363125xt (цензурированная модель).
Дисперсии случайных составляющих оцениваются, соответственно, как 1822.273 и 1823.565. Заметим, что "теоретическая" модель, по которой генерировались данные, имела вид
price* =-3600 + 8 x, +1800 ut,
где u1,k, u1000 независимые случайные величины, имеющие одинаковое стандартное нормальное распределение N(0,1).
На следующем графике для сравнения показаны значения переменной price* и прогнозные значения для этой переменной, полученные по оцененной усеченной модели (price _ starf _ trun) и по оцененной цензурированной модели (price_starf _cens ).
14000 12000 10000 8000 6000
4000 2000 0
-2000 -4000 -6000 -8000 J
Отметим, что прогнозные значения, полученные по двум оцененным моделям, весьма близки.
На следующем графике представлены значения переменной yi и
ожидаемые значения переменной yi, рассчитанные по двум оцененным моделям.
Заметим еще, что ожидаемые значения yi, рассчитанные и по усеченной и по цензурированной модели, положительны для всех 1000 наблюдений, тогда как это не выполняется для линейных моделей, подобранных методом наименьших квадратов
Так, оценивание обычным методом наименьших квадратов модели yt =a + pxt + et по всем 1000 наблюдениям дает следующую картину:
о Y . YF_OLS_1000 a YF_OLS_582
Одним из показателей качества прогноза произвольного временного ряда zt, i = 1,..., n , является средняя абсолютная процентная ошибка (MAPE mean squared absolute error), определяемая следующим образом. Если Zi — прогнозное значение для zi, то
MAPE ■■
1
n
i =1
z
Сравним качество полученных альтернативных прогнозов для yi с точки зрения средней абсолютной процентной ошибки.
Модель | OLS 582 | OLS 1000 | Truncated | Censored |
MAPE \% | 118.46 | 99.86 | 126.69 | 71.96 |
Как видно из этой таблицы, наилучшее качество имеют прогнозы, полученные с использованием цензурированной модели регрессии.
Обратим внимание на еще одно обстоятельство. Мы уже отмечали, что
E [ytxt ) =
(
xfe + аЯ
v ° JJ
Ф
v а J
■E(yx1) ф
v а J
где i~(ji|xi) — условное математическое ожидание значения yi в усеченной модели. Отсюда мы получаем следующее разложение:
dE (yxt)
Эх..
= Ф
v ° J
dE(yixi)
+ E(yxt )•
эФ
v ° J
Первое слагаемое отражает изменение в ожидаемых значениях
:Pyi > 0}, а второе
yt > 0, взвешенное с весом Ф
v ° J
изменение вероятности P{yi > 0}, взвешенное с весом, равным E(yi xi). Заметим в этой связи, что
эФ
1
а
V
Эх у а
<Р
v а J
1
В нашем примере і?(уг-|хг.) изменяется следующим образом (по
1800
ЭРу, > 0}
Производная = изменяется следующим образом:
Эх 1
3
2.5 Н
2 1.5
1
0.5 0
0
1800
TERM 2
В сумме они дают функцию
ЭЕ(у,х,)
= в} •ф
v а J
9
7]
6
5
4 -3 -2 1 0
0
1800
D_EXPECTED_Y
Следующий график позволяет сравнить влияние единичного возрастания дохода на ожидаемые значения yi во всей популяции (D_EXPECTED_Y) и среди семей с у, > 0 (D_E_Y>0).
9п
D_EXPECTED_Y ■ D_E_Y>0
Обсуждение Эконометрика для начинающих (Дополнительные главы)
Комментарии, рецензии и отзывы