Часть 3. проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. коррекция статистических выводов при нарушении стандартных предположений об ошибках 3.1. проверка адекватности подобранной модели имеющимся статистическим данным: графические методы

Часть 3. проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. коррекция статистических выводов при нарушении стандартных предположений об ошибках 3.1. проверка адекватности подобранной модели имеющимся статистическим данным: графические методы: Институт экономики переходного периода, Носко Владимир Петрович, 2000 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Предлагаемое учебное пособие имеет своей целью обеспечить базу для изучения вводного полугодового курса эконометрики, когда в распоряжении преподавателя имеется всего порядка 12 лекций и некоторое количество часов практических занятий.

Часть 3. проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. коррекция статистических выводов при нарушении стандартных предположений об ошибках 3.1. проверка адекватности подобранной модели имеющимся статистическим данным: графические методы

Весь рассмотренный нами комплекс процедур получения статистических выводов для линейной модели регрессии (простой или множественной) опирается на вполне определенные предположения о модели наблюдений.

В связи с этим, большие значения коэффициента детерминации R2 (близкие к 1) или статистическая значимость коэффициентов вовсе не обязательно говорят о том, что подобранная модель действительно хорошо соответствует характеру статистических данных (адекватна статистическим данным).

В этом отношении весьма поучителен искусственный пример с четырьмя различными множествами данных, которые имеют качественно различные диаграммы рассеяния и в то же время приводят при использовании модели наблюдений

yt =а + pxt +є . , i = 1,...,n,|

подобранная модель линейной связи имеет вид y = 6.00 + 0.507],

а имеет (оцененную) стандартную ошибку s\% = 1.12 , /3 имеет (оцененную) стандартную ошибку = 0.12 ,

t -статистика для проверки нулевой гипотезы H0: а = 0

равна 2.67, что соответствует P -значению 0.026,

t -статистика для проверки нулевой гипотезы H0: /3= 0 равна 4.24, что соответствует P -значению 0.002,

R2 = 0.67 .

Подпись: 25

5 10 15 20 25 30 5 10 15 20 25 30

X1 X2

Однако диаграммы рассеяния различаются коренным образом:

Подпись: 30

5 10 15 20 25 30 15 20 25 30 35 40

X3 X4

Уже чисто визуальный анализ четырех диаграмм рассеяния показывает, что

только первое множество данных можно признать удовлетворительно описываемым линейной моделью наблюдений

Для второго множества более подходящей представляется модель

В третьем множестве выделяется одна точка (3-е наблюдение), которая существенно влияет на наклон и положение подбираемой прямой.

Четвертое множество совершенно непригодно для подбора линейной зависимости, поскольку подобранная прямая фактически определяется наличием одного выпадающего наблюдения

Метод наименьших квадратов достаточно устойчив к малым отклонениям от стандартных предположений, в том смысле, что при таких малых отклонениях статистические выводы на основе анализа модели в основном сохраняются. Однако существенные отклонения от стандартных предположений могут серьезно исказить выводы на основе статистического анализа модели. В связи с этим необходимо

иметь возможность обнаружения отклонений от стандартных предположений,

иметь инструментарий для коррекции выявленных отклонений от стандартных предположений, позволяющий проводить строгий и информативный анализ статистических данных.

Эффективным средством обнаружения отклонений от стандартных предположений о линейной модели наблюдений

является анализ остатков, т. е. анализ разностей ei = yt ~yi , i = l--^n .

Наблюдаемые разности yi — yi мы, в силу случайности значений є i в модели наблюдений, можем рассматривать как

значения соответствующих случайных величин Yi Y, за которыми сохраним те же обозначения ei.

Если выполнены наши стандартные предположения о модели наблюдений, то остатки ei, рассматриваемые как случай-

ные величины ожидания

Y Y,

имеют нулевые математические

E(et ) = 0 , i = 1,

и

дисперсии

D(et) = а2 (1 -pit), i = 1,

где pH матрицы

i -й диагональный элемент квадратной [n х n) -

p = x (xTxy XT .

Таким образом, несмотря на то, что дисперсии ошибок є i равны между собой при наших предположениях (все они равны сг2), дисперсии остатков, вообще говоря, различны.

Для выравнивания дисперсий можно перейти к рассмотрениюіііор_м^р_ов^нн^^_о^г^гков_

Поскольку значение сг2 опять не известно, вместо нормированных остатков приходится использовать «стъюдентизи-рованные» остатки

где, как обычно, S2 = RSS / (n р).

Во многих пакетах программ величины ри в знаменателе правой части выражения для di игнорируются, что приводит к так называемым «стандартизованным» остаткам

c

e , і = 1,n ;

S

так сделано, например, в пакете EXCEL. Практический анализ показывает, что графики остатков di и ci обычно мало

отличаются по характеру поведения. Поэтому для предварительного графического анализа адекватности вполне можно удовлетвориться значениями cі, і = 1,...,n. К тому же, можно

показать, что

і=1

(р — количество объясняющих переменных), так что если р«n (р много меньше n), то «в среднем» значения рИ достаточно малы.

Графики стандартизованных (стьюдентизированных) остатков позволяют выявлять типичные отклонения от стандартных предположений о модели наблюдений по характеру поведения остатков. При этом имеется в виду, что, по крайней мере при большом количестве наблюдений, поведение остатков e., і = 1,...,n, должно имитировать поведение ошибок є. , і = 1,...,n. Иначе говоря, поскольку мы предполагаем, что ошибки є. , і = 1,...,n — независимые в совокупности случайные величины, имеющие одинаковое нормальное распределение N(0,а2j, то ожидаем, что поведение последовательности остатков e., і = 1,...,n должно имитировать поведение последова

Выделяющиеся наблюдения (outliers) — наличие отдельных наблюдений, для которых либо математическое ожидание

ошибки E^sij существенно отличается от нуля либо дисперсия

ошибки D^sij существенно превышает величину а2 дисперсий остальных ошибок. Подобные наблюдения могут обнаруживать себя на указанном графике как наблюдения со «слишком большими» по абсолютной величине остатками. Такая ситуация возникает, например, при подборе прямой по третьему (из четырех рассматривавшихся выше) множеству данных:

RESID03STAND vs. Y3F

3 -, ,

2 о

™ 1 -g

Ш о

& °

0 —s~^z

-1 -I , , =

4 6 8 10 12

Y3F

Неоднородность дисперсий (heteroscedasticity), например, в форме той или иной функциональной зависимости D^sij от

величины в 1 xt 1 pxt . Так, если рассматриваемый график

имеет вид

то это скорее всего отражает возрастание дисперсий ошибок с ростом значений в 1xi1 +...+6 pxip .

Неправильная спецификация модели в отношении множества объясняющих переменных, приводящая к нарушению соотношения e{s}j = 0, так что E{Yt j ф в 1xi1 +...+6 pxip.

2

4

Такая ситуация возникает, например, при оценивании второго множества данных из четырех рассматривавшихся выше:

График зависимости ci от значений xtj j-й объясняющей переменной полезен для выявления нелинейной зависимости y от j-й объясняющей переменной. Например, для второго из четырех искусственных множеств данных имеем

График зависимости остатков от номера наблюдения

полезен в случае, когда наблюдения производятся последовательно во времени (через равные интервалы времени). По такому графику можно обнаружить

Изменение дисперсии ошибок с течением времени

0

4

Невключение в модель переменных, зависящих от времени и существенно влияющих на объясняемую переменную:

D.4 -| 1

D.2 - о ° .

Wl D.D „ а

L1J о

-D.2 "

-D.4 -| , , ,

D 5 1D 15 2D

I

Невыполнение условия независимости в совокупности случайных ошибок е., i=1,...,n в форме их автокоррелиро

ванности. Более подробно о такой форме статистической зависимости между случайными ошибками мы поговорим позднее, а сейчас продемонстрируем, как выглядят графики остатков в случае положительной автокоррелированности (левый график) и в случае отрицательной автокоррелированности (правый график):

3-| 1

2j

Мил Udh .-Л f И ' 1

- і і і . . і -2-1 1 1 1 1 1

6D 65 7D 75 8D 85 5 1D 15 2D 25 3D

В первом случае проявляется тенденция сохранения знака остатка при переходе к следующему наблюдению (за положительным остатком скорее следует также положительный остаток, а за отрицательным — отрицательный). Во втором случае проявляется тенденция смены знака остатка при переходе к следующему наблюдению (за положительным остатком скорее следует отрицательный остаток, а за отрицательным — положительный).

Отдельную группу составляют графические методы проверки предположения о нормальности распределения случайных составляющих є., і = .

Диаграмма «квантиль-квантиль» (Q-Q plot). Для построения этой диаграммы значения стандартизованных остатков ci, і=1,...,n упорядочивают в порядке возрастания; упорядоченные значения образуют ряд

С(1) < С(2) < " " < C(n)

Если теперь для каждого к= нанести в прямоугольной системе координат на плоскости точку с абсциссой с^к^ и

ординатой

(Qk — квантиль уровня уровня (2k l)/(2n) стандартного нормального распределения), то полученные n точек {с(к у Qk j ,к= n, в случае нормальности распределения

ошибок должны располагаться вдоль прямой, имеющей угловой коэффициент, близкий к единице. Подобное расположение имеют точки на диаграмме, построенной указанным способом по первому из четырех множеств искусственных данных:

с

та

3

0

та Е с Z

-1

-2

-2

-1

0

2

RESIDSTAND

Замечание. Если в последней процедуре не проводить стандартизацию остатков, а использовать непосредственно остатки е., і = 1,...,n, то полученные точки{е(ку Qk j,k=1,...,n, также будут располагаться (при нормальном распределении ошибок) вдоль некоторой прямой, но уже имеющей угловой коэффициент, не обязательно близкий к единице.

Указанное свойство диаграммы «квантиль-квантиль» основано на том, что при больших значениях n имеет место приближенное равенство

Фс(к }|*

n

— соотношение, используемое для проверки нормальности ошибок в пакете EXCEL.

Диграмма плотности (DP-plot, DPP) отличается от диаграммы «квантиль-квантиль» тем, что по оси ординат вместо значений квантилей Qk откладываются значения функции плотности стандартного нормального распределения ф C(k j j. Такая диаграмма дает возможность при достаточном

количестве наблюдений не только проверить согласие с предположением о нормальном распределении ошибок, ноивы-явить характер альтернативного распределения в случае отклонения распределения ошибок от нормального. В качестве примера приведем диаграмму плотности, построенную по остаткам, полученным в результате подбора модели линейной зависимости совокупных расходов на личное потребление от совокупного располагаемого личного дохода (данные по США в млрд. долларов 1982 г., за период с 1959 по 1985 г.):

0.5 -| 1

_ 0.3 - о о

S о

D 0.2 - " "

0.1 - ° °

0.0 -| 1 1 1 ,

-3-2-1012

C(k)

Ha этой диаграмме обнаруживается определенная асимметрия, что представляется не вполне согласующимся с предположением о нормальности ошибок. Однако сразу делать на этом основании вывод о нарушении такого предположения не следует. Дело в том, что при небольшом количестве наблюдений структура подобной диаграммы весьма неустойчива. Поэтому даже при заведомо нормальном распределении ошибок мы редко увидим вполне симметричную картину расположения точек на диаграмме при малом количестве наблюдений.

Ядерные (kernel) оценки плотности — еще один метод получения суждений о форме функции плотности, позволяющий, в отличие от двух предыдущих, получать график в виде

непрерывной кривой. Существует много разных вариантов таких оценок, в детали которых мы вдаваться не будем, а отметим только, что в пакете EVIEWS предлагается на выбор 8 вариантов, в рамках которых имеется еще и возможность варьирования параметров. Вариант, применяемый по умолчанию, дает для только что рассмотренных данных следующую оценку плотности распределения ошибок:

0.5

Как видим, и такой подход дает график, не очень похожий на график функции плотности стандартного нормального распределения, но это опять может быть вызвано малым количеством наблюдений (27).

Институт экономики переходного периода

Институт экономики переходного периода

Обсуждение Институт экономики переходного периода

Комментарии, рецензии и отзывы

Часть 3. проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. коррекция статистических выводов при нарушении стандартных предположений об ошибках 3.1. проверка адекватности подобранной модели имеющимся статистическим данным: графические методы: Институт экономики переходного периода, Носко Владимир Петрович, 2000 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Предлагаемое учебное пособие имеет своей целью обеспечить базу для изучения вводного полугодового курса эконометрики, когда в распоряжении преподавателя имеется всего порядка 12 лекций и некоторое количество часов практических занятий.