Часть 2. статистические выводы при стандартных предположениях о вероятностной структуре ошибок в линейной модели наблюдений 2.1. вероятностное моделирование ошибок
Часть 2. статистические выводы при стандартных предположениях о вероятностной структуре ошибок в линейной модели наблюдений 2.1. вероятностное моделирование ошибок
Мы уже неоднократно сталкивались с вопросом о том, сколь существенно величина коэффициента корреляции (детерминации) должна отличаться от нуля, чтобы можно было говорить о действительно существующей линейной связи между исследуемыми переменными.
Если оцененное значение эластичности потребления некоторого товара оказалось несколько больше единицы, то возникает вопрос о том, сколь надежным является заключение о том, что потребление этого товара эластично по ценам.
Если мы будем использовать подобранную прямую
y = ос + Р x
для прогнозирования значений yi для новых наблюдений xi, t=n+1,...,n +k, то сколь надежными будут такие прогнозы?
Если у нас нет теоретических (экономических) оснований для выбора между моделью в уровнях переменных и моделью в логарифмах уровней, то как выбрать одну из этих моделей на основании одних только наблюдений?
Ответы на эти и другие подобные вопросы невозможны, если мы не сделаем некоторых более или менее подробных предположений о структуре последовательности ошибок є 1,..., є.п, участвующих в определении модели наблюдений
|y,. =a + /3xt +st , i = 1,...,n .1
Базовая, и наиболее простая модель для последовательности є 1,...,єп предполагает, что є 1,...,єп — независимые случайные величины, имеющие одинаковое распределение (i. i. d. — independent, identically distributed random variables).
Для нас (пока!) достаточно представлять случайную величину Z как переменную величину, такую, что до наблюдения
ее значения невозможно предсказать это значение абсолютно
точно, и, в то же время, для любого z, -со < z <со, определена
вероятность
F (z) = P{Z < z]
того, что наблюдаемое значение переменной Z не превзойдет z; 0 < F(z) < 1. Функция F(z) , — со < z < со , называется функцией распределения случайной величины Z (c. d. f. — cumulative distribution function).
Говоря об ошибках є 1,...,sn как о случайных величинах,
мы, соответственно, понимаем указанную линейную модель наблюдений таким образом, что
а) существует (теоретическая, объективная или в виде тенденции) линейная зависимость значений переменной y от значений переменной x с вполне определенными, хотя обычно и
не известными исследователю, значениями параметров а и /3;
б) эта линейная связь для реальных статистических данных
не является строгой: наблюдаемые значения yi переменной y
отклоняются от значений y~i, указываемых моделью линейной
связи
>~. =а + f3xi , i = 1,п ;
в) при заданных (известных) значениях xi конкретные
значения отклонений
= yi ~ Уі , i ^ Ъ...,п ,
не могут быть точно предсказаны до наблюдения значений yi даже если значения параметров а и/3 известны точно;
г) для каждого z, -со < z < со, определена вероятность F(z} того, что наблюдаемое значение отклонения є і не
превзойдет z, причем эта вероятность не зависит от номера наблюдения;
д) вероятность того, что наблюдаемое значение отклонения є і в і-м наблюдении не превзойдет z, не зависит от того,
какие именно значения принимают отклонения в остальных n -1 наблюдениях.
В дальнейшем, говоря о той или иной случайной величине Z, мы будем предполагать существование функции p(z) , -оо < z <со, принимающей только неотрицательные
значения и такой, что
площадь под кривой V = p(z)
в прямоугольной системе координат zOv (точнее, площадь, ограниченная сверху этой кривой и снизу — горизонтальной осью Oz ) равна 1,
для любой пары значений z1, z2 с z1 < z2, вероятность
P{z1 < Z < z2 }
численно равна площади, ограниченной снизу осью Oz, сверху — кривой v = p(z), слева — вертикальной прямой z z1, справа — вертикальной прямой z z2 (т. е. равна части площади под кривой v = p(z), расположенной между точками z z1 и z z2).
3) для любого z0 , -оо <z0 <да, вероятность F(z0) того,
что наблюдаемое значение Z не превзойдет z0, равна площади, ограниченной снизу осью Oz, сверху — кривой v = p(z) и
справа — вертикальной прямой z z0, т. е. равна части площади под кривой v = p(z) , расположенной левее точки z z0.
Заметим, что при этом выполняется следующее важное соотношение]
P{zi < Z<z2} = F(z2) F(zi) .
(Действительно, вероятность F(z2) численно равна части площади под кривой v = p(z) , расположенной левее точки z z2, а эта часть складывается из части площади под кривой, расположенной левее точки z z1 и части площади под кривой, расположенной между точками z z1 и z z2, так что
F(z2) = F(zi) + P{zi < Z <z2} ,
откуда и следует заявленное соотношение.) Кроме того, P{Z > z} = 1 F(z) .
(Действительно, F (z) + P{Z > z} = 1 ,
поскольку слева складываются части площади под кривой v = p(z) , расположенные, соответственно, левее и правее точки z, так что в сумме они составляют всю площадь под этой кривой, а вся площадь под кривой v = p(z) как раз и равна 1.)
Функция p(z) связана с функцией распределения случайной Be^n^HH^_Z_£2£I5°.^e.522M2_
p (z) = , F (z) =)p (t) dt
—CO
и называется функцией плотности вероятности случайной величины Z (p.d.f. — probability density function). Для
краткости, мы часто будем говорить о функции p(z) как о функции плотности или о плотности распределения случайной величины Z .
Возьмем два непересекающихся интервала значений переменной z : zj < z < zj + c и z2 < z < z2 + c. Рассмотрим два варианта распределения вероятности случайной величины Z: равномерное распределение на отрезке 0 < z < 2 и треугольное распределение на том же отрезке. Графики функций плотности для этих двух вариантов имеют следующий вид:
Равномерное распределение
0.5
0 i1 i1+c z2 i2+c 2 і 0 i1 i1+ci2 i2+c 2 і
Площади заштрихованных прямоугольников на первом графике численно равны вероятностям того, что случайная величина Z, имеющая равномерное распределение на отрезке 0 < z < 2 , примет значения в пределах zj < z < zx + c и
z2 < z < z2 + c, соответственно. Поскольку основания и высоты этих прямоугольников равны, то равны и их площади, т.е. равны указанные вероятности.
Площади заштрихованных трапеций на втором графике численно равны вероятностям того, что случайная величина Z , имеющая треугольное распределение на отрезке 0 < z < 2 , примет значения в пределах zj < z < zj + c и z2 < z < z2 + c, соответственно. Высоты этих трапеций равны, однако стороны трапеции, расположенной правее, больше сторон трапеции, расположенной левее. Поэтому и площадь трапеции, расположенной правее, больше площади трапеции, расположенной левее. А это означает, в свою очередь, что вероятность того, что случайная величина Z , имеющая треугольное распределение на отрезке 0 < z < 2, примет значения в пределах z2 < z < z2 + c, больше вероятности того, что эта случайная величина Z примет значения в пределах z1 < z < z1 + c.
Таким образом, функция плотности указывает на более вероятные и менее вероятные интервалы значений случайной величины. Если случайная величина Z имеет равномерное распределение на отрезке 0 < z < 2 , то для нее все интервалы значений, имеющие одинаковую длину и расположенные целиком в пределах отрезка 0 < z < 2 , имеют одинаковые вероятности (т. е. вероятности попадания значений случайной величины на эти интервалы одинаковы). Если же случайная величина Z имеет треугольное распределение на отрезке 0 < z < 2 , то для нее интервалы значений, имеющие одинаковую длину и расположенные целиком в пределах отрезка 0 < z < 2 , имеют, вообще говоря, различные вероятности: вероятность того, что случайная величина примет значение в интервале, расположенном ближе к центральному значению z = 2, больше вероятности того, что случайная величина примет значение в интервале, расположенном ближе к одному из концов отрезка 0 < z < 2 .
Обсудим несколько более точно вопрос о том, что мы понимаем под независимостью нескольких случайных величин. Пусть мы имеем п случайных величин Z1, Z2,..., Zn, имеющих
одинаковую функцию распределения F(z). Мы говорим, что
эти случайные величины независимы в совокупности, если для любого набора пар a1 < b1, a2 < b2,..., ап < Ьп, где ai и bi могут быть равны также —оо и +со,
P{«1 < Z1 < Ьи a2 < Z2 < b2,•••, an < Zn ^ bn } =
P{ax < Z1 < 61 }• P{a2 < Z2 < b2 }■■■ P{an < Zn < bn} .
При таком предположении условная вероятность того, что, например, an < Zn < bn, при условии, что a1 < Z1 < b1, an_1 < Zn_1 < bn_1, равна безусловной вероятности того, что an < Zn < bn, т. е. вероятности, вычисляемой без задания указанногоусловия:
< Zn < bn I a < Z1 < b1,^, an_1 < Zn_1 < bn_1}
= P{an < Zn < bn}.
(Вертикальная черта в этой формуле указывает на то, что первая вероятность — условная; справа от вертикальной черты записано условие, при котором вычисляется эта вероятность.) Иначе говоря, на распределение вероятности случайной величины Zn не влияет информация о значениях случайных величин Z1,Z2,...,Zn_1. И вообще, на распределение вероятностей случайной величины Zj не влияет информация о значениях случайных величин Zk с k ^ j.
Если случайные величины Z1, Z2,..., Zn имеют одинаковое распределение F (заданное или функцией распределения или функцией плотности) и независимы в совокупности, то часто это обозначают в записи следующим образом:
Z1,...,Zn і.і.d., Z~F .
Возвращаясь к модели наблюдений yt =а + pxt , і = 1,n ,
и предполагая, что £1,...,£n — независимые случайные
величины, имеющие одинаковое распределение (i. i. d), мы
должны теперь сделать еще и предположение о том, каким
именно является это одинаковое для всех є 1,...,sn распределение.
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы