1.2. две переменные: меры изменчивости и связи

1.2. две переменные: меры изменчивости и связи: Институт экономики переходного периода, Носко Владимир Петрович, 2000 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Предлагаемое учебное пособие имеет своей целью обеспечить базу для изучения вводного полугодового курса эконометрики, когда в распоряжении преподавателя имеется всего порядка 12 лекций и некоторое количество часов практических занятий.

1.2. две переменные: меры изменчивости и связи

В приводимой ниже таблице 1.2 указаны уровни безработицы (в \%) среди белого и цветного населения США в период с марта 1968 г. по июль 1969 г. (месячные данные). В первом столбце расположены номера последовательных наблюдений (i = 1 для марта 1968 г., i =17 для июля 1969 г.), во втором столбце значения BELi уровня безработицы среди белого населения в i -ом месяце, а в третьем значения ZVETi уровня безработицы среди цветного населения в i -ом месяце.

8

3.1

7.3

17

3.2

6.4

9

3.0

6.5

Рассмотрим, прежде всего, графики изменения уровней безработицы в обеих группах в течение указанного периода времени (Рис. 1.2).

Первое впечатление от просмотра этих графиков уровень безработицы среди цветного населения существенно выше и изменяется со временем со значительными колебаниями; уровень безработицы среди белого населения изменяется плавно и в довольно узком диапазоне. Рис. 1.2

8-, ,

Для того, чтобы использовать обозначения, соответствующие общепринятой практике, мы обозначим через x1,x2,...,x17 последовательно наблюдаемые уровни безработицы среди цветного населения, а через y1,y2,...,y17 соответствующие им уровни безработицы среди белого населения США, так что мы можем говорить о наблюдаемых значениях двух переменных: переменной x уровня безработицы среди цветного населения, и переменной у уровня безработицы среди белого населения.

Наиболее простыми показателями, характеризующими последовательности x1,x2,...,x17 и yj,у2,...,у17, являются их средние значения (means)

1 17

x = —/ 17 ТІ

x

17

y

1 17

17 S y

y1 + y2 +---+y

17

17

а также дисперсии (точнее, выборочные дисперсии

sample variances)

Подпись: 1Var{x) = ~Y,(xi ~x)2

n -1

1 17 2

характеризующие степень разброса значений Л1,Л2,...,Л17 (у1,у2,...,у17) вокруг своего среднего x ( у , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений. Отсюда обозначение Var (variance). Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый стандартным отклонением (standard deviance Std.Dev.) переменной x (переменной у), определяемый соотношением

Std.Dev.(x) = ./Var(x),

(Std.Dev.(y) = у/ Var(y), соответственно).

Вычисления по указанным формулам приводят к значениям x =6.576, Std.Dev.(x) = 0.416; y 3.118, Std.Dev.(y) = 0.113. Иными словами, уровень безработицы среди цветного населения, в среднем, более, чем в два раза превышает уровень безработицы среди белого населения. Стандартные отклонения, соответственно, относятся приблизительно как 4:1, что указы

вает на гораздо более сильную изменчивость ("вариабельность") уровня безработицы среди цветного населения. Разма-хи колебаний уровней равны, соответственно, 7.3 5.7 = 1.6 и 3.3 3.1 = 0.2.

Удобным графическим средством анализа данных является диаграмма рассеяния (scatterplot), на которой в прямоугольной системе координат располагаются точки xi, yi, i = 1, 2, n, где n количество наблюдаемых пар значений переменных x и y . В нашем примере n = 17, и диаграмма рассеяния имеет вид Рис. 1.3

о о

3.4 3.3 3.2

ООО о

О ООО о

ООО

о

3.0 2.9

2.8 і і і і і

5.5 6.0 6.5 7.0 7.5

ZVET

Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение о том, что существует некоторая объективная тенденция линейной связи между значениями переменных x и y, выражаемой соотношением y = « + /?•x,

где x — уровень безработицы среди цветного, a y — среди белого населения. В то же время, указанное соотношение выражает всего лишь тенденцию: реально наблюдаемые значения yi отличаются от значений y = « + /?•xi, на величину

yt =(а + р-xt) + є,, i = 1,n.

Последнее соотношение определяет линейную модель наблюдений, тогда как соотношение y = « + /?•x

определяет линейную модель связи между рассматриваемыми переменными.

Заметим, однако, что видимая степень проявления вытяну-тости облака точек на диаграмме рассеяния (при наличии линейной связи между переменными) существенно зависит от выбора единиц измерения переменных x и y. Поэтому, во-первых, желательно при построении диаграммы выбирать масштабы и интервалы изменения переменных таким образом, чтобы диаграмма имела вид квадрата и чтобы на диаграмме имелись точки, достаточно близко расположенные к каждой из четырех границ квадрата. Во-вторых, желательно иметь какие-то числовые характеристики, которые отражали бы действительное наличие вытянутости облака точек вдоль наклонной прямой и не зависели от шкал, в которых представлены значения переменных.

Одна из характеристик такого рода связана с разбиением диаграммы рассеяния горизонтальной и вертикальной прямыми на 4 прямоугольника.

Разбивающие диаграмму прямые (секущие) проводятся через точку (x,y), так что если точка (xt,yt) лежит правее вертикальной секущей, то отклонение xi — x имеет знак плюс, а если левее, то знак минус. Аналогично, если точка (xt, yi) лежит выше горизонтальной секущей, то отклонение yi y имеет знак плюс, а если она расположена ниже этой секущей, то знак минус (см. Рис. 1.4). Рис. 1.4

3.4

3.3

3.2

BEL

3.1

COO

3.0

2.9

2.8

5.5

6.0

6."5

7.0

7.5

ZVET

Пусть m++ — количество таких точек среди (xi,yi),...,(xn,yn), для которых xt -x > 0 и yt -y > 0 (верхний правый прямоугольник); m+_ — количество точек, для которых xi x > 0 и yi y < 0 (нижний правый прямоугольник); m_+ — количество точек, для которых xi x < 0 и yi y > 0 (верхний левый прямоугольник); m__ количество точек, для которых xi — x < 0 и yi — y < 0 (нижний левый прямоугольник). В нашем примере, m++ = 4, m+_ = 4, m_+ = 3 (точки, соответствующие наблюдениям с номерами 6 и 17, имеют совпадающие координаты), m__ 6 (точки, соответствующие наблюдениям с номерами 9 и 10, имеют совпадающие координаты), так что количество точек с совпадающими знаками отклонений xi — x и yi — y равно m++ + m_ _ 10, ако-личество точек, у которых знаки отклонений различны, равно m+_ + m_+ 7 .

Количество точек с совпадающими знаками отклонений от средних значений составляет 10/17=0.59, т. е. около 59\% общего числа точек, и это служит некоторым указанием на наличие вытянутости облака точек в направлении прямой, имеющей положительный угловой коэффициент. Если бы большинство составляли точки с противоположными знаками отклонений от средних значений, то это служило бы объективным указанием на наличие вытянутости облака точек в направлении прямой, имеющей отрицательный угловой коэффициент. Последняя ситуация часто наблюдается при рассмотрении зависимости спроса на товар от его цены.

Более распространенным является определение степени выраженности линейной связи между произвольными переменными x и у, принимающими значения xi и уі, i = 1,n,

посредством (выборочного) коэффициента корреляции (sample correlation coefficient)

r =

xy

Cov (x, y)

-yjVar (x )V Var (y)

Величина Cov(x, у), стоящая в числителе, определяется сои называется (выборочной) ковариацией переменных x и y,

так что, формально,

Cov(x, x) Var(x), Cov(y,y) Var(y).

Если указанная тенденция выражена на диаграмме рассеяния довольно ясно, то значения rxy по абсолютной величине

близки к единице (т. е. значения rxy близки к +1 или к -1). Если

же наличие линейной тенденции связи обнаруживается на диаграмме рассеяния с трудом, то тогда значения rxy близки к нулю. Как мы увидим позднее, значения rxy уже не зависят от выбора шкал измерения переменных x и y (если, конечно, эти шкалы линейны).

В нашем примере Var{x)0.1732, Var(yy)0.0128,

Cov(x, y) = 0.0204 , откуда находим

rv = = 0.4608,

^ V0.1732V0.0128

т. е. получаем значение rxy , расположенное приблизительно посередине между 0 и 1. Замечание

Мы определили Var и Cov, деля соответствующие суммы квадратов на n-1. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются по-разному. Деление на n 1 используется, например, в книгах До-угерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся не на n 1, ана n. К счастью, и Cov и Var будут играть у нас лишь вспомогательную роль, а величина более существенного для нас коэффициента корреляции rxy не зависит от того, каким из двух способов мы будем определять Var и Cov, лишь бы только при определении обеих этих характеристик использовался один и тот же способ.

Институт экономики переходного периода

Институт экономики переходного периода

Обсуждение Институт экономики переходного периода

Комментарии, рецензии и отзывы

1.2. две переменные: меры изменчивости и связи: Институт экономики переходного периода, Носко Владимир Петрович, 2000 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Предлагаемое учебное пособие имеет своей целью обеспечить базу для изучения вводного полугодового курса эконометрики, когда в распоряжении преподавателя имеется всего порядка 12 лекций и некоторое количество часов практических занятий.