1.2. две переменные: меры изменчивости и связи
1.2. две переменные: меры изменчивости и связи
В приводимой ниже таблице 1.2 указаны уровни безработицы (в \%) среди белого и цветного населения США в период с марта 1968 г. по июль 1969 г. (месячные данные). В первом столбце расположены номера последовательных наблюдений (i = 1 для марта 1968 г., i =17 для июля 1969 г.), во втором столбце значения BELi уровня безработицы среди белого населения в i -ом месяце, а в третьем значения ZVETi уровня безработицы среди цветного населения в i -ом месяце.
8 | 3.1 | 7.3 | 17 | 3.2 | 6.4 |
9 | 3.0 | 6.5 |
Рассмотрим, прежде всего, графики изменения уровней безработицы в обеих группах в течение указанного периода времени (Рис. 1.2).
Первое впечатление от просмотра этих графиков уровень безработицы среди цветного населения существенно выше и изменяется со временем со значительными колебаниями; уровень безработицы среди белого населения изменяется плавно и в довольно узком диапазоне. Рис. 1.2
Для того, чтобы использовать обозначения, соответствующие общепринятой практике, мы обозначим через x1,x2,...,x17 последовательно наблюдаемые уровни безработицы среди цветного населения, а через y1,y2,...,y17 соответствующие им уровни безработицы среди белого населения США, так что мы можем говорить о наблюдаемых значениях двух переменных: переменной x уровня безработицы среди цветного населения, и переменной у уровня безработицы среди белого населения.
Наиболее простыми показателями, характеризующими последовательности x1,x2,...,x17 и yj,у2,...,у17, являются их средние значения (means)
1 17
x = —/ 17 ТІ
x
17
y
1 17
17 S y
y1 + y2 +---+y
17
17
а также дисперсии (точнее, выборочные дисперсии
sample variances)
Var{x) = ~Y,(xi ~x)2
n -1
1 17 2
характеризующие степень разброса значений Л1,Л2,...,Л17 (у1,у2,...,у17) вокруг своего среднего x ( у , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений. Отсюда обозначение Var (variance). Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый стандартным отклонением (standard deviance Std.Dev.) переменной x (переменной у), определяемый соотношением
Std.Dev.(x) = ./Var(x),
(Std.Dev.(y) = у/ Var(y), соответственно).
Вычисления по указанным формулам приводят к значениям x =6.576, Std.Dev.(x) = 0.416; y 3.118, Std.Dev.(y) = 0.113. Иными словами, уровень безработицы среди цветного населения, в среднем, более, чем в два раза превышает уровень безработицы среди белого населения. Стандартные отклонения, соответственно, относятся приблизительно как 4:1, что указы
вает на гораздо более сильную изменчивость ("вариабельность") уровня безработицы среди цветного населения. Разма-хи колебаний уровней равны, соответственно, 7.3 5.7 = 1.6 и 3.3 3.1 = 0.2.
Удобным графическим средством анализа данных является диаграмма рассеяния (scatterplot), на которой в прямоугольной системе координат располагаются точки xi, yi, i = 1, 2, n, где n количество наблюдаемых пар значений переменных x и y . В нашем примере n = 17, и диаграмма рассеяния имеет вид Рис. 1.3
о о
3.4 3.3 3.2
ООО о
О ООО о
ООО
о
3.0 2.9
2.8 і і і і і
5.5 6.0 6.5 7.0 7.5
ZVET
Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение о том, что существует некоторая объективная тенденция линейной связи между значениями переменных x и y, выражаемой соотношением y = « + /?•x,
yt =(а + р-xt) + є,, i = 1,n.
Последнее соотношение определяет линейную модель наблюдений, тогда как соотношение y = « + /?•x
определяет линейную модель связи между рассматриваемыми переменными.
Заметим, однако, что видимая степень проявления вытяну-тости облака точек на диаграмме рассеяния (при наличии линейной связи между переменными) существенно зависит от выбора единиц измерения переменных x и y. Поэтому, во-первых, желательно при построении диаграммы выбирать масштабы и интервалы изменения переменных таким образом, чтобы диаграмма имела вид квадрата и чтобы на диаграмме имелись точки, достаточно близко расположенные к каждой из четырех границ квадрата. Во-вторых, желательно иметь какие-то числовые характеристики, которые отражали бы действительное наличие вытянутости облака точек вдоль наклонной прямой и не зависели от шкал, в которых представлены значения переменных.
Одна из характеристик такого рода связана с разбиением диаграммы рассеяния горизонтальной и вертикальной прямыми на 4 прямоугольника.
Разбивающие диаграмму прямые (секущие) проводятся через точку (x,y), так что если точка (xt,yt) лежит правее вертикальной секущей, то отклонение xi — x имеет знак плюс, а если левее, то знак минус. Аналогично, если точка (xt, yi) лежит выше горизонтальной секущей, то отклонение yi y имеет знак плюс, а если она расположена ниже этой секущей, то знак минус (см. Рис. 1.4). Рис. 1.4
3.4
3.3
3.2
BEL
3.1
COO
3.0
2.9
2.8
5.5
6.0
6."5
7.0
7.5
ZVET
Пусть m++ — количество таких точек среди (xi,yi),...,(xn,yn), для которых xt -x > 0 и yt -y > 0 (верхний правый прямоугольник); m+_ — количество точек, для которых xi x > 0 и yi y < 0 (нижний правый прямоугольник); m_+ — количество точек, для которых xi x < 0 и yi y > 0 (верхний левый прямоугольник); m__ количество точек, для которых xi — x < 0 и yi — y < 0 (нижний левый прямоугольник). В нашем примере, m++ = 4, m+_ = 4, m_+ = 3 (точки, соответствующие наблюдениям с номерами 6 и 17, имеют совпадающие координаты), m__ 6 (точки, соответствующие наблюдениям с номерами 9 и 10, имеют совпадающие координаты), так что количество точек с совпадающими знаками отклонений xi — x и yi — y равно m++ + m_ _ 10, ако-личество точек, у которых знаки отклонений различны, равно m+_ + m_+ 7 .
Количество точек с совпадающими знаками отклонений от средних значений составляет 10/17=0.59, т. е. около 59\% общего числа точек, и это служит некоторым указанием на наличие вытянутости облака точек в направлении прямой, имеющей положительный угловой коэффициент. Если бы большинство составляли точки с противоположными знаками отклонений от средних значений, то это служило бы объективным указанием на наличие вытянутости облака точек в направлении прямой, имеющей отрицательный угловой коэффициент. Последняя ситуация часто наблюдается при рассмотрении зависимости спроса на товар от его цены.
Более распространенным является определение степени выраженности линейной связи между произвольными переменными x и у, принимающими значения xi и уі, i = 1,n,
посредством (выборочного) коэффициента корреляции (sample correlation coefficient)
r =
xy
Cov (x, y)
-yjVar (x )V Var (y)
Величина Cov(x, у), стоящая в числителе, определяется сои называется (выборочной) ковариацией переменных x и y,
так что, формально,
Cov(x, x) Var(x), Cov(y,y) Var(y).
Если указанная тенденция выражена на диаграмме рассеяния довольно ясно, то значения rxy по абсолютной величине
близки к единице (т. е. значения rxy близки к +1 или к -1). Если
же наличие линейной тенденции связи обнаруживается на диаграмме рассеяния с трудом, то тогда значения rxy близки к нулю. Как мы увидим позднее, значения rxy уже не зависят от выбора шкал измерения переменных x и y (если, конечно, эти шкалы линейны).
В нашем примере Var{x)0.1732, Var(yy)0.0128,
Cov(x, y) = 0.0204 , откуда находим
rv = = 0.4608,
^ V0.1732V0.0128
т. е. получаем значение rxy , расположенное приблизительно посередине между 0 и 1. Замечание
Мы определили Var и Cov, деля соответствующие суммы квадратов на n-1. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются по-разному. Деление на n 1 используется, например, в книгах До-угерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся не на n 1, ана n. К счастью, и Cov и Var будут играть у нас лишь вспомогательную роль, а величина более существенного для нас коэффициента корреляции rxy не зависит от того, каким из двух способов мы будем определять Var и Cov, лишь бы только при определении обеих этих характеристик использовался один и тот же способ.
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы