1.7. примеры подбора линейных моделей связи между двумя факторами. фиктивная линейная связь
1.7. примеры подбора линейных моделей связи между двумя факторами. фиктивная линейная связь
В этом разделе мы рассмотрим примеры подбора линейных моделей связи для конкретных данных. Пример 1
В следующей таблице приведены данные об изменении потребительского спроса на куриные яйца семи семейных хо
i | 11 | 12 | 13 | 14 | 15 |
Спрос | 13.5 | 14 | 13.5 | 14.5 | 13 |
Цена | 0.43 | 0.42 | 0.41 | 0.40 | 0.39 |
(спрос измерялся в дюжинах, цена — в долларах). Диаграмма рассеяния для этих данных имеет следующий вид:
Предполагая, что модель наблюдений имеет вид yi = а + f5xi + єі , i = 1,...,n, где yi — спрос в i-ю неделю, а xi — цена в i-ю неделю, мы получаем следующие оценки для неизвестных параметров а и /3 модели линейной связи между
ценой и спросом: а = 21.100, /3 =-18.559. Таким образом, подобранная модель линейной связи имеет вид y = 21.100 18.559 x . При этом,
TSS = 17.6, RSS = 8.562, ESS = 9.038,
так что коэффициент детерминации оказывается равным R2 = 0.514, т. е. изменчивость цен объясняет 51.4\% изменчивости спроса на куриные яйца. На диаграмме рассеяния изображена прямая линия, соответствующая подобранной модели линейной связи. Пример 2
В следующей таблице приведены данные о годовом потреблении свинины y на душу населения в США (в фунтах) и
оптовых ценах на свинину x (в долларах за фунт) за период с
1948 по 1961 год:
Потребление со сл | ||
Ф ♦ | ||
0,4 0,55 | ||
Цена |
Предполагая, что модель наблюдений имеет вид yi = а + f5xi + єі , i = 1,...,n, где yi — потребление свинины в i-й год рассматриваемого периода, a xi — оптовая цена на свинину в этом году, мы получаем следующие оценки для неизвестных параметров а и /3 модели линейной связи между
оптовой ценой и потреблением: а = 77.552, J3 = -24.925. Таким образом, подобранная модель линейной связи имеет вид y = 77.552 24.925 x . При этом,
TSS = 208.194, RSS = 196.701, ESS = 11.493,
так что коэффициент детерминации здесь оказывается равным R2 = 0.055. Изменчивость оптовой цены объясняет здесь лишь 5.5\% изменчивости потребления свинины.
Пример 3
Рассмотрим данные о размерах совокупного располагаемого дохода и совокупных расходах на личное потребление в США в период с 1970 по 1979 год. Обе величины выражены в текущих долларах США.
Предполагая, что модель наблюдений имеет вид yi а + f5xi + єі , i 1,... ,n, где yi — совокупные расходы на личное потребление в i-й год рассматриваемого периода, a xi — совокупный располагаемый доход в этом году, мы получаем следующие оценки для неизвестных параметров а и /3 модели линейной связи между совокупным располагаемым доходом и совокупными расходами на личное потребление:
а = -30.534, /3 = 0.932. Таким образом, подобранная модель линейной связи имеет вид y = -30.534 0.932 x . При этом,
TSS = 791138.545, RSS = 740.320, ESS = 790398.225,
так что коэффициент детерминации здесь оказывается равным R2 = 0.9995. Изменчивость совокупного располагаемого дохода объясняет здесь более 99.95\% изменчивости совокупных расходов на личное потребление.
Впрочем, не следует слишком оптимистически интерпретировать близкие к единице значения коэффициента детерминации R2 как указание на то, что изменения значений объясняемой переменной практически полностью определяются именно изменениями значений объясняющей переменной. В этой связи, рассмотрим следующий поучительный пример.
Пример 4
Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E — суммарного производства электроэнергии в США (в млрд. квт-час), C — совокупных потребительских расходов в Таиланде (в млрд. бат) и H — мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (всм). Значения этих показателей приведены в таблице:
Год | Потребление | Эл. энергия | Мир. рекорд |
Таиланд | США | (прыжки с шестом) | |
млрд бат | млрд квт-час | см | |
1957 | 34.9 | 716 | 478 |
1958 | 35.9 | 724 | 478 |
1959 | 37.9 | 797 | 478 |
1960 | 41.1 | 844 | 481 |
1961 | 43.5 | 881 | 483 |
1962 | 46.7 | 946 | 493 |
По этим данным мы можем формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям
R2 = 0.900;
0.871;
R2 = 0.993;
E = -2625.5 + 7.131Я ,
R2 =
R2 =
C = -129.30 + 0.350H, E = 23.90 + 19.950C,
C = -0.860 + 0.0498E,
0.993.
(Заметим, кстати, что произведение угловых коэффициентов двух последних прямых, соответствующих моделям линейной связи, в которых объясняемая и объясняющая переме-ная меняются местами, равно 19.950 • 0.0498 = 0.993 и совпадает со значением коэффициента детерминации R2 в этих двух подобранных моделях.)
Мы видим, что во всех подобранных моделях значения коэффициента детерминации весьма высоки, и это формально означает, что изменчивость «объясняющих» переменных в этих моделях составляет значительный процент от изменчивости «объясняемой» переменной, стоящей в левой части уравнения. Однако, вряд ли мы всерьез можем полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение 0.9 коэффициента детерминации в первом из четырех уравнений.
В ситуациях, подобных последнему примеру, принято говорить о фиктивной (ложной, паразитной — spurious) линейной связи между соответствующими показателями. И такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание) — именно такой характер имеют исследуемые показатели в последнем примере.
Чтобы понять, почему это происходит, вспомним полученное в свое время равенство
R1 = rl .
Из этого равенства вытекает, что близкие к единице значения коэффициента детерминации соответствуют близким по абсолютной величине к единице значениям коэффициента корреляции между переменными y и x. Но этот коэффициент корреляции равен
y/Var (y )д/ Var ( x )
где
Cov(y,x)
r =
yx
Cov(>\%x) ^ ~ У)(xt ~ x).
При фиксированных значениях Var(x) и Var(y), значение rxy будет тем ближе к 1, чем большим будет значение Cov(y, x) > 0 . Последнее же обеспечивается совпадением знаков разностей yi у и xi x для максимально возможной доли наблюдений переменных у и x, что как раз и имеет место, когда в процессе наблюдения обе переменные возрастают или обе переменные убывают по величине. (В этом случае превышение одной из переменных своего среднего значения сопровождается, как правило, и превышением второй переменной своего среднего значения. Напротив, если одна из переменных принимает значение, меньшее среднего значения этой переменной, то и вторая переменная,как правило, принимает значение, меньшее своего среднего.)
Аналогичным образом, значение rxy будет тем ближе к —1,
чем меньшим будет значение Cov(y, x) < 0. Последнее же обеспечивается несовпадением знаков разностей yi у и xi — x для максимально возможной доли наблюдений переменных у и x, что имеет место, когда в процессе наблюдения одна из переменных возрастает, а вторая убывает. (В этом случае, если одна из переменных принимает значение, меньшее среднего значения этой переменной, то вторая переменная,как правило, принимает значение, большее своего среднего.)
Из сказанного следует, что близость к единице наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений обеих переменных.
Последнее обстоятельство часто наблюдается при анализе различных экономических показателей, вычисленных без поправки на инфляцию (недефлированные данные). Проиллюстрируем это следующим примером.
Пример 5
вид
Обратимся к данным о совокупном располагаемом доходе
и совокупных личных расходах на местный транспорт в США
за период с 1970 по 1983 год. Данные представлены как в текущих долларах США, так и в долларах 1972 года — пересчет
к последним выполнен с учетом динамики индекса потребительских цен в указанном периоде. (Уровень цен в 1972 г.
принят за 100\%.)
соответствует модель линейной связи у = 3.758 0.0003 x . Коэффициент детерминации равен на этот раз всего лишь
R2
0.0353.
В связи с последним примером, вернемся к примеру 3 и выясним, не является ли обнаруженная там сильная линейная связь между совокупным располагаемым доходом и совокупными расходами на личное потребление лишь следствием использования недефлированных величин.
Для этого рассмотрим дефлированные значения, представленные следующей таблицей, в последнем столбце которой
3 ч о х и га а.
Подобранная модель линейной связи
у = -67.655 + 0.979 x . Коэффициент детерминации при переходе от номинальных величин к дефлированным остается очень высоким: R2 = 0.9918 . Следовательно, наличие сильной линейной связи между совокупным располагаемым доходом и совокупными расходами на личное потребление не является только лишь следствием инфляционных процессов.
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы