1.6. пропорциональная связь между переменными
1.6. пропорциональная связь между переменными
Хотя на практике не рекомендуется отказываться от включения свободного члена в уравнение подбираемой прямолинейной связи, если только его отсутствие не обосновывается надежной теорией (как в физике — закон Ома), мы все же иногда сталкиваемся с необходимостью подбора прямой, проходящей через начало координат. Позднее мы приведем соответствующие примеры.
Итак, пусть мы имеем наблюдения (х,-,уі), і = 1,...,п , и
предполагаем, что гипотетическая линейная связь между переменными х и у имеет вид
Применение метода наименьших квадратов в этой ситуации сводится к минимизации суммы квадратов невязок
<№ = Х (у* -Рх> )2
по всем возможным значениям /3. Последняя сумма квадратов является функцией единственной переменной /3 (при известных значениях хі,уі , і 1,...,п), и точка минимума этой функции легко находится. Для этого мы приравниваем нулю производную Q(J3) по J3:
2 Zk* ~Рхі )(_х,) = 0 , (нормальное уравнение) откуда получаем:
Отсюда видно, что при таком подборе
(пропорциональная связь между переменными), так что ей соответствует модель наблюдений
р ф Cov (х, у ) Var (х )
и точка (х,у) уже не лежит, как правило, на подобранной прямой
у = Рх ■
Более того, в такой ситуации
Т^(уі у)2 ^Т,(уі уі У + у)2,
1-Х і- і-1
где
уі = рхі,
и поэтому использовать для вычисления коэффициента детерминации выражение
n
Е(й у)2
R2 =
n
Zfc у )2
не имеет смысла. В этой связи полезно рассмотреть следующий искусственный пример. Пример
Пусть переменные х и у принимают в четырех наблюдениях значения, приведенные в следующей таблице
i І 1І2 І3І4
xi 10 3 -10 -3
Уі I 11 I 3 І -9І-3
соответствующей диаграмме рассеяния
>-
0
-12 ♦
♦
-12
0
12
X
и мы предполагаем пропорциональную связь между этими переменными, что соответствует модели наблюдений yi J3xt + єі , і 1,2,3,4. Для этих данных
n
Z yx>
P = -n = 1 ,
Z x2
так что yі = xi , і 1,...,n . При этом, RSS = (11—10)2 + (3-3)2+ (-9+10)2+ (-3+3)2 = 2, TSS = (11-0.5)2+ (3-0.5)2+ (-9-0.5)2+ (-3-0.5)2 = 219, ESS = (10-0.5)2+ (3-0.5)2+ (-10-0.5)2+ (-3-0.5)2 = 219, так что здесь RSS + ESS Ф TSS, и вычисление R2 по формуле
R2 = ESS/ TSS
приводит к значению R2 = 1. Но последнее возможно только если все точки {xt, yi), і = 1,2,3,4, лежат на одной прямой, а у нас это не так. Заметим также, что в этом примере сумма остатков e1 + e2 + e3 + e4 2 Ф 0, что невозможно в модели с включением в правую часть постоянной составляющей.
Можно, конечно, попытаться справиться с возникающим при оценивании модели без постоянной составляющей затруднением, попросту игнорируя нарушение соотношения
RSS + ESS = TSS и определяя коэффициент детерминации соотношением
R2 = 1 -(RSS/TSS),
и именно такое значение R2 приводится в протоколах некоторых пакетов программ анализа статистических данных, например пакета ECONOMETRIC VIEWS (TSP). Для нашего иллюстративного примера с четырьмя наблюдениями использование последнего приводит к значению R2 = 1 -(2/219)0.990860, которое не противоречит интуиции
и представляется разумным. Однако, к сожалению, и такой подход к определению коэффициента детерминации не решает проблемы, поскольку, в принципе, при оценивании модели без постоянной составляющей возможны ситуации, когда RSS > TSS , что приводит к отрицательным значениям R2. Пример
Пусть переменные x и y принимают в четырех наблюде
i | 1 | 2 | 3 | 4 |
0 | 0.2 | 0.4 | 3 | |
yi | 0.5 | 0.8 | 1.2 | 2 |
3 - | ||
>- | ♦ ♦ ♦ | |
і 0 - | ► | |
0 2 4 | ||
X |
и мы предполагаем пропорциональную связь между этими переменными, что соответствует модели наблюдений yi = f5xi + єі , і = 1,2,3,4. Для этих данных /? = 0.721739 . При
этом, RSS = 1.537652, TSS = 1.2675, и вычисление R2 по формуле R2 = 1 -(RSS/TSS) приводит к отрицательному значению R2 =-0.213138.
Преодолеть возникающие затруднения можно, если определить R2 в модели наблюдений без постоянной составляющей формулой
R2 = 1 ,
n '
X у2
в которой используется сумма квадратов нецентрированных значений переменной y (отклонений значений переменной y от «нулевого уровня»). При таком определении, неотрицательность коэффициента R2 гарантируется наличием
соотношения
n n n
і-1 і-1 і-1
которое отражает геометрическую сущность метода наименьших квадратов (аналог знаменитой теоремы Пифагора для многомерного простанства) и выполняется как для модели без постоянной составляющей, так и для модели с наличием постоянной составляющей в правой части модели наблюдений.
n
Деля обе части последнего равенства на ^ у2 , приходим к соотношению
Zfc Уі )2 Zу1 = +
и n
Zy2 Zy2
i=1 i=1
из которого непосредственно следует, что
nn
Z(yi -уі)2 Zу.
R2 = 1 = — > 0 .
nn
22
(Доказать заявленное равенство не сложно. Действительно,
Z у'=i(yi уі +у У=i(yi уі У+Zу2 +2Z(yi yi )yi .
Но
Х(у« У. )у. = t(y. -рх. )р х. =р t(y. -рх.)х. = о,
і-1 і-1 і-1
(см. нормальное уравнение), что и приводит к искомому результату.)
В последнем примере использование определения R2 сне центрированными уі дает R2 = 1 (1.537652/6.33) = 0.242 .
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы