1.3. метод наименьших квадратов. прямолинейный характер связи между двумя экономическими факторами
1.3. метод наименьших квадратов. прямолинейный характер связи между двумя экономическими факторами
Теперь мы обсудим вопрос о том, каким образом можно (хотя бы приблизительно) восстановить гипотетическую линейную связь между переменными, если таковая действительно существует.
Мы уже заметили, что при наличии объективной тенденции поддержания линейной связи между переменными x и y
естественно рассмотреть линейную модель наблюдений
Если а и /3 — «истинные» значения параметров линейной
модели связи, то
єі = yi -{а + Р-xi)
представляет собой ошибку в i м наблюдении (error, или disturbance). Однако, даже при действительном существовании линейной связи, параметры а и /3 такой связи остаются неизвестными, и мы можем судить об их истинных значениях лишь приближенно, оценивая значения а и /3 на основании ограниченного количества имеющихся данных наблюдений (статистических таблиц).
Поиск подходящих оценок для а и /3 можно осуществлять, например, путем поиска на диаграмме рассеяния прямой, проходящей через точку (х,y) — «центр» системы точек
(x1,y1),...,(xn,yn) и «наилучшим образом» выражающей направление вытянутости этой системы (облака) точек. Пусть прямая
у = а* + /3* х
рассматривается в числе прочих в процессе такого поиска. Для iго наблюдения мы будем наблюдать тогда расхождение («невязку»)
причем значения ei могут быть как положительными, так и отрицательными. При изменении значений а* и /3* будет
n
изменяться и алгебраическая сумма невязок . С этой
точки зрения, мы можем остановить свой выбор на прямой, для которой соблюдается баланс положительных и отрицательных невязок, так что
n
Соответствующие этой прямой значения а* и (3 * будем обозначать как а и (3. Итак, прямая y = а + J3 x
проходит через точку (х, у), и если обозначить еще
ei = yi ~(а + РХг ), то тогда
n
et = 0.
Значение ei называется остатком в i м наблюдении. Для реальных данных, как правило, все остатки отличны от нуля, так что часть из них имеет положительный знак, а остальные — отрицательный.
Оказывается, что ту же самую прямую y = а + /3x можно получить, исходя из другого принципа — принципа наименьших квадратов. Согласно этому принципу, среди всех возможных значений а*, /3*, претендующих на роль оценок
параметров а и (3 , следует выбирать такую пару а**, /3**, для которой
n n
Z(yi -a" -P**xi)2 = иш Z(yi ~a* ~x)2.
Иначе говоря, выбирается такая пара а**, /3 **, для которой сумма квадратов невязок оказывается наименьшей. Получаемые при этом оценки называются оценками наименьших квадратов, и можно показать, что они совпадают с ранее определенными оценками а и (3, так что
а = а, /3 =f3.
Заметим, что при построении оценок наименьших квадратов заранее не требуется, чтобы соответствующая прямая проходила через точку (x, y); этот факт является свойством оценок наименьших квадратов. Наличие такого свойства мы докажем чуть позднее, а сейчас обратимся к вопросу о том, как
практически найти указанные оценки а и (3.
Если исходить из первого определения, то прежде всего следует заметить, что если прямая y = а* + /3*x проходит через точку (x,y), то тогда y = а* + /Гx , так что
а* = y (3*x,
и для поиска «наилучшей» прямой достаточно определить ее угловой коэффициент /3 *. Изменяя значения /3 * и следя за
п
изменением значений ^ єі*, мы можем, в принципе, найти
искомое /3 с любой наперед заданной точностью.
Использование непосредственного перебора значений а*, /3* с целью минимизации суммы квадратов
<&а,/Г) = J(у t -а-рxt)2
при реализации метода наименьших квадратов также возможно, хотя и требует, конечно, существенно больших вычислительных усилий.
Было бы идеальным, если бы существовала возможность
прямого вычисления значений а и (3 по какой-нибудь формуле на основании известных значений хі,уі, і 1,...,n. Такую возможность нам предоставляет еще один подход к поиску параметров а, f3 «наилучшей» прямой.
Заметим, что через каждую пару точек (xt, yi), [xk, ук) на
диаграмме рассеяния можно провести прямую. Всего таких прямых (с учетом совпадающих точек) будет ровно столько, сколько различных пар индексов (і, к) можно образовать на
основе n индексов 1,п. А количество таких пар индексов равно числу сочетаний из п элементов по два. Из комбинаторной математики известно, что последняя величина равна N = п{п -1) / 2 . Пусть прямая, проходящая через jю пару
точек, имеет вид
у = aj + Pjx ,
а точки, через которые она проводится, имеют абсциссы x1 (j) и x2 (j), соответственно.
Обратимся опять к диаграмме рассеяния. Из этой диаграммы видно, что параметры а и /? будут очень сильно отличаться для различных пар, и для многих пар не будут иметь ничего общего с параметрами а, /3 «наилучшей» прямой.
Оказывается, однако, что эти значения а и /? можно получить как взвешенные суммы значений параметров отдельных прямых:
N N
а = £ WjCCj , /3 = x wjPj ,
где ^ Wj = 1 и веса w1,...,wn имеют вид
(Х2 I/)" Х1 (j))2
W ■ = — .,
±(x2 (k)xi (к))2
k=1
Нетрудно заметить, что большие веса придаются тем прямым, которые строятся по точкам с далеко разнесенными абсциссами.
Итак, мы имеем возможность получать оценки наименьших квадратов чисто аналитически, сначала вычисляя параметры a j ,Pj отдельных прямых, а затем взвешивая полученные значения. Однако, существует еще один способ получения точных формул для а и /3, исходящий из принципа наименьших квадратов.
Согласно этому принципу, оценки а и Р находятся путем минимизации суммы квадратов
Q(a,/3) = ^ (У і -a-fi xt )2
по всем возможным значениям а и /3 при заданных (наблюдаемых) значенияхх19...,xn, у1,...,yn. Функция Q(a,j3) как функция двух переменных описывает поверхность z = Q(a,j3) в трехмерном пространстве с прямоугольной системой координат а,/3 ,z, и дело сводится к известной математической задаче поиска точки минимума функции двух переменных.
Такая точка находится путем приравнивания нулю частных производных функции z = Q(a,j3) по переменным а и
/3, т. е. приравниванием нулю производной функции Q(a,j3) как функции только от а при фиксированном (3, д Q(<x, р)/Єр = 0,
и производной функции Q(a,j3) как функции только от /3
при фиксированном а, д Q(a, р)/Эр0,
Это приводит к так называемой системе нормальных уравнений
dQ(a,p)/да = 0 , дQ(a,р)/Єр-0,
решением которой и является пара а, /3. Остается заметить, что согласно правилам вычисления производных,
dQ(a,P)/ да = 2 £(yi -а-(Зх,, dQ(a,/3)/др= 2 У (у, -а-(Зх,)(-xt),
так что искомые значения а, /3 удовлетворяют соотношениям
2(у-Рxi) =0 , x(у-Рxi)x = 0 .
Эту систему двух уравнений можно записать также в виде
( п Л Л п
па + 1 xx і Р = еу і
п ( п Л Л п
x x ]«+iex2 р=е ул .
Последняя система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например, методом подстановки.
Из первого уравнения системы находим:
«= x у п ^ 2 x = у ~^x ,
так что точка {х, у) действительно лежит на прямой
у = а + /?x . Подстановка полученного выражения для а во второе уравнение системы дает
м=1 У^і=1 У Чі=1 У У откуда
x у Л »ie у і 11 x x і і пх у nyx
р = ± м=1 УУ^1 У = і=і
ex? 1fax іxxі2 nx2 Заметим еще, что
n n n n
Z(x, -x)2 = Zx2" 2xZ xt+ nx 2 = Zx2"nx 2 ,
i-1 i-1 i-1 i -1
n n n n n
Z(yi y)(xt x)=Zyixt у Zxi -xZyi+nyx=Zyixt -nyx .
i-1 i-1 i-1 i-1 i-1
Последние соотношения позволяют получить более употребительную форму записи выражения для /3 (в отклонениях
от средних значений)
n
Z(yi у)ixi x)
J3 = ,
n
Z(xi x )2
которая в паре с выражением а = y /3 x
дает явное и простое решение задачи отыскания оценок а, /3 на основе принципа наименьших квадратов.
Разумеется, такое решение может существовать только при выполнении условия
n
Z(xi"x)2 Ф 0 ,
i=1
2
I x,2
n Z x2 "[ Z xi
2
nx
что равносильно отличию от нуля определителя системы. Действительно, этот определитель равен
n
=n Z(xi -x)2.
Последнее условие называется условием идентифицируемости модели наблюдений yi =(а + /3-xi) + £t, i = 1,...,n, и означает попросту, что не все значения x^...,xn совпадают между собой. При нарушении этого условия все точки
i = 1,...,n, лежат на одной вертикальной прямой
Оценки а и Р обычно называют оценками наименьших квадратов (least squares estimates), или LS — оценками. Обратим еще раз внимание на полученное выражение для /3. Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии Var(х) = ^{хі х)2 l(n 1) и выборочной
р = Cov (х, у ) Var (х )
Отсюда, в частности, видно, что значения /3 близки к нулю, если ковариация между наблюдаемыми значениями переменных х и у близка к нулю. (Однако, близость /? кнулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии Vari^ .) Кроме того, знак J3 совпадает со знаком ковариации Covi^, у), поскольку Var^y 0.
Вычисление значений а и /3 для нашего примера дает значения
(3 = 0.020415/0.162976 = 0.125 ,
a = y-J3х = 3.118 0.125• 6.576 = 2.294 .
Таким образом, «наилучшая» прямая имеет вид
у = 2.294 + 0.125x ,
и мы принимаем ее в качестве аппроксимации для «истинной» модели линейной связи между переменными x и у. Эта аппроксимация указывает на то, что при изменении переменной x на 1 единицу (измерения x) переменная у изменяется «в среднем» на 0.125 единиц (измерения у ).
Л, Л
Факт горизонтальности прямой у = а + /?x при /3 0
{^Cov(x,у) = 0J и наличие у этой прямой наклона при J3Ф 0
x, у) Ф 0J, позволяют произвести некоторую детализацию
структуры остатков ei у і — а — /3xі . С этой целью, опять рассмотрим диаграмму рассеяния, сосредоточившись на какой-нибудь одной точке. Пусть в нашем примере это точка A = (7.1, 3.3). Опустим из этой точки перпендикуляр на ось абсцисс. Он пересечет прямую у = x в точке B = (7.1, 3.118) и
прямую у = а + /?x в точке C = (7.1, 3.183), так что расстояние по вертикали от точки A до прямой у = x , равное AB = 3.3 — 3.118= 0.182, раскладывается в сумму AB = AC + BC.
Отсюда находим, что расстояние по вертикали от точки A до прямой у = ос + J3x равно AC = AB — CB = 0.182 — (3.183 — 3.118) = 0.117.
Вообще, для любой точки {xxi, уі) на диаграмме рассеяния можно записать:
уі ~ У =(уг ~ уі ) + {уі ~ У) ,
где уі а + /3xi ордината точки «наилучшей» прямой, имеющей абсциссу xi. Возведем обе части последнего представлення в квадрат и просуммируем левые и правые части полученных для каждого i равенств:
п п п п
ZUу)1 = Z(& у)2 + Л(уі у і У + Л(уі у і )(уі y) •
i-1 i-1 i-l i-l
Входящая в правую часть сумма
п п
Zfc yt У =Z ei
называется чаще всего остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS (Доугерти, Айвазян-Мхитарян, Себер), хотя в литературе по эконометрике можно встретить и такие варианты аббревиатур как SSR (Green), а также ESS (error sum of squares — Harvey, Chatterjie) и SSE (Магнус-Катышев-Пересецкий). Поэтому, при чтении различных руководств по эконометрике следует обратить особое внимание на то, какие именно термины и обозначения используются авторами.
Заметим, что если /3 0, то а = x и yi = x . Следовательно, при /3 0
Y.{yi yi)2 = Y.{yi у)2 ^
При J3 Ф 0, по самому определению прямой y = а + /?х, имеем
пп
Y.(yi yi У <H(yi уУ ^
Тенденция линейной связи между x и y выражена в максимальной степени, если RSS = 0. При этом, все точки [xt, yi),
i = 1, 2,..., п, располагаются на одной прямой y = а + /?x. Тенденция линейной связи между переменными x и y не обнаруживается вовсе, если RSS совпадает с TSS = ^(у; ~ у)2
і=і
Таким образом, есть определенные основания предложить в качестве «меры выраженности» в данных наблюдений линейной св^з^м^жд^пер_е.Ме.Ё5ыми величину
называемую коэффициентом детерминации. Этот коэффициент изменяется в пределах от 0 (при /3 = 0, т. е. RSS = TSS ) до 1 (при RSS = 0),
0 < R2 < 1 .
Вернемся, однако, к полученному ранее представлению
n
Т,(уі у У ввиде
^{уі у)2 = Zfe у)2 +І{уі уі)2 + 2Z(yi 9t)(уі у)
i-1 i-1 i-1 і-1
и рассмотрим третью сумму в правой части этого представления. Имеем:
Z (yi ~ yі )(Уі ~ У) = Z {yі ~ yі )yі ~ y Z ei = Z {yi " yі )(« + Pxi)У Z e
i-1 i=1 i-1 i-1 i-1
a Z ei + 0 YXyi ~ yi )xi ~ y Z ei .
i=1
Ho
XЄ =Yyl -(& + fix,)) = 0
i = 1 !=1
(см. первое уравнение из системы нормальных уравнений). К тому же,
X(у-уЬ= Е[уі -(а+рxi))*t =0
(см. второе уравнение из системы нормальных уравнений). Таким образом,
Y.{yi -уі)(уі -у)=0,
i= 1
и, следовательно, справедливо представление
Y.{yi у )2 =Z(& ■у )2 + H(yi -у і У
i=1
i= 1
так что
—2
И(уі у У
И(уі у У
11(уі у У
і=1
і=1
_2
ESS = ^{уі ~у)
i=1
—2
Сумму квадратов, стоящую в знаменателе, будем называть полной суммой квадратов (total sum of squares) и будем использовать для ее обозначения аббревиатуру TSS, так что
TSS = ^(yt у)
г=1
Напомним также, что нами уже была определена остаточная сумма квадратов
i= 1
Все эти три суммы квадратов связаны соотношением
TSS = ESS + RSS
которое представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, иоста-точную сумму квадратов. Используя эти три суммы, мы находим также, что
R2
ESS TSS
1
RSS TSS
Таким образом, значение R тем выше, чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной сумме квадратов TSS.
Термины «полная» и «объясненная моделью» суммы квадратов имеют следующее происхождение. Полная сумма квадратов соответствует значению RSS в ситуации, когда /3 0 и «наилучшая» прямая имеет вид у = у, отрицающий наличие линейной зависимости у от x. Вследствие этого, привлечение информации о значениях переменной x не дает ничего нового для объяснения изменений значений у от наблюдения к наблюдению. Степень этой изменчивости мы уже характеризовали значением выборочной дисперсии n 1 тГг n 1
i=1
при этом, TSS = RSS и ESS = 0.
В ситуации, когда J3 Ф 0, мы имеем нетривиальное представление TSS = ESS + RSS , с ESS Ф 0, и поэтому можно записать:
тг , ч TSS ESS RSS
Var(y) = = + .
n — 1 n — 1 n — 1
Ho
ESS Z(yi -y)2 Z(з)i Var (j;)
n 1 n 1 n 1
где y — переменная, принимающая в i м наблюдении
n
значение yi. (Здесь мы использовали тот факт, что Z Єі = 0 ,
n n n
так что Z (Уі ~ Уі ) = 0 , Z Уі = Z Уі и у = у .) к т0му же,
і -1 і -1 і -1
n n n
DCe T,iyi -yi)2 Ze2 Z(ei -e)2
Var(e)
n 1 n 1 n 1 n 1
где e — переменная, принимающая в і м наблюдении значение ei. (Здесь мы использовали тот факт, что
e = £ Єі / n 0.)
і=1
В итоге, мы получаем разложение Var(y) Var(y) + Var(e) ,
показывающее, что изменчивость переменной у (степень которой характеризуется значением Var(у) ) частично объясняется изменчивостью переменной у (степень которой характеризуется значением Var (у) ). Не объясненная переменной у часть изменчивости переменной у соответствует изменчивости переменной e (степень которой характеризуется значением Var ( e)).
Таким образом, вспомогательная переменная у берет на себя объяснение некоторой части изменчивости значений переменной у, и эта объясненная часть будет тем больше, чем
выше значение коэффициента детерминации R2, который мы теперь можем записать также в виде
Поскольку переменная у получается линейным преобразованием переменной x, то изменчивость у однозначно связана с изменчивостью x, так что, в конечном счете, построенная модель объясняет часть изменчивости переменной у
изменчивостью переменной x. Поэтому, принять говорить в таком контексте о переменной у как об объясняемой переменной, а о переменной x — как об объясняющей переменной.
Вернемся опять к нашему примеру. В этом примере
ESS = 0.043474 RSS = 0.161231 TSS = 0.204705,
так что
Var (у) Var(e)
0.043474/16 _ 0.002717, = 0.161231/16 _ 0.010077,
Var (у) = 0.012784,
R2 = 0.043474/0.204705 = 0.212374.
Значение коэффициента детерминации оказалось достаточно малым, и один из последующих вопросов будет состоять в том, сколь близким к нулю должно быть значение R2, чтобы мы могли говорить о практическом отсутствии линейной связи между переменными.
Обсуждение Институт экономики переходного периода
Комментарии, рецензии и отзывы