2.2. регрессия по методу наименьших квадратов
2.2. регрессия по методу наименьших квадратов
Допустим, что вы имеете четыре наблюдения для х и .у, представленные на рис. 2.1, и перед вами поставлена задача — определить значения а и J} в уравнении (2.1). В качестве грубой аппроксимации вы можете сделать это, отложив четыре точки Р и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис. 2.2. Отрезок, отсекаемый прямой на оси у, представляет собой оценку а и обозначен а, а угловой коэффициент прямой представляет собой оценку р и обозначен Ь.
С самого начала необходимо признать, что вы никогда не сможете рассчитать истинные значения аир при попытке построить прямую и определить положение линии регрессии. Вы можете получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в этом случае у вас не будет способа узнать, что оценки абсолютно точны.
Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная вами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 2.3 при х = Xj соответствующей ему точкой на линии регрессии будет R{ со значением у, которое мы обозначим ${ вместо фактически наблюдаемого значения yv Величина^ описывается как расчетное значение у, соответствующее х,. Разность между фактическим и расчетным значениями (ух — рх), определяемая отрезком PXRX, описывается как остаток в первом наблюдении. Обозначим его ех. Соответственно, для других наблюдений остатки будут обозначены как е2, е3 и ел.
Очевидно, что мы хотим построить линию регрессии таким образом, чтобы эти остатки были минимальными. Очевидно также, что линия, строго соответствующая одним наблюдениям, не будет соответствовать другим, и наоборот. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков.
Существует целый ряд возможных критериев, одни из которых «работают» лучше других. Например, бесполезно минимизировать сумму остатков.
Сумма будет автоматически равна нулю, если вы сделаете а равным у, а р
равным нулю, получив горизонтальную линию у = у. В этом случае положительные остатки точно уравновесят отрицательные, но строгой зависимости при этом не будет.
Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков S. Для рис. 2.3 верно такое соотношение:
(2.2)
Величина S будет зависеть от выбора а и Ь, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше S, тем строже соответствие. Если S= О, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена.
Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки а и р. По этой причине метод наименьших квадратов является наиболее популярным в вводном курсе регрессионного анализа. В данной работе рассматривается обычный метод наименьших квадратов (МНК, или OLS — ordinary least squares). В последующих разделах будут рассмотрены другие его варианты, которые могут быть использованы для решения некоторых специальных проблем.
Обсуждение Введение в эконометрику
Комментарии, рецензии и отзывы