4. примеры решения типовых задач

4. примеры решения типовых задач: Эконометрика, В.С. Мхитарян, 2008 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Рекомендовано Учебно-методическим объединением по образованию в области статистики в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 061700 «Статистика» и другим экономическим специальностям.

4. примеры решения типовых задач

4.1. Корреляционный анализ Анализ взаимосвязи социально-экономических показателей группы стран

В ходе корреляционного анализа выявляется статистическая взаимосвязь между признаками и отбираются переменные для включения в регрессионную модель. Предпосылками корреляционного анализа являются случайность признаков и нормальный многомерный закон их совместного распределения. Поэтому необходимым условием для его проведения является однородность выборки, простейший способ обеспечения которой -группировка объектов по общности их основных свойств.

По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, рассчитана матрица выборочных парных коэффициентов корреляции

Х1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

1

-0,879

-0,758

-0,556

0,767

-0,600

0,826

-0,580

0,698

Х2

1

0,817

0,710

-0,591

0,631

-0,676

0,406

-0,514

Х3

1

0,717

-0,515

0,664

-0,615

0,433

-0,466

Х4

1

-0,249

0,624

-0,329

0,313

-0,057

Х5

1

-0,604

0,963

-0,865

0,851

Хб

1

-0,658

0,612

-0,419

Х7

1

-0,833

0,906

Х8

1

-0,637

Х9

1

Исследуемый признак xi детская смертность (число умерших младенцев на 1000 новорожденных). Требуется:

Проверить значимость каждого из коэффициентов на уровне значимости а = 0,05.

Определить признаки, наиболее важные для объяснения вариации исследуемой переменной, рассчитать выборочные частные коэффициенты корреляции исследуемого признака с каждым из признаков при фиксированном значении остальных. Найти интервальные оценки частных коэффициентов корреляции, определить значимость коэффициентов. Сравнить частные коэффициенты корреляции с соответствующими парными и сделать выводы относительно роли исключенной переменной в изменении степени тесноты статистической связи, характеризуемой этими коэффициентами корреляции.

Рассчитать значение множественного коэффициента корреляции исследуемого признака с выбранными в п.2 признаками. Найти коэффициент детерминации, проверить его значимость.

Решение:

1) Определим по таблице Фишера-Йейтса критическое значение гкр для одного из наиболее часто использующихся уровней значимости а=0,05. С учетом объема выборки n=20 находим число степеней свободы v=n-2=18. По данным таблицы получаем гкр = 0,444.

Для выборочных парных коэффициентов корреляции Гц, абсолютная величина которых превосходит критическое значение, отвергается гипотеза о равенстве нулю соответствующих им истинных коэффициентов корреляции (H0: Pij=0), и они считаются значимыми. Остальные истинные значения коэффициентов корреляции от нуля существенно не отличаются. Подчеркнем значимые коэффициенты корреляции

X1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

1

-0,879

-0,758

-0,556

0,767

-0,600

0,826

-0,580

0,698

Х2

1

0,817

0,710

-0,591

0,631

-0,676

0,406

-0,514

Х3

1

0,717

-0,515

0,664

-0,615

0,433

-0,466

Х4

1

-0,249

0,624

-0,329

0,313

-0,057

Х5

1

-0,604

0,963

-0,865

0,851

Хб

1

-0,658

0,612

-0,419

Х7

1

-0,833

0,906

Х8

1

-0,637

Х9

1

С вероятностью 1-а=0,95 можно утверждать наличие статистически значимой связи между i-м и j-м признаками, выборочный парный коэффициент корреляции которых rij значим. Связь между другими признаками с такой мерой уверенности не установлена (что, впрочем, не дает оснований говорить о ее отсутствии).

2) Среди признаков, которые могут обусловливать вариацию детской смертности, выделим уровень грамотности населения (Х4) и среднее число детей в семье (Х9). Соответствующие парные коэффициенты корреляции значимы и свидетельствуют о наличии существенной связи между этими переменными и исследуемой переменной. Ограничив корреляционную модель исследуемой переменной и двумя выбранными признаками, запишем для нее матрицу парных коэффициентов корреляции, взяв значения коэффициентов из общей корреляционной матрицы

r14(9)

где A;j алгебраическое дополнение элемента r;j матрицы выборочных парных коэффициентов корреляции.

В данном случае, благодаря небольшой размерности матрицы, несложно получить расчетное соотношение в аналитическом виде

г — Г14 ~ Г19Г49

Г14(9) - ; .

V(1 r129)(1 4)

После подстановки значений получаем

-0,556 0,698 • (-0,057)

r14(9) - , = -0,722 .

0,6982)(1 (-0,057)2)

Аналогично определяем другой выборочный частный коэффициент корреляции

r19(4) = і 19 14 49 і r19(4) = 0,803 . r124)(1 4)

Выборочные частные коэффициенты корреляции r14(9) и r19(4) не отличаются по знаку от соответствующих парных коэффициентов r14 и r19, но превосходят их по абсолютной величине. Следовательно, исключаемый признак x9 ослабляет взаимосвязь между признаками Х1 и Х4, а признак Х4 ослабляет связь признаков Х1 и Х9.

Рассчитаем интервальные оценки парных коэффициентов корреляции. Определяемая значением выборочного коэффициента корреляции величина z = ^1пу+~-, называемая

z-преобразованием Фишера, распределена приближенно нормально с математическим

1, 1+ Р Р - 2 1

ожиданием z = — ln—-+—-— и дисперсией а2 = , где m число исключенных ве2 1 -р 2(n -1) n m 2

личин, р истинное значение коэффициента корреляции. Интервальная оценка для нормально распределенной величины определяется выражением

где 0(t Y) интеграл Лапласа, , ^ 7 + r r

z =— ln 1 несмещенная оценка математического ожидания.

2 7 r 2(n 7)

Для выборочного частного коэффициента корреляции r14(9)= -0,722 получаем z = -0,931. Можно использовать приближенное значение без поправки на несмещенность, оп

ределяемое по таблице z-преобразования Фишера, z'«-0,91. Используя последнее значение и определив по таблице нормального закона распределения для 0(t Y ) = 1-а=0,95 величину t Y=1,96, получаем

P(-1,4 < z < -0,42) = 0,95.

По таблице z-преобразования Фишера находим значения коэффициента корреляции р, соответствующие границам интервала величины z, и определяем его интервальную оценку

P(-0,89 < р14(9) < -0,40) = 0,95.

В интервале возможных значений частного коэффициента корреляции нуль не содержится, поэтому с вероятностью 0,95 можно утверждать, что частный коэффициент корреляции нулю не равен. Диапазон возможных значения частного коэффициента корреляции показывает, что между детской смертностью и уровнем грамотности взрослого населения существует обратная линейная статистическая зависимость, степень тесноты которой либо умеренная, либо сильная.

Аналогично получим интервальную оценку для другого частного коэффициента корреляции

P(0,71< р19(4) < 0,92) = 0,95.

Этот коэффициент также является значимым, а диапазон его значений указывает на прямую зависимость детской смертности от среднего числа детей в семье.

Рассчитаем значение выборочного множественного коэффициента корреляции исследуемого признака x1 по формуле

R =

R . .

1 , где R определитель матрицы выборочных парных коэффициентов корRi

41

реляции.

Расчетное аналитическое соотношение будет иметь вид

R1

1 4

r14 + 2Г14Г49Г19

(-0,556)2 + 0,6982 2 • (-0,556) • 0,698 • (-0,057)

— - „ — = 0,869 .

1 (-0,057)2

Подставим значения выборочных парных коэффициентов корреляции и получим

R1

Рассчитанный коэффициент является выборочным значением множественного коэффициента корреляции максимального среди взятых по модулю парных коэффициентов корреляции переменной x1 с линейными комбинациями признаков x4 и x9. Квадрат множественного коэффициента корреляции коэффициент детерминации р2(49) показывает долю дисперсии исследуемой случайной переменной, обусловленную вариацией включенных в модель признаков. Выборочное значение коэффициента детерминации R2 = r1^49)= 0,755. Остальные 24,5\% дисперсии исследуемой переменной обусловлены действием признаков, не включенных в модель. С помощью F-критерия определим значимость коэффициента детерминации, проверив гипотезу H0: р2(49) = 0. Вычислим значение F-статистики

F = Х1(49) ' ^

н (1 Г12(49))/(20 3)

Рассчитанное значение F = 26,16 сравним с критическим Ркр = 3,59, найденным по

таблице Фишера Снедекора для уровня значимости а = 0,05 и числа степеней свободы числителя v1 = 2 и знаменателя v 2 = n 3 = 17.

Так как рассчитанное значение превышает критическое, проверяемая гипотеза отвергается, и с вероятностью 1-а=0,95 можно утверждать, что множественный коэффициент корреляции р1(49) не равен нулю. Следовательно, существует статистически значимая связь детской смертности с уровнем грамотности взрослого населения и средним числом детей в семье.

4.2. Регрессионный анализ Регрессионная модель уровня детской смертности

В ходе регрессионного анализа выявляется форма и параметры зависимости одного из признаков, называемого зависимой переменной, от других объясняющих переменных, считающихся неслучайными величинами. Зависимая переменная представляет собой наиболее важный из практических соображений признак. Отбор признаков для использования в качестве объясняющих переменных производится на основе анализа их содержательной сущности и результатов корреляционного анализа. При этом из признаков, связанных зависимостью, близкой к неслучайной функциональной, выбирают какой-либо один во избежание эффекта мультиколлинеарности объясняющих переменных. Выбор вида уравнения регрессии определяется сущностью изучаемого явления. Простейшей из регрессионных моделей является линейная. Оценка параметров уравнения входит в число важнейших задач регрессионного анализа. Наряду с нахождением значений параметров оценивается их точность, проверяется значимость уравнения и его коэффициентов.

По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, наряду с приведенной выше матрицей выборочных парных коэффициентов корреляции, построены уравнения регрессии. В этих уравнениях зависимой переменной является социально значимый признак Х1 детская смертность (число умерших младенцев на 1000 новорожденных). В качестве объясняющих переменных использованы признаки в различных комбинациях

y = 99,891 0,225х3 0,957х4 + 0,215х6 + 12,994х9 ; r2=0,774; f=12,883;

(42,430) (0,200) (0,564) (1,005) (3,738)

y = 31,134 0,497x3 + 9,939x9 ; R2=0,726; F=22,556;

(12,652) (0,128) (3,241)

y = 30,980 0,445x3 0,493x6 +9,661x9; R2=0,730; F=14,455;

(12,945) (0,161) (0,989) (3,362)

y = 121,093 1,354x4 + 15,099x9 ; R2=0,775; F=26,159.

(31,207) (0,314) (2,718)

Для каждого уравнения рассчитаны значения коэффициентов детерминации и F-статистик. Под коэффициентами приведены значения их выборочных средних квадра-тических отклонений.

Требуется:

Используя критерий Фишера, проверить на уровне а=0,05 значимость каждого из уравнений регрессии. В значимых уравнениях рассчитать значения t-статистик всех коэффициентов. Переписать уравнения регрессии, указывая под коэффициентами значения t-статистик.

По таблице распределения Стьюдента определить tq, критическое значение t-статистики для каждого из уравнений на уровне значимости а=0,05. Проверить значимость коэффициентов уравнения регрессии.

Выбрать из предложенных уравнений наилучшее. Рассчитать интервальные оценки его коэффициентов. Произвести анализ уравнения.

Решение:

Для каждого из уравнения определим F^, критическое значение F-статистики по таблице Фишера Снедекора при уровне значимости а = 0,05 и числе степеней свободы числителя р, а знаменателя v=n-p-1, где р число регрессоров в уравнении. Получаем

Значения F-статистик всех уравнений превышают соответствующие критические значения. Следовательно, все уравнения являются статистически значимыми.

Для проверки значимости коэффициентов проверим гипотезу о равенстве нулю каждого истинного значения в каждого из них H0: в=0. Для этого вычислим по выборочному значению b каждого коэффициента и его выборочному среднему квадратическому отклонению S статистику

t - b нs -s.

Для первого коэффициента первого уравнения tн 99,891/42,430 2,354 . Вычислим значения остальных t-статистик и запишем уравнения с указанием их значений

y = 99,891 0,225x3 0,957x4 + 0,215x6 + 12,994x9 ; R2=0,774; F=12,883; (2,354) (-1,125) (-1,696) (0,210) (3,476)

y = 31,134 0,497x3 + 9,939x9 ; R2=0,726; F=22,556;

(2,461) (-3,856) (3,067)

y = 30,980 0,445x3 0,493x6 +9,661x9; R2=0,730; F=14,455;

(2,393) (-2,770) (-0,499) (2,871)

y = 121,093 1,354x4 + 15,099x9 ; R2=0,775; F=26,159.

(3,880) (-4,309) (5,554)

Критические значения t-статистик обычно лежат в интервале от 2 до 3. Рассчитаем их для каждого уравнения по таблице распределения Стьюдента для уровня значимости а=0,05 и числа степеней свободы v=n-p-1, где p число регрессоров в уравнении.

1кр1(0,05;15) = 2,131; ^(0,05;17) = ^(0,05;17) = 2,110; t^(0,05;16) = 2,120.

Сравним абсолютные величины t-статистик с критическими значениями.

Если |t н |> tкр, то с вероятностью 1-а=0,95 истинный коэффициент уравнения регрессии нулю не равен, и соответствующий признак влияет на вариацию зависимой переменной. В противном случае предположение о нулевом значении коэффициента и, следовательно, об отсутствии влияния регрессора на поведение зависимой переменной не противоречит имеющимся данным, и такой коэффициент считается незначимым.

Выделим значимые коэффициенты в каждом уравнении

y = 99,891 0,225Х3 0,957х4 + 0,215х6 + 12,994х9; t^=2,131; R2=0,774; F=12,883; (2,354) (-1,125) (-1,696) (0,210) (3,476)

y = 31,134 0,497x3 + 9,939x9; t^=2,110; R2=0,726; F=22,556;

(2,461) (-3,856) (3,067)

y = 30,980 0,445x3 0,493x6 +9,661x9; ^=2,120; R2=0,730; F=14,455;

(2,393) (-2,770) (-0,499) (2,871)

y = 121,093 1,354x4 + 15,099x9; t^=2,110; R2=0,775; F=26,159.

(3,880) (-4,309) (5,554)

Во втором и четвертом уравнениях все коэффициенты значимы.

3) Для практического использования пригодны лишь уравнения со значимыми коэффициентами при регрессорах. Выберем из соответствующих данному условию уравнений то, которое характеризуется наибольшей величиной коэффициента детерминации R ,

y = 121,093 1,354x4 + 15,099x9; t^=2,110; R2=0,775; F=26,159. (3,880) (-4,309) (5,554)

Рассчитаем интервальные оценки его коэффициентов

Р(Ь taSb < Р < Ь + taSb) = Y.

По таблице распределения Стьюдента для доверительной вероятности у=1-а =0,95 найдем с учетом числа степеней свободы v=n-k-1 значение ta = t0;05 = 2,110. С учетом приведенных в исходных данных значений выборочных средних квадратических отклонений Sb коэффициентов определим интервальную оценку коэффициента Ь0

Р(Ь0 taSb0 < Р < Ь0 + taSb0) = Y,

P(121,093 2,110 • 31,207 < Д, < 121,093 + 2,110 • 31,207) = 0,95, P(55,246 < в0 < 186,940) = 0,95 и остальных коэффициентов

P(-2,017 < Д < -0,691) = 0,95, P(9,364 <Р2 < 20,834) = 0,95 .

Нуль не содержится ни в одном из рассчитанных интервалов возможных значений коэффициентов уравнения регрессии, что еще раз свидетельствует о значимости каждого из коэффициентов.

С увеличением уровня грамотности населения на один процент детская смертность снижается в среднем на 1,354 событий на 1000 новорожденных, при этом с вероят

Эконометрика

Эконометрика

Обсуждение Эконометрика

Комментарии, рецензии и отзывы

4. примеры решения типовых задач: Эконометрика, В.С. Мхитарян, 2008 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Рекомендовано Учебно-методическим объединением по образованию в области статистики в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 061700 «Статистика» и другим экономическим специальностям.