7.12. основы дисперсионного анализа
7.12. основы дисперсионного анализа
Может быть поставлена задача сравнения двух выборочных дисперсий. Для ее решения применяется критерий, названный в честь английского статистика Рональда Фишера (1890 1968) Fкритерием. Этот критерий представляет собой отношение выборочных дисперсий s21 и s22, которые рассматриваются как оценки одной и той же генеральной дисперсии s2:
.
Испытуемая гипотеза является нулевой гипотезой Н0 : s21 = s22 = s2, альтернативная гипотеза Н1 : s21 ≠ s22 ≠ s2 .
F-критерий строится так, что в числителе стоит бо́льшая дисперсия. Fmin = 1, Fmax ® ¥ . Критические значения критерия F берутся из таблиц F-распределения. F-распределение зависит от уровня значимости и от числа степеней свободы сравниваемых дисперсий d.f.1 и d.f.2 (cм. приложение, табл. 3).
В дисперсионном анализе общая вариация подразделяется на составляющие и производится сравнение этих составляющих. Испытуемая гипотеза состоит в том, что если данные каждой группы представляют случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной дисперсии.
Дисперсионный анализ часто применяется совместно с аналитической группировкой (см. гл. 6). В этом случае данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах, считается, что различия в их значениях определяются различиями в значениях фактора. Задача состоит в оценке существенности различий между средними значениями результативного признака в группах. Итак, испытуемая гипотеза может быть записана как гипотеза о средних величинах Н0 : m1 = m2 =m3 =… Как было показано в предыдущем параграфе, когда выделяются две группы, эта задача решается с помощью t-критерия. Если же число сравниваемых групп больше двух, то существенность различий между группами доказывается с помощью дисперсионного анализа, на основе F-критерия. Заметим, что результаты дисперсионного анализа, так же как и выводы о характере связи, значения показателей ее силы и тесноты, зависят от числа групп, выделенных по признаку-фактору.
В случае выделения групп по одному фактору мы имеем так называемый однофакторный дисперсионный комплекс. Разложение дисперсии при этом производится в соответствии с правилом сложения дисперсий (см. гл. б):
,
где уij значение результативного признака у i-й единицы в j-й группе;
i номер единицы, i = 1, .... п.;
j номер группы;
пjчисленность у-й группы;
yj средняя величина результативного признака в у-й группе;
у̅ — общая средняя результативного признака.
Если обозначить суммы квадратов отклонений буквой D, получим равенство:
Dобщ = Dфакт +Dост (7.41)
На основе разложения дисперсии (7.41) в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степени свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной). Число степеней'свободы равно:
для общей вариации
для межгрупповой вариации ;
для внутригрупповой вариации
Как и суммы квадратов отклонений, числа степеней свободы связаны между собой равенством:
или
п 1 = (m 1) + (п т). (7.42)
Деление сумм квадратов отклонений на соответствующее число степеней свободы дает три оценки генеральной дисперсии s2 .
,
, (7.43)
.
Поскольку Dфакт измеряет вариацию результативного признака, связанную с изменением фактора, по которому произведена группировка, a Dост вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью F-критерия:
.
Эта запись предполагает, что s2факт > s2ост. Как правило, мы получаем именно такое соотношение. Если F факт > Fтабл (a., d.f.1, d.f.2), можно утверждать, что нуль-гипотеза не соответствует фактическим данным, влияние признака-фактора является существенным или, иначе говоря, статистически значимым.
Рассмотренные этапы однофакторного дисперсионного анализа представлены в табл. 7.9.
Таблица 7.9
Схема однофакторного дисперсионного анализа
Источник вариации | Сумма квадратов отклонений D | Число степеней свободы d.f. | Средний квадрат отклонений s2=D:d.f. | F-критерий |
Между группами |
| m-1 | s21 |
|
Внутри групп |
| n-m | s22 | |
Общая |
| n-1 | s2 |
По данным табл. 6.6 проверим гипотезу Н0 : m 1= m2 ..., т. е. предположим, что оборачиваемость средств никак не влияет на прибыль.
Dфакт = 172,76, d.f.факт =3-1=2, s21 = 86,38;
Dост – Dобщ Dфакт = 224,4 172.76 = 51,64;
d.f.ост = 20 3=17; s22 = 3,03.
Тогда F = 28,5. Критическое значение F-критерия из табл. 3 приложения F(a=0,05, d.f.1=2, d.f.2=17) = 3,59. Таким образом Fфакт > Fкрит следовательно, Н0 отклоняется. Действительно, скорость оборота средств является очень важным фактором формирования прибыли, на это указывало и значение эмпирического корреляционного отношения h = 0,881.
Рассмотрим двухфакторный дисперсионный анализ, основой проведения которого служит комбинационная группировка по двум факторам х и z, с последующим разложением дисперсии результативного признака у:
(7.44)
где i номер единицы в j-й группе по признаку х и k-й по признаку z;
j = 1̅,т̅,
k =I̅р̅, у̅jk среднее значение признака у̅ в группе, образованной ком-бинацией j-го значения признака х и k-го значения признака z;
у̅j среднее значение признака у в j-й группе по признаку х;
y̅k среднее значение признака у в k-й группе по признаку z;
у̅ общая средняя признака y в целом по выборке;
пjk число единиц в группе, образованной комбинацией j-го значения признака х и k-го значения признака z;
пj число единиц в j-й группе по признаку х,
пk число единиц в k-й группе по признаку z;
т Р т р
побщее число единиц,
Равенство (7.44) можно записать так:
Dобщ = Dx + Dz + Dxz + Dост (7.45)
где Dч вариация у под влиянием фактора x;
Dz вариация у под влиянием фактора z;
Dxz вариация у, обусловленная взаимодействием факторов х и z;
Dост вариация у под влиянием прочих факторов.
Первые три слагаемые составляют вариацию признака у, вызванную изучаемыми факторами, поэтому равенство (7.45) можно записать в виде:
Dобщ = Dфакт +Dост (7.46)
где
Dфакт = Dх + Dz + Dxz. (7.47)
Величина Dфакт может быть рассчитана не через составляющие, а непосредственно как
(7.48)
Однако при неравенстве численностей подгрупп пjk и групп пj и пk равенство нарушается (за счет взвешивания при неравных весах).
Поэтому рассчитываются невзвешенные величины:
;
; (7.49)
;
.
Затем на основе сравнения взвешенной (7.48) и невзвешенной величин факторной дисперсии находят поправочный коэффициент:
(7.50)
Этот коэффициент используется для корректировки невзвешенных сумм квадратов отклонений , на основе которых проводят расчет F-критериев:
(7.50)
Число степеней свободы для каждой суммы квадратов отклонений составляет:
d.f.x=m1; d.f.z = p 1; d.f.xz = (m-1)(p -1) = mp т р + 1,
в целом
d.f.факт = d.f.x + d.f.z + d.f.xz = mp-1;
(7.51)
В двухфакторном дисперсионном анализе испытуемые гипотезы формулируются следующим образом:
1. Н0 : m1∙ = m2. =…mm
2. Н0 : m1∙ = m2. =…mp
3. Н0 : m1∙ = m2. =…mmp
Вся процедура двухфакторного дисперсионного анализа обобщается в табл. 7.10.
Таблица 7.10
Схема двухфакторного дисперсионного анализа
Источник вариации | Сумма квадратов отклонений D | Число степеней. свободы d. f. | Средний квадрат отклонений s2 = D/d.f. | F-критерий |
Факторы х и z | D¢факт∙K | mp 1 | s2факт | |
Фактор х | D¢x∙K | m 1 | s2x | |
Фактор z | D¢z∙K | p 1 | s2z | |
Взаимодействие факторов х и z | (D¢фактD¢x- D¢z)∙K | mp – p-m+1 | s2xz | |
Остаточная | Dобщ D¢факт∙K | n mp | s2ост | |
Общая | Dобщ | n 1 | s2 |
Решение о первой гипотезе принимается на основе сравнения
с .
Если Fфакт > Fкрит, то Н0 отклоняется.
Вторая гипотеза испытывается на основе сравнения
c
Третья на основе сравнения
c
Во всех случаях, если Fфакт > Fкрит, Н0 отклоняется. На основе F-критерия принимаются решения о форме уравнения регрессии, о статистической значимости той или иной объясняющей переменной при построении многофакторного уравнения регрессии (см. гл. 8) и др.
Рассмотренные направления проверки статистических гипотез охватывают лишь важнейшие из них. Процедура испытания статистических гипотез применяется для определения того, случайно или нет полученное значение коэффициента корреляции, коэффициента вариации и т. д., случайны или нет различия в значениях показателей (медиан, коэффициентов корреляции, регрессии и т.д.) в разных совокупностях. Во всех случаях результатом является вероятностное суждение, которое составляет сущность анализа данных в разнообразных сферах: в медицине, биологии, технике, политике, спорте, экономике, психологии и социологии.
Обсуждение Общая теория статистики
Комментарии, рецензии и отзывы