10.2. робастность статистических процедур

10.2. робастность статистических процедур: Эконометрика, А.И.Орлов, 2002 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Эконометрика исследует конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей.

10.2. робастность статистических процедур

Термин "робастность" (robustness англ.) образован от robust крепкий, грубый (англ.). Сравните с названием одного из сортов кофе robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей.

Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась.

Пусть исходные данные это выборка, т.е. совокупность независимых одинаково распределенных случайных величин с одной и той же функцией распределения F(x). Наиболее простая модель изучения устойчивости это модель засорения

F(x) = (l-s)F0(x) + sH(x). (1)

Эта модель имеются также моделью Тьюки-Хубера. (Джон Тьюки американский исследователь, П.Хубер, или Хьюбер швейцарский ученый) Модель (1) показывает, что с близкой к 1 вероятностью, а именно, с вероятностью (l-є), наблюдения берутся из

совокупности с функцией распределения F0(x), которая предполагается обладающей

"хорошими" свойствами. Например, она имеет известный эконометрику вид (хотя бы с точностью до параметров), у нее существуют все моменты, и т.д. Но с малой вероятностью є появляются наблюдения из совокупности с "плохим" распределением, например, взятые из распределения Коши, не имеющего математического ожидания, резко выделяющиеся аномальные наблюдения, выбросы.

Актуальность модели (1) не вызывает сомнений. Наличие засорений (выбросов) может сильно исказить результаты эконометрического анализа данных. Ясно, что если функция распределения элементов выборки имеет вид (1), где первое слагаемое соответствует случайной величине с конечным математическим ожиданием, а второе -такой, для которого математического ожидания не существует (например, если Н(х) -функция распределения Коши), то для итоговой функций распределения (1) также не существует математического ожидания. Исследователя обычно интересуют характеристики первого слагаемого, но найти их, т.е. освободиться от влияния засорения, не так-то просто. Например, среднее арифметическое результатов наблюдений не будет иметь никакого предела (это строгое математическое утверждение, вытекающее из того, что математическое ожидание не существует [3]).

Существуют различные способы борьбы с засорением. Эмпирическое правило "борьбы с засорениями" при подведении итогов работы команды судей найдено в фигурном катании: наибольшая и наименьшая оценки отбрасываются, а по остальным рассчитывается средняя арифметическая (см. главу 12). Ясно, что "засорение" окажется среди отброшенных оценок.

Оценивать характеристики и параметры, проверять статистические гипотезы, вообще осуществлять эконометрический анализ данных все чаще рекомендуют на основе эмпирических квантилей (другими словами, порядковых статистик, членов вариационного ряда), отделенных от концов вариационного ряда. Речь идет об использовании статистик типа

ах(ОДи) + bx(0,3n) + сх(0,5п) + dx(0,7n) + ех(0,9п). Ценой небольшой потери в эффективности избавляемся от засоренности типа описанной в модели (1).

Вариантом этого подхода является переход к сгруппированным данным. Прямая разбивается на интервалы, и вместо количественных значений эконометрик подсчитывает лишь, сколько наблюдений попало в те или иные интервалы. Особое значение приобретают крайние интервалы к ним относят все наблюдения, которые больше некоторого верхнего порога и меньше некоторого нижнего порога. Любым методам анализа сгруппированных данных резко выделяющиеся наблюдения не страшны.

Можно поставить под сомнение и саму опасность засорения. Дело в том, что практически все реальные величины ограничены. Все лежат на каком-то интервале от и до. Это совершенно ясно, если речь идет о физическом измерении все укладывается в шкалу прибора. По-видимому, и для эконометрических измерений наибольшие сложности создают не сверхбольшие помехи, а не засорения, что находятся "на грани" между "интуитивно возможным" и "интуитивно невозможным".

Что же это означает? Если элементы выборки по абсолютной величине не превосходят числа А, то все засорение может сдвинуть среднее арифметическое на величину єА. Если засорение невелико, то и сдвиг мал.

Построена достаточно обширная и развитая теория, посвященная разработке и изучению методов анализа данных в модели (1). С ней можно познакомиться по монографиям [4-6]. К сожалению, в теории обычно предполагается известной степень засорения є, а на практике эта величина неизвестна. Кроме того, теория обычно направлена на защиту от воздействий, якобы угрожающих из бесконечности, а на самом деле реальные данные финитны (сосредоточены на конечных отрезках). Все это объясняет, почему теория робастности, исходящая из модели (1), популярна среди теоретиков, но мало интересна тем, кто анализирует реальные экономические данные.

Рассмотрим несколько более сложную модель. Пусть наблюдаются реализации независимых случайных величин х1,х2,...,хп с функциями распределения

Fl (х), F2 (х),...., Fn(x) соответственно. Эта модель соответствует гипотезе о том,

что в процессе наблюдения (измерения) условия несколько менялись. Естественной представляется модель малых отклонений функций распределений наблюдаемых случайных величин от некоторой "базовой" функции распределения F0 (х). Множество

возможных значений функций распределений наблюдаемых случайных величин описывается следующим образом:

L((Fl,F2,....,FJ;s) = {(Fl,F2,....,FJ : sup | Fi(х) -F0(х) |< є,і = 1,2,...,и].

X

Следующий тип моделей это введение малой (т.е. слабой) зависимости между рассматриваемыми случайными величинами (см., например, монографию [7]). Ограничения на взаимную зависимость можно задать разными способами. Пусть F(xl,x2,...,xn) совместная функция распределения, p(i,j)коэффициент корреляции

между г'-ой и у'-ой случайными величинами. Множество возможных совместных функций распределения описывается следующим образом:

z{F(Xl,x2,...,xn);s) = {F(Xl,x2,...,xn):p(i,j) |< є,I <i<j<n).

Есть еще целый ряд постановок задач робастности. Если накладывать погрешности непосредственно на результаты наблюдений (измерений), то получаем постановки задач статистики интервальных данных (см. главу 11), поскольку каждый результат наблюдения превращается в интервал исходное значение плюс-минус погрешность.

Разработано много вариантов робастных методов анализа статистических данных (см. монографии [1,4-6]). Иногда говорят, что робастные методы позволяют использовать информацию о том, что реальные наблюдения лежат "около" тех или иных параметрических семейств, например, нормальных. В этом, дескать, их преимущество по сравнению с непараметрическими методами, которые предназначены для анализа данных из всех возможных распределений. Однако количественных подтверждений этих уверений любителей робастных методов обычно не удается найти.

10.3. Устойчивость по отношению к объему выборки

В настоящем пункте рассматривается проблема и методы оценки близости предельных распределений статистик и распределений, соответствующих конечным объемам выборок. При каких объемах выборок уже можно пользоваться предельными распределениями? Каков точный смысл термина "можно" в предыдущей фразе? Основное внимание уделяется переходу от точных формул допредельных распределений к пределу и применению метода статистических испытаний (Монте-Карло).

Асимптотическая математическая статистика и практика анализа статистических данных. Как обычно подходят к обработке реальных данных в конкретной эконометрической задаче? Первым делом строят статистическую модель. Если хотят перенести выводы с совокупности результатов наблюдений на более широкую совокупность, например, предсказать что-либо (см. главу 14), то рассматривают, как правило, вероятностно-статистическую модель. Например, традиционную модель выборки, в которой результаты наблюдений реализации независимых (в совокупности) одинаково распределенных случайных величин. Очевидно, любая модель лишь приближенно соответствует реальности. В частности, естественно ожидать, что распределения результатов наблюдений несколько отличаются друг от друга, а сами результаты связаны между собой, хотя и слабо (см. предыдущий пункт).

Итак, первый этап переход от реальной ситуации к математической модели. Далее неожиданность: на настоящем этапе своего развития математическая теория эконометрики и статистики зачастую не позволяет провести необходимые исследования для имеющихся объемов выборок. Более того, отдельные математики пытаются оправдать свой отрыв от практики соображениями о структуре этой теории, на первый взгляд убедительными. Неосторожная давняя фраза Б.В. Гнеденко и А.Н.Колмогорова: "Познавательная ценность теории вероятностей раскрывается только предельными теоремами" (см. классическую монографию [8], одну из наиболее ценных математических книг XX в.) взята на вооружение и более близкими к нам по времени авторами. Так, И.А. Ибрагимов и Р.З. Хасьминский пишут: "Решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто зависит от конкретного типа распределения, объема выборки и т.д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона" (см. напичканную формулами монографию [9, с.7]).

Согласно цитированным и подобным им авторам, основное содержание математической теории статистики предельные теоремы, полученные в предположении, что объемы рассматриваемых выборок стремятся к бесконечности. Эти теоремы опираются на предельные соотношения теории вероятностей, типа Закона Больших Чисел и Центральной Предельной Теоремы. Ясно, что сами по себе подобные утверждения относятся к математике, т.е. к сфере чистой абстракции, и не могут быть непосредственно применены для анализа реальных данных. Их практическое использование, о котором "чистые" математики предпочитают не думать, опирается на важное предположение: "При данном объеме выборки достаточно точными являются асимптотические формулы."

Конечно, в качестве первого приближения представляется естественным воспользоваться асимптотическими формулами, не тратя сил на анализ их точности. Но это лишь начало долгой цепи исследований. Как же обычно преодолевают разрыв между результатами асимптотической математической статистики и потребностями практики эконометрического и статистического анализа данных? Какие "подводные камни" подстерегают на этом пути? Обсуждению этих вопросов и посвящен настоящий пункт.

Точные формулы и асимптотика. Начнем с наиболее продвинутой в математическом плане ситуации, когда для статистики известны как предельное распределение, так и распределения при конечных объемах выборки.

Примером является двухвыборочная односторонняя статистика Н.В.Смирнова. Рассмотрим две независимые выборки объемов т и п из непрерывных функций распределения F(x) и G(x) соответственно. Для проверки гипотезы однородности двух выборок (ср. главу 4)

Н: F(x) = G(x) для всех действительных чисел х в 1939 г. Н.В. Смирнов в статье [10] предложил использовать статистику

D+(m,n) = sup (Fm(x) Gn(x)) , где Fm(x) эмпирическая функция распределения, построенная по первой выборке, Gn(x) -эмпирическая функция распределения, построенная по второй выборке, супремум берется по всем действительным числам х. Для обсуждения проблемы соотношения точных и предельных результатов ограничимся случаем равных объемов выборок, т.е. т = п. Положим

H(n,t) = P(D+(n,n)>-^=).

В цитированной статье [10] Н.В. Смирнов показал, что при безграничном возрастании объема выборки п вероятность Н(п, t) стремится к ехр(12).

В работе [11] 1951 г. Б.В. Гнеденко и B.C. Королюк показали, что при целом c = t4n (именно при таких t вероятность Н(п, t) как функция t имеет скачки, поскольку статистика

(1)

Смирнова D+(n,n) кратна 1/п ) рассматриваемая вероятность Н(п, t) выражается через биномиальные коэффициенты, а именно,

К сожалению, непосредственные расчеты по формуле (1) возможны лишь при сравнительно небольших объемах выборок, поскольку величина п!. (и-факториал) уже при я=100 имеет более 200 цифр и не может быть без преобразований использована в вычислениях. Следовательно, наличие точной формулы для интересующей нас вероятности не снимает необходимости использования предельного распределения и изучения точности приближения с его помощью.

Широко известная формула Стирлинга для гамма-функции и, в частности, для факториалов позволяет преобразовать последнее выражение в асимптотическое разложение, т.е. построить бесконечный степенной ряд (по степеням п ) такой что каждая следующая частичная сумма дает все более точное приближение для интересующей нас вероятности Н(х, t) . Это и было сделано в работе А.А. Боровкова 1962 г. Большое количество подобных разложений для различных статистических задач приведено в работах В.М. Калинина и О.В. Шалаевского конца 1960-х начала 1970-х годов. (Интересно отметить, что асимптотические разложения в ряде случаев расходятся, т.е. остаточные члены имеют нетривиальную природу.)

Затем в работах конца семидесятых годов была сделана попытка теоретически оценить остаточный член второго порядка. Итоги подведены в монографии [1, § 2.2, с.37-45]. Справедливо равенство

Н(п, t)= ехр (-t2).(1 + f(t)/n + g(n,t)/n2),

где

f(t) = t2 (1/2 t2// 6).

Целью последних из названных работ было получение равномерных по п, t оценок остаточного члена второго порядка g(n,t) сверху и снизу в области, задаваемой условиями

0<-L<A, 0<ґ<ґпих, ,п>п0. (2)

где A, tmsK, п0 некоторые параметры. С помощью длинных цепочек оценок остаточных

членов в формулах, получаемых при преобразовании формулы (1) к предельному виду, сформулированная выше цель была достигнута, и для различных наборов параметров A, tmsx, п0 получены равномерные по п, t оценки (сверху и снизу) остаточного члена

второго порядка g(n,t) в области (2). Так, например, при А = 0,5, t тах = 1,73, пд = 8 нижняя граница равна (0,71), а верхняя есть 2,65.

Основными недостатками такого подхода являются, во первых, зависимость оценок от параметров А, ґшах, п0, задающих границы областей, во-вторых, завышение оценок,

иногда в сотни раз, обусловленное желанием получить равномерные оценки по области (оценкой реальной погрешности в конкретной точке является значение следующего члена асимптотического разложения).

Поэтому при составлении рассчитанной на практическое использование методики [12] проверки однородности двух выборок с помощью статистики Смирнова было решено перейти на несколько другую методологию (назовем ее "методологией заданной точности"), которую кратко можно описать следующим образом.

выбирается достаточно малое положительное число р, например р = 0,05 или р =

0,20;

приводятся точные значения Н(п, t) для всех значений п таких, что

| Н(п, t) ехр ( t2) | >р ехр (t2) ;

если же последнее неравенство не выполнено, то предлагается пользоваться

вместо Н(п, t) предельным значением ехр ( t2 ).

Таким образом, принятая в методике [12] методология предполагает интенсивное использование вычислительной техники. Результатами расчетов являются граничные значения объемов выборок n(p,t) такие, что при меньших значениях объемов выборок рекомендуется пользоваться точными значениями функции распределения статистики Смирнова, а при больших предельными. Описывается этот результат таблицей, а не формулой. Отметим, что при построении реальных таблиц не обойтись без выбора того или иного конкретного значения р, задающего объемы таблиц.

Оценки скорости сходимости. Теоретические оценки скорости сходимости в различных задачах эконометрики и прикладной математической статистики иногда формулируются в весьма абстрактном виде. Так, в 1960-1970-х годах была популярна задача оценки скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова). Для максимума модуля разности допредельной и предельной функций распределения этой статистики различные авторы доказывали, что для любого е>0 существует константа С(е) такая, что упомянутый максимум не

превосходит С(е) п ' w + е. Прогресс состоял в увеличении константы w. Сформулированный выше результат был доказан последовательно для w = 1/10, 1/6, 1/5, 1/4, 1/3, 1/2 и 1 (подробнее история этих исследований рассказана в §2.3 монографии [1]).

Конечно, все эти исследования не могли дать конкретных практических рекомендаций. Однако необходимой исходной точкой является само существование предельного распределения. Представим себе, что некто, не зная, что у распределения Коши нет математического ожидания, моделирует выборочные средние арифметические результатов наблюдений из этого распределения. Ясно, что его попытки оценить скорость сходимости выборочных средних к пределу обречены на провал.

Последовательное улучшение теоретических оценок скорости сходимости дает надежду на быструю реальную сходимость. Действительно, численные расчеты показали, что предельным распределением для статистики омега-квадрат (Крамера-Мизеса-Смирнова) можно пользоваться уже при объеме выборки, равном 4.

Использование датчиков псевдослучайных чисел. Если же предельное распределение известно, то возникает возможность изучить скорость сходимости численно методом статистических испытаний (Монте-Карло). Однако при этом обычно возникают две проблемы.

Во-первых, откуда известно, что скорость сходимости монотонна? Если при данном объеме выборки различие мало, то будет ли оно мало и при дальнейших объемах? Иногда отклонения допредельного распределения от предельного объясняются довольно сложными причинами. Так, для распределения хи-квадрат они связаны с рядом до сих пор не решенных теоретико-числовых проблем о числе целых точек в эллипсоиде растущего диаметра.

Во-вторых, с помощью датчиков псевдослучайных чисел получаем допредельные распределения с погрешностью, которая может преуменьшать различие. Поясним мысль аналогией. Растущий сигнал измеряется с погрешностями. Когда можно гарантировать, что его величина наверняка превзошла заданную границу?

Напомним, что проблема качества датчиков псевдослучайных чисел продолжает оставаться открытой (см. главу 11). Для моделирования в пространствах фиксированной размерности датчики псевдослучайных чисел решают поставленные задачи. Но для рассматриваемых нами задач размерность не фиксирована мы не знаем, при каком конкретно объеме выборки можно переходить к предельному распределению согласно "методологии заданной точности".

Нужны дальнейшие работы по изучению качества датчиков псевдослучайных чисел в задачах неопределенной размерности. Поскольку критиков датчиков обычно обвиняют в том, что они сами их не используют, отмечу, что мы применяли этот инструментарий при изучении помех, создаваемых электровозами (см. монографию [1]), при изучении статистических критериев проверки однородности двух выборок (см. работу [13]).

А нужна ли вообще асимптотика? В настоящее время развивается актуальное направление прикладной статистики, связанное с интенсивным использованием вычислительной техники для изучения свойств статистических процедур. Как уже отмечалось, математические методы в статистике обычно позволяют получать лишь асимптотические результаты, и для переноса выводов на конечные объемы выборок приходится применять вычислительные методы. В Новосибирском государственном техническом университете разработан и успешно применяется оригинальный подход, основанный на интенсивном использовании современной вычислительной техники. Основная идея такова: в качестве альтернативы асимптотическим методам математической статистики используется анализ результатов статистического моделирования (порядка 2000 испытаний) выборок конкретных объемов (200, 500, 1000). При этом анализ предельных распределений заменяется на анализ распределений соответствующих статистик при указанных объемах выборок.

К достоинствам подхода относится возможность замены теоретических исследований расчетами. Разработанная программная система дает в принципе возможность численно изучить свойства любого статистического алгоритма для любого конкретного распределения результатов наблюдений и любого конкретного объема выборки. К недостаткам рассматриваемого подхода относится зависимость от свойств датчиков псевдослучайных чисел, а также что более важно неизвестность предельного распределения (и даже самого факта его существования), а потому невозможность обоснованного переноса полученных выводов на объемы выборок, отличные от исследованных. Поэтому с точки зрения теории математической статистики полученные рассматриваемым способом результаты следует рассматривать как правдоподобные (а не доказательные, как в классической математической статистике).

Кроме того, они принципиально неточные. Даже в наиболее благоприятных условиях отклонение смоделированного распределения, построенного по 2000 испытаниям, от теоретического предельного распределения, по нашей оценке, может

иметь порядок (1/2000 + 1/1000)1/2 = 0,038 (ср. главу 4). Это означает, в частности, что процентные точки, соответствующие уровням значимости 0,05 и особенно 0,01, могут сильно отличаться от соответствующих процентных точек предельных распределений. Очевидно, следующий этап работ изучение точности полученных в рассматриваемом подходе выводов, прежде всего приближений и процентных точек.

Однако сразу все не сделаешь. Поэтому новосибирцы совершенно правы, развивая новые компьютерные подходы к давним задачам эконометрики и прикладной математической статистики. В частности, весьма полезными и интересными являются результаты, касающиеся непараметрических критериев согласия. Весьма интересным и полезным представляется также метод построения оптимального группирования, в частности, при использовании критериев типа хи-квадрат. Важен результат о неробастности (неустойчивости) оценок максимального правдоподобия по негруппированным данным. Надо поддержать идею использования одновременно двух оценок по группированным данным с использованием как оптимального, так и равновероятного группирования. Этот подход сибиряков соответствует современным идеям в области устойчивости (робастности) статистических выводов.

Однако стоит сделать два замечания. В работе [14] сравниваются два плана контроля надежности технических изделий. Оказывается, что при объемах выборки, меньших 150, лучше первый план, а при объемах, больших 150 второй. Значит, если бы по новосибирскому методу сравнивались эти планы при достаточно большом объеме выборки я=100, то лучшим был бы признан первый план, что неверно наступит момент (объем выборки), когда лучшим станет второй план.

Другая относящаяся к делу ассоциация из весьма содержательной монографии о прикладной математике [15]. Будем суммировать бесконечный ряд с членами zn= 1/п . Поскольку члены его убывают, то обычно используемые алгоритмы остановят вычисления на каком-то шагу. А сумма-то бесконечна!

Кажется, что компьютер дал универсальную отмычку ко всем проблемам вообще и в области эконометрики в частности. Но это только кажется.

Итак, в Новосибирском государственном техническом университете предложен интересный эконометрический инструментарий и проделана полезная работа. Однако этот подход никоим образом не является панацеей.

Эконометрика

Эконометрика

Обсуждение Эконометрика

Комментарии, рецензии и отзывы

10.2. робастность статистических процедур: Эконометрика, А.И.Орлов, 2002 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Эконометрика исследует конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей.