НОУ ИНТУИТ | Прикладная статистика. Лекция 12: Статистика интервальных данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3994 / 952 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00

Темы: Математика, Экономика

Специальности: Экономист

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать курс

| Скачать электронную книгу

12.3. Интервальные данные в задачах проверки гипотез

С позиций статистики интервальных данных целесообразно изучить все практически используемые процедуры прикладной математической статистики, установить соответствующие нотны и рациональные объемы выборок. Это позволит устранить разрыв между математическими схемами прикладной статистики и реальностью влияния погрешностей наблюдений на свойства статистических процедур. Статистика интервальных данных - часть теории устойчивых статистических процедур, развитой в монографии [ [ 1.15 ] ]. Часть, более адекватная реальной статистической практике, чем некоторые другие постановки, например, с засорением нормального распределения большими выбросами.

Рассмотрим подходы статистики интервальных данных в задачах проверки статистических гипотез. Пусть принятие решения основано на сравнении рассчитанного по выборке значения статистики критерия f=f(y_1,y_2,...,y_n) с граничным значением : если f>C , то гипотеза отвергается, если же $f\le C$ , то принимается. С учетом погрешностей измерений выборочное значение статистики критерия может принимать любое значение в интервале $[f(y)-N_f(y);\;f(y)+N_f(y)]$ . Это означает, что "истинное" значение порога, соответствующее реально используемому критерию, находится между C-N_f(y) и C+N_f(y) , а потому уровень значимости описанного правила (критерия) лежит между 1-P(C+N_f(y)) и 1-P(C-N_f(y)) , где P(Z)=P(f^lt;Z) .

Пример 1. Пусть x_1,x_2,...,x_n - выборка из нормального распределения с математическим ожиданием и единичной дисперсией. Необходимо проверить гипотезу H_0:a=0 при альтернативе $H_0:a\ne 0$

Как известно из любого учебного курса математической статистики, следует использовать статистику $f=\sqrt{n}|\overline{y}|$ и порог C=\Phi(1-\alpha/2), где $\alpha$ - уровень значимости, $\Phi(\bullet)$ - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. В частности, C=1,96 при $\alpha=0,05$ .

При ограничениях (1) на абсолютную погрешность $N_f(y)=\sqrt{n}\Delta$ . Например, если $\Delta = 0,1$ , а n = 100 , то N_f(y) = 1,0 . Это означает, что истинное значение порога лежит между 0,96 и 2,96, а истинный уровень значимости - между 0,003 и 0,34. Можно сделать и другой вывод: нулевую гипотезу H_0 допустимо отклонить на уровне значимости 0,05 лишь тогда, когда f > 2,96 .

Если же n = 400 при $\Delta = 0,1$ , то N_f(y)=2,0 и C-N_f(y)=-0,04 , в то время как C+N_f(y)=3,96 . Таким образом, даже в случае x=0 гипотеза H_0 может быть отвергнута только из-за погрешностей измерений результатов наблюдений.

Вернемся к общему случаю проверки гипотез. С учетом погрешностей измерений граничное значение $C_{\alpha}$ в статистике интервальных данных целесообразно заменить на $C_{\alpha}+N_f(y)$ . Такая замена дает гарантию, что вероятность отклонения нулевой гипотезы H_0 , когда она верна, не более $\alpha$ . При проверке гипотез аналогом статистической погрешности, рассмотренной выше в задачах оценивания, является $C_{\alpha}$ . Суммарная погрешность имеет вид $C_{\alpha}+N_f(y)$ . Исходя из принципа уравнивания погрешностей [ [ 1.15 ] ], целесообразно определять рациональный объем выборки из условия

$C_{\alpha}=N_f(y)$

Если f=|f_1| , где f_1 при справедливости H_0 имеет асимптотически нормальное распределение с математическим ожиданием 0 и дисперсией $\sigma_2/n$ то

$C_{\alpha}=u\left(1-\frac{\alpha}{2}\right)\frac{\sigma}{\sqrt{n}}$

( 47)

при больших

, где $u(1-\alpha/2)$ - квантиль порядка $1-\alpha/2$ стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Из (47) вытекает, что в рассматриваемом случае

$n_{rat}=\frac{3,84}{\Delta^2}=384$

Пример 2. Рассмотрим статистику одновыборочного критерия Стьюдента

$t=\sqrt{n}\frac{\overline(y)}{s(y)}=\frac{\sqrt{n}}{v},$

где

- выборочный коэффициент вариации. Тогда с точностью до бесконечно малых более высокого порядка нотна для

имеет вид

$N_t(y)=\frac{\sqrt{n}}{v^2}N_v(y),$

где

- рассмотренная ранее нотна для выборочного коэффициента вариации. Поскольку распределение статистики Стьюдента

сходится к стандартному нормальному, то небольшое изменение предыдущих рассуждений дает

$n_{rat}=\frac{v^4u^2(1-\alpha/2)}{N_v^2(y)}.$

Пример 3. Рассмотрим двухвыборочный критерий Смирнова, предназначенный для проверки однородности (совпадения) функций распределения двух независимых выборок [ [ 12.44 ] ]. Статистика этого критерия имеет вид

$D_{mn}=\sup_x|F_m(x)-G_n(x)|,$

где

- эмпирическая функция распределения, построенная по первой выборке объема

, извлеченной из генеральной совокупности с функцией распределения F(x)

, а

- эмпирическая функция распределения, построенная по второй выборке объема

, извлеченной из генеральной совокупности с функцией распределения G(x)

. Нулевая гипотеза имеет вид $H_0:F(x)\equiv G(x)$ , альтернативная состоит в ее отрицании: $H_1:F(x)\ne G(x)$ при некотором

. Значение статистики сравнивают с порогом $D(\alpha,m,n)$ зависящим от уровня значимости $\alpha$ и объемов выборок

и

. Если значение статистики не превосходит порога, то принимают нулевую гипотезу, если больше порога - альтернативную. Пороговые значения $D(\alpha,m,n)$ берут из таблиц [ [ 2.1 ] ]. Описанный критерий иногда неправильно называют критерием Колмогорова-Смирнова. История вопроса описана в [ [ 12.34 ] ].

При ограничениях (1) на абсолютные погрешности и справедливости нулевой гипотезы $H_0:F(x)\equiv G(x)$ нотна имеет вид (при больших объемах выборок)

$N_D=\sup_x|F(x+\Delta)-F(x-\Delta)|.$

Если F(x)=G(x)=x при $0\le x\le 1$ , то $N_D=2\Delta$ . С помощью условия $C_\alpha=N_f(y)$ при уровне значимости $\alpha=0,05$ и достаточно больших объемах выборок (т.е. используя асимптотическое выражение для порога согласно [ [ 2.1 ] ]) получаем, что выборки имеет смысл увеличивать, если

$\frac{mn}{m+n}\le\frac{0,46}{\Delta^2}.$

Правая часть этой формулы при $\Delta=0,1$ равна 46. Если m = n , то последнее неравенство переходит в $n\le 92$ .

Теоретические результаты в области статистических методов входят в практику через алгоритмы расчетов, воплощенные в программные средства (пакеты программ, диалоговые системы). Ввод данных в современной статистической программной системе должен содержать запросы о погрешностях результатов измерений. На основе ответов на эти запросы вычисляются нотны рассматриваемых статистик, а затем - доверительные интервалы при оценивании, разброс уровней значимости при проверке гипотез, рациональные объемы выборок. Необходимо использовать систему алгоритмов и программ статистики интервальных данных, "параллельную" подобным системам для классической математической статистики.

Дальше >>

Авторизоваться

Прикладная статистика

Статистика интервальных данных

12.3. Интервальные данные в задачах проверки гипотез

Вопросы и ответы