Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3994 / 952 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 11:

Статистика нечисловых данных

11.2. Теория случайных толерантностей

В прикладных исследованиях обычно используют три конкретных вида бинарных отношений - ранжировки, разбиения и толерантности. Статистические теории ранжировок [ [ 11.10 ] ] и разбиений [ [ 11.16 ] ] достаточно сложны с математической точки зрения. Поэтому продвинуться удается не очень далеко. Теория случайных ранжировок, в частности, изучает в основном равномерные распределения на множестве ранжировок. Теория случайных толерантностей позволяет рассмотреть более общие ситуации. Это объясняется, грубо говоря, тем, что для теории толерантностей оказываются полезными суммы некоторых независимых случайных величин, а для теории ранжировок и разбиений аналогичные случайные величины зависимы. Теория случайных толерантностей является частным случаем теории люсианов, рассматриваемой в 11.3. Здесь приводим результаты, специфичные именно для толерантностей.

Пусть X - конечное множество из k элементов. Толерантность A на множестве X, как и любое бинарное отношение, однозначно описывается матрицей ||a(i, j), 1\le i, j \le k ||, где a(i, j) = 1, если элементы с номерами i и j связаны отношением толерантности, и a(i, j) = 0 в противном случае. Поскольку толерантность - это рефлексивное и симметричное бинарное отношение, то достаточно рассматривать часть матрицы, лежащую над главной диагональю: ||a(i, j), 1 \le i<j\le k||. Между наборами ||a(i, j), 1 \le i<j \le k|| из 0 и 1 и толерантностями на X имеется взаимнооднозначное соответствие.

Пусть A = A(\omega) - случайная толерантность, равномерно распределенная на множестве всех толерантностей на X. Легко видеть, что в этом случае a(i, j), 1 \le i<j \le k, - независимые случайные величины, принимающие значения 0 и 1 с вероятностями 0,5. Этот факт, несмотря на свою математическую тривиальность, является решающим для построения теории случайных толерантностей. Для аналогичных постановок в теории ранжировок и разбиений величины a(i, j) оказываются зависимыми.

Следовательно, случайная величина

B(A)=\sum_{i=1}^k\sum_{j=1}^k a(i,j)
имеет биномиальное распределение с параметрами k(k-1)/2, 1/2 и асимптотически нормальна при k\rightarrow\infty.

Проверка гипотез о согласованности. Рассмотрим s независимых толерантностей A_1, A_2, ..., A_s, равномерно распределенных на множестве всех толерантностей на X. Рассмотрим вектор

\xi_{ks}=\{d(A_p,A_q),1\le p<q\le s\} =
\sum_{1\le i<j\le s}\{|a_p(i,j)-a_q(i,j)|,1\le p<q\le s\}, ( 1)
где d(A_p, A_q) - расстояние между толерантностями A_p и A_q, аксиоматически введенное в "Различные виды статистических данных" . В (1) предполагается, что пары (p, q), p < q, располагаются в раз и навсегда установленном порядке, для определенности - в лексиграфическом (т.е. пары упорядочиваются в соответствии со значением p, а при одинаковых p - по значению q ).

Вектор \xi_{ks} является суммой k(k-1)/2 независимых одинаково распределенных случайных векторов, а потому асимптотически нормален при k\rightarrow\infty. Координаты этого вектора независимы, поскольку, как нетрудно видеть, координаты каждого слагаемого независимы (это свойство не сохраняется при отклонении от равномерности распределения). Распределения случайных величин a_p(i,j) и |a_p(i,j)-a_q(i,j)| совпадают, поэтому распределения B(A) и d(A_p, A_q) также совпадают.

В силу многомерной центральной предельной теоремы ( "Теоретическая база прикладной статистики" ) распределение вектора

\eta_{ks}=\sqrt{\frac{2}{k(k-1)}}\left(\xi_{rs}-\frac{k(k-1)}{2}\left(\frac12,\frac12,...,\frac12\right)\right)
сходится при k\rightarrow\infty к распределению многомерного нормального вектора \eta_s, ковариационная матрица которого совпадает с ковариационной матрицей вектора \eta_{ks}, а математическое ожидание равно 0. Таким образом, координаты случайного вектора \eta_s независимы и имеют стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1. В соответствии с теоремами о наследовании сходимости ( "Теоретическая база прикладной статистики" ) распределение f(\eta_{ks}) сходится при k\rightarrow\infty к распределению f(\eta_s) для достаточно широкого класса функций f, в частности, для всех непрерывных функций. В качестве примеров рассмотрим статистики
W=\sum_{1\le p<q\le s}d(A_p,A_q),N=\sum_{1\le p<q\le s}\left(d(A_p,A_q)-\frac{k(k-1)}{4}\right)^2.

При k\rightarrow\infty распределения случайных величин

\frac{8W-s(s-1)k(k-1)}{2\sqrt{s(s-1)k(k-1)}},\frac{8N}{k(k-1)}
сходятся соответственно к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1 и распределению хи-квадрат с s(s - 1)/2 степенями свободы. Статистики W и N могут быть использованы для проверки гипотезы о равномерности распределения толерантностей.

Как известно, в теории ранговой корреляции [ [ 11.10 ] ], т.е. в теории случайных ранжировок, в качестве единой выборочной меры связи нескольких признаков используется коэффициент согласованности W(R), называемый также коэффициентом конкордации [ [ 2.1 ] , табл.6.10]. Его распределение затабулировано в предположении равномерности распределения на пространстве ранжировок (без связей). Непосредственным аналогом W(R) в случае толерантностей является статистика W. Статистики W и N играют ту же роль для толерантностей, что W(R) для ранжировок, однако математико-статистическая теория в случае толерантностей гораздо проще, чем для ранжировок.

Обобщением равномерно распределенных толерантностей являются толерантности с независимыми связями. В этой постановке предполагается, что a(i,j), 1\le i<j\le k, - независимые случайные величины, принимающие значения 0 и 1. Обозначим P(a(i,j) = 1) = p(i,j). Тогда P(a(i,j)=0)=1-p(i,j). Таким образом, распределение толерантности с независимыми связями задается нечеткой толерантностью, т.е. вектором

P=\{p(i,j),1\le i<j\le k\}.

Пусть имеется s независимых случайных толерантностей A_1, A_2, ..., A_s с независимыми связями, распределения которых задаются векторами P_1, P_2, ..., P_s соответственно. Рассмотрим проверку гипотезы согласованности

H_0:P_1=P_2=...=P_s.

Она является более слабой, чем гипотеза равномерности

H'_0: P_1 = P_2 =...= P_s =(1/2, 1/2, ..., 1/2),
для проверки которой используют статистики W и N (см. выше).

Пусть сначала s = 2. Тогда

P\{|a_1(i,j)-a_2(i,j)|=1\}=q(i,j),P\{|a_1(i,j)-a_2(i,j)|=0\}=1-q(i,j),
где
q(i,j)=p_1(i,j)(1-p_2(i,j))+p_2(i,j)(1-p_1(i,j)).

Следовательно, расстояние d(A_1, A_2) между двумя случайными толерантностями с независимыми связями есть сумма k(k - 1)/2 независимых случайных величин, принимающих значения 0 и 1, причем математическое ожидание и дисперсия d(A_1, A_2) таковы:

MD(A_1,A_2)=\sum_{1\le i<j\le k} q(i,j), Dd(A_1,A_2)=
\sum_{1\le i<j\le k} q(i,j)(1-q(i,j)). ( 2)

Пусть k\rightarrow\infty. Если Dd(A_1, A_2)\rightarrow\infty, то условие Линденберга Центральной предельной теоремы теории вероятностей выполнено (см. "Теоретическая база прикладной статистики" ), и распределение нормированного расстояния

\frac{d(A_1,A_2)-Md(A_1,A_2)}{\sqrt{Dd(A_1,A_2)}} ( 3)
сходится к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Если существует число \delta>0 такое, что при всех k, i, j, 1\le i<j\le k, вероятности p_1(i, j) и p_2(i, j) лежат внутри интервала (\delta; 1 - \delta), то Dd(A_1, A_2) \rightarrow\infty.

Соотношения (2), (3) и им подобные позволяют рассчитать мощность критериев, основанных на статистиках W и N, при k\rightarrow\infty, подобно тому, как это сделано в [ [ 1.15 ] , гл.4.5]. Поскольку подобные расчеты не требуют новых идей, не будем приводить их здесь.

Обычно P_1 и P_2 неизвестны. Для проверки гипотезы P_1 = P_2 в некоторых случаях можно порекомендовать отвергать гипотезу на уровне значимости \alpha, если d(A_1, A_2)\ge d_0, где d_0 есть (1-\alpha) -квантиль распределения расстояния между двумя независимыми равномерно распределенными случайными толерантностями, т.е. квантиль биномиального распределения B(A). Укажем достаточные условия такой рекомендации.

Пусть

p =(p_1(i,j) + p_2(i,j))/2, p_1(i,j) = p + \Delta,
тогда
p_2(i,j) = p - \Delta, q= q(i, j) = 2p(1 - p) + 2\Delta^2. ( 4)

Если существует число \delta>0 такое, что

q-1/2>\delta>0 ( 5)
при всех k, i, j, то гипотеза P_1 = P_2 будет отвергаться с вероятностью, стремящейся к 1 при k\rightarrow\infty. Из (4) следует, что при фиксированном p существует \Delta такое, что выполнено (5), тогда и только тогда, когда 0,25<p<0,75.

Своеобразие постановки задачи проверки гипотезы состоит в том, что при росте k число неизвестных параметров, т.е. координат векторов P_i, растет пропорционально объему данных. Поэтому и столь далекая от оптимальности процедура, как описанная в двух предыдущих абзацах, представляет некоторый практический интерес. Для случая s\ge 4 в теории люсианов (11.3) разработаны методы проверки гипотезы согласованности H_0: P_1 = P_2 =...= P_s.

Нахождение группового мнения. Пусть A_1, A_2, ..., A_s - случайные толерантности, описывающие мнения s экспертов. Для нахождения группового мнения будем использовать медиану Кемени, т.е. эмпирическое среднее относительно расстояния, введенного в "Различные виды статистических данных" . Медианой Кемени является

A_{cp}=Arg\min_A\sum_{p=1}^s d(A_p,A).

Легко видеть, что A_{cp}=||a_{cp}(i,j)|| удовлетворяет условию: a_{cp}(i,j)=1, если

\sum_{p=1}^s a_p(i,j)>\frac{s}{2},
и a_{cp}(i,j)=0, если
\sum_{p=1}^s a_p(i,j)<\frac{s}{2}.

Следовательно, при нечетном s групповое мнение A_{cp} определяется однозначно. При четном s неоднозначность возникает в случае

\sum_{p=1}^s a_p(i,j)=\frac{s}{2}.

Тогда медиана Кемени A_{cp} - не одна толерантность, а множество толерантностей, минимум суммы расстояний достигается и при a_{cp}(i,j)=1, и при a_{cp}(i,j)=0.

Асимптотическое поведение группового мнения (медианы Кемени для толерантностей) вытекает из общих результатов о законах больших чисел в пространствах произвольной природы ( "Описание данных" ), поэтому рассматривать его здесь нет необходимости.

Дихотомические (бинарные) признаки в классической асимптотике. Многое в предыдущем изложении определялось спецификой толерантностей. В частности, особая роль равномерности распределения на множестве всех толерантностей оправдывала специальное рассмотрение статистик W и N ; аксиоматически введенное расстояние d между толерантностями играло важную роль в приведенных выше результатах. Однако модель толерантностей с независимыми связями уже меньше связана со спецификой толерантностей. В ней толерантности можно рассматривать просто как частный случай люсианов. Широко применяется следующая модель порождения данных.

Пусть A_1, A_2, ..., A_s - независимые люсианы. Это значит, что статистические данные имеют вид

(A_1, A_2, ..., A_s) = ||X_{ij}, i=1,2,...,s; j = 1, 2, ..., k||, ( 6)
где X_{ij} - независимые в совокупности испытания Бернулли с вероятностями успеха
(P_1, P_2, ..., P_s) = ||p_{ij}, i=1,2,...,s; j=1,2,...,k||, ( 7)
где P_i - вектор вероятностей, описывающий распределение люсиана A_i. Особое значение имеют одинаково распределенные люсианы, для которых P_1 = P_2 =...= P_s = P, где символом P обозначен общий вектор вероятностей.

Как обычно в математической статистике, содержательные результаты при изучении модели (6) - (7) можно получить в асимптотических постановках. При этом есть два принципиально разных предельных перехода: s\rightarrow\infty и k\rightarrow\infty. Первый из них - традиционный: число неизвестных параметров постоянно, объем выборки s растет. Во втором число параметров растет, объем выборки остается постоянным, но общий объем данных ks растет пропорционально числу неизвестных параметров. Аналогом является асимптотическое изучение коэффициентов ранговой корреляции Кендалла и Спирмена: число ранжировок, т.е. объем выборки, постоянно (и равно 2), а число ранжируемых объектов растет.

Вторая постановка изучается в следующем параграфе, посвященном люсианам. Некоторые задачи в первой постановке рассмотрим здесь.

Случайные толерантности используются, в частности, для оценки нечетких толерантностей [ [ 1.15 ] ]. Для описания результатов опроса группы экспертов о сходстве объектов строят нечеткую толерантность M=||\mu_{ij}||, \mu_{ij}=l_{ij}/n_{ij}, где n_{ij} - число ответов о сходстве i -го и j -го объектов, а l_{ij} - число положительных ответов из них. Если эксперты действуют в соответствии с единым вектором параметров P, то М - состоятельная оценка для P. Следующий вопрос при таком подходе - верно ли, что две группы экспертов "думают одинаково", т.е. используют совпадающие вектора P? Рассмотрим эту постановку на более общем языке люсианов.

Пусть A_1, A_2, ..., A_m и B_1, B_2, ..., B_n - независимые в совокупности люсианы, одинаково распределенные в каждой группе с параметрами P(A) и P(B) соответственно. Требуется проверить гипотезу P(A) = P(B). Естественным является переход к пределу при \min(m,n)\rightarrow\infty.

Пусть гипотеза справедлива. Предположим, что p_i = p_i(A) = p_i(B) \ne 0 при всех i = 1, 2, ..., k. (Разбор нарушений этого условия очевиден.) Пусть s_i - число единиц на i -м месте в первой группе люсианов, а t_i - во второй. Рассмотрим случайные величины

\xi_i=\frac{mn}{m+n}\left(\frac{s_i}{m}-\frac{t_i}{n}\right)\frac{1}{\sqrt{p_i(1-p_i)}}. ( 8)

Они независимы в совокупности. В соответствии с результатами "Теоретическая база прикладной статистики" распределения \xi_i при \min(m, n)\rightarrow\infty сходятся к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Эти свойства сохраняются при замене p_i в (8) на состоятельные оценки, построенные по статистическим данным, соответствующим i -му месту. Будем использовать эффективную оценку [ [ 12.10 ] , с.529]

p_i^*=\frac{s_i+t_i}{m+n}. ( 9)

Подставим (9) в (8), получим статистики

\xi_i^*=\sqrt{\frac{mn(m+n)}{(s_i+t_i)(m+n-s_i-t_i)}}\left(\frac{s_i}{m}-\frac{t_i}{n}\right).

Полученные статистики можно использовать для проверки рассматриваемой гипотезы, например, с помощью критериев, основанных на статистиках

W=\frac{1}{\sqrt{k}}\sum_{i=1}^k a_i\xi_i^*,\; T\sum_{i=1}^k(\xi_i^*)^2,\;\sum_{i=1}^k a_i^2=1.

С помощью результатов "Теоретическая база прикладной статистики" получаем, что W имеет в пределе при \min(m, n)\rightarrow\infty стандартное нормальное распределение, а T - распределение хи-квадрат с k степенями свободы.

Рассмотрим распределение статистики W при альтернативных гипотезах. Положим \eta_{1m}^i= \frac{\sqrt{m}\left(\frac{s_i}{m}-p_i(A)\right)}{\sqrt{p_i(A)(1-p_i(A))}},\; \eta_{2n}^i= \frac{\sqrt{n}\left(\frac{t_i}{n}-p_i(B)\right)}{\sqrt{p_i(B)(1-p_i(B))}}.

Эти случайные величины независимы, распределение каждой из них при \min(m, n)\rightarrow\infty сходится к стандартному нормальному распределению. Поскольку

\frac{s_i}{m}=\frac{\eta_{1m}^i}{\sqrt{m}}\frac{p_i(A)(1-p_i(A))}+p_i(A),
\frac{t_i}{n}=\frac{\eta_{2n}^i}{\sqrt{n}}\frac{p_i(B)(1-p_i(B))}+p_i(B),
то
\sqrt{\frac{mn}{m+n}}\left(\frac{s_i}{m}-\frac{t_i}{n}\right)=F+G,
где
F=\frac{mn}{m+n}
\left(
\frac{\eta_{1m}^i}{\sqrt{m}}\sqrt{p_i(A)(1-p_i(A))}-
\frac{\eta_{2n}^i}{\sqrt{n}}\sqrt{p_i(B)(1-p_i(B))}
\right)
и
G=\frac{mn}{m+n}(p_i(A)-p_i(B)).

В силу результатов "Теоретическая база прикладной статистики" распределение F при \min(m, n)\rightarrow\infty сближается с нормальным распределением, математическое ожидание которого равно 0, а дисперсия

\frac{n}{m+n}p_i(A)(1-p_i(A))+\frac{m}{m+n}p_i(B)(1-p_i(B))\le\frac14.

Поэтому, чтобы получить собственное (т.е. невырожденное) распределение W при альтернативах, естественно рассмотреть модель

p_i(A)=p_i+\frac{\theta_i}{2}\sqrt{\frac{m+n}{mn}}\sqrt{p_i(1-p_i)},\;
p_i(B)=p_i-\frac{\theta_i}{2}\sqrt{\frac{m+n}{mn}}\sqrt{p_i(1-p_i)},\;
i=1,2,...,k,
где \theta_i - некоторые фиксированные числа. Тогда при \min(m, n)\rightarrow\infty оценки p_i^* из (9) сходятся к p_i и \xi_i^* являются независимыми асимптотически нормальными случайными величинами с математическими ожиданиями \theta_i и единичными дисперсиями. Опираясь на результаты "Теоретическая база прикладной статистики" , заключаем, что распределение статистики W сходится к нормальному распределению с математическим ожиданием
\theta_0=\frac{1}{\sqrt{k}}\sum_{i=1}^k a_i\theta_i
и единичной дисперсией.

Если в последней формуле \theta_0 = 0, то асимптотическое распределение W таково же, как и в случае справедливости нулевой гипотезы. От указанного недостатка свободна статистика T. Тем же путем, как и для W, получаем, что при \min(m, n)\rightarrow\infty распределение T сходится к нецентральному хи-квадрат распределению с k степенями свободы и параметром нецентральности

\Theta=\sum_{i=1}^k\theta_i^2.

Можно рассматривать ряд других задач, например, проверку совпадения параметров для нескольких групп люсианов (аналог дисперсионного анализа), установление зависимости P(B) от P(A) (аналог регрессионного анализа), отнесение вновь поступающего люсиана к одной из групп (задача диагностики - аналог дискриминантного анализа; представляет интерес, например, при применении тестов типа MMPI оценки психического состояния личности) и т.д. Однако принципиальных трудностей на пути развития соответствующих методов не видно, и мы не будем их здесь рассматривать. Создание соответствующих алгоритмов проводится специалистами по прикладной статистике в соответствии с непосредственными заказами пользователей.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?