Опубликован: 16.11.2010 | Доступ: свободный | Студентов: 3501 / 1693 | Оценка: 4.43 / 4.14 | Длительность: 27:21:00
Лекция 6:

Обработка результатов имитационного эксперимента

5.9. Сущность корреляционного анализа

Часто при исследовании объекта или его модели необходимо наблюдать за характеристиками двух и более случайных величин. Например, за двумя откликами одного эксперимента. При этом может возникнуть вопрос: есть ли связь между этими случайными величинами? Существенна или несущественна эта связь, если она есть?

Корреляционный анализ - это совокупность методов обнаружения зависимости (корреляции) между двумя или более случайными признаками или процессами.

Под корреляцией будем понимать статистическую зависимость между двумя случайными величинами, не имеющую, вообще говоря, строго функционального характера.

Заметим, что корреляционный анализ не позволяет определить вид функциональной связи между случайными величинами, а только наличие или отсутствие предполагаемой связи, например, линейной, параболической, экспоненциальной и т. д. В рамках этого учебного пособия мы ограничимся рассмотрением гипотезы о наличии линейной корреляции.

Определение вида функциональной связи между величинами рассматривается в регрессионном анализе, элементы которого и практическое использование будут рассмотрены в следующем п. 5.10.

Название "корреляционный анализ" происходит от латинского слова correlatio - согласование, связь, соотношение, взаимосвязь. Термин впервые введен Гальтоном (Galton) в 1888 г.

Обычно исследуют парную корреляцию, то есть зависимость между двумя случайными величинами (процессами), хотя возможны и более сложные ситуации, когда необходимо обнаружить наличие или отсутствие связей между тремя или более случайными величинами.

Мы ограничимся исследованием парной корреляции.

Как известно, связь между двумя случайными величинами можно описать с помощью двумерной функции распределения. Однако такое описание часто очень сложно, а для практических целей можно удовлетвориться определением зависимостей средних значений.

Итак, целью имитационного эксперимента является определение характеристик двух случайных величин a и b . Например:

a b
Средний балл успеваемости учебной группы по математике Средний балл выполнения упражнения по стрельбе
Рассеивание точки падения заряда по дальности Рассеивание точки падения заряда по боковому отклонению
Вес курсантов (студентов). Успеваемость по физподготовке.

Необходимо проверить: есть ли связь между величинами a и b?

Проверка наличия (или отсутствия) связи - корреляции - между случайными величинами выполняется так.

Проводится два эксперимента, каждый - с соответствующей моделью. В каждом эксперименте - N наблюдений (напоминаем, что компьютерный эксперимент состоит из наблюдений, а наблюдение - из реализаций (прогонов) модели, число которых рассчитывается с учетом требуемой точности и достоверности получаемых результатов моделирования). В результате экспериментов получаются два множества значений измеряемых параметров a и b : a_{i} и b_{i} , i =\overline{1, N}.

Из этих множеств формируются пары:

(a_{1}, b_{1} ), (a_{2} , b_{2} ), \ldots , (a_{i} , b_{i} ), \ldots , (a_{N} , b_{N} ).

Каждая пара интерпретируется как координаты случайной точки в системе координат a, b .

Первичное исследование можно провести графически. Возможны следующие варианты размещения точек на графиках (рис. 5.5).

Корреляция - важное понятие. Научитесь визуально определять по расположению данных, насколько тесно они коррелированны.

Говорят, что две переменные положительно коррелированны, если при увеличении значений одной переменной увеличиваются значения другой переменной (рис. 5.5б).

Графическое исследование корреляции

Рис. 5.5. Графическое исследование корреляции

Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменная уменьшается (рис. 5.5в).

Отсутствие корреляции - совместного поведения переменных - обнаруживается хаотическим нагромождением точек, исключающим проведение какой-либо аппроксимирующей линии (см. рис. 5.5г).

Но такое качественное исследование недостаточно. Необходимо иметь количественную оценку степени корреляции между величинами a и b .

Если совместное распределение вероятностей случайных величин a и b нормальное, то количественной характеристикой степени линейной связи между ними является коэффициент корреляции r (введен Пирсоном (Pearson), 1896 г.):

-1\le r\le 1 .

Если r = 0, то между а и b линейная независимость.

Равенство r = \pm 1 свидетельствует о наличии однозначной функциональной связи между a и b , то есть b = f(a) .

При -1< r < 1 между a и b существует стохастическая связь, причем, чем ближе коэффициент корреляции |r| к единице, тем эта связь сильнее. Стохастическая связь означает, что при изменении a имеется лишь тенденция к изменению b.

Коэффициент корреляции r определяется по данным эксперимента, следовательно, можно определить только его оценку \overline{r}. В качестве оценки \overline{r} принят выборочный коэффициент корреляции:

\overline{r}=\cfrac{\cfrac{1}{N}\sum\limits_{i=1}^{N}{(a_i-\overline{a})(b_i-\overline{b})^2}}{S_a\cdot S_b}

где \overline{a}=\cfrac{1}{N}\sum\limits_{i=1}^{N}{a_i} оценки математических ожиданий и M[a] и M[b] ;

S_a=\sqrt{\cfrac{1}{N-1}\sum\limits_{i=1}^{N}{(a_i-\overline{a})^2}},\,\,\,
S_b=\sqrt{\cfrac{1}{N-1}\sum\limits_{i=1}^{N}{(b_i-\overline{b})^2}} - оценки среднеквадратических отклонений \sigma_a и \sigma_b

Выборочный коэффициент корреляции \overline{r}, так же как и теоретический, принимает значения: -1 \le \overline{r} \le 1.

Если \overline{r} > 0, то наблюдается положительная корреляция (см. рис. 5.5б). Если \overline{r} < 0 - отрицательная корреляция (см. рис. 5.5в). Если \overline{r} = 0 - линейная корреляция отсутствует (но не исключена нелинейная). Если \overline{r} = 1, то между случайными величинами существует жесткая функциональная связь.

Заметим, что рассматриваемый коэффициент корреляции \overline{r} определяет степень линейной связи между случайными величинами a и b . Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона.

Однако этот линейный коэффициент корреляции не является пригодным для оценки нелинейной связи, если таковая присутствует. При нелинейной зависимости степень связи между случайными величинами устанавливается более сложными характеристиками, например, корреляционным отношением (К. Пирсон).

Числитель выражения (5.1) иногда называют ковариацией - cov(a,b).

Если случайные величины a и b независимы, они и не коррелированны (\overline{r} = 0). Но некоррелированность a и b не всегда свидетельствует об их независимости. Но если a и b имеют нормальное распределение, то условие \overline{r} = 0 является необходимым и достаточным условием независимости этих величин.

И еще. Наличие корреляции между случайными величинами a и b не всегда свидетельствует об их взаимосвязи. Дело в том, что при независимости a и b каждая из них в отдельности зависит от некоторого случайного фактора \xi, но эта зависимость нами не замечена.

Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь.

Оценка коэффициента корреляции должна быть определена с требуемыми точностью и достоверностью, которые зависят от числа реализаций модели. Найдем эту связь.

В предположении нормальности распределения \overline{r} можно написать:

P(|\overline{r}-r|< t_{\alpha}\sigma_{\overline{r}})=2\Phi(t_{\alpha})

С выражение (5.2) мы уже знакомы. Здесь:

r - точное значение коэффициента корреляции;

\sigma_{\overline{r}} - среднеквадратическое отклонение случайной величины \overline{r} ;

t_{\alpha} - аргумент функции Лапласа \Phi(t_{\alpha}).

Обычно среднеквадратическое отклонение \sigma_{\overline{r}} неизвестно, поэтому нужно брать ее оценку.

При больших выборках N  оценка среднеквадратического отклонения S_{r} :

\sigma_{\overline{r}}\approx S_r=\cfrac{1-\overline{r}^2}{\sqrt{N}}

Из (5.2) следует:

\varepsilon=t_{\alpha}\cfrac{1-\overline{r}^2}{\sqrt{N}},\,\,\,
N=t_{\alpha}^2\cfrac{(1-\overline{r}^2)^2}{\varepsilon^2},\,\,\,
t_{\alpha}=\Phi^{-1}\left ( \cfrac{\alpha}{2}\right )

\varepsilon - абсолютная величина ошибки.

Предварительное определение \overline{r} осуществляется по данным пробного эксперимента в количестве N^{*} = 500\ldots 1000 реализаций модели.

На основании изложенного и в силу случайного характера исследуемых величин a и b мы можем утверждать лишь следующее: истинное значение коэффициента корреляции r лежит в пределах

\overline{r}-\varepsilon \le r\le\overline{r}+\varepsilon

с заданной достоверностью \alpha .

В заключение отметим, что если совместное распределение случайных величин a и b не является нормальным, то оценка \overline{r} коэффициента корреляции может выступать в качестве ориентировочной оценки степени тесноты связи a и b.

Пример 5.7 [2]. Для оценки конструкции нового крупнокалиберного пулемета было произведено 96 выстрелов по щиту, отстоявшему на расстоянии 300 метров.

Результаты отклонений попаданий от точки прицеливания (боковые x_{i} , по высоте y_{i} ) объединены в десятисантиметровые диапазоны и сведены в таблицу (табл. 5.9).

Для оценки конструктивных особенностей пулемета необходимо узнать: есть ли какая-то связь между боковыми отклонениями и отклонениями по высоте.

Решение

Ответ на поставленный вопрос может дать коэффициент корреляции. Предварительно заметим, что группировка измерений в десятисантиметровые диапазоны вносит некоторую ошибку в дальнейшие расчеты, однако можно показать, что при данной группировке ошибка несущественна.

В табл. 5.9 указаны не реальные отклонения, а центры диапазонов (-25…-15, -15…-5, -5…5 и т. д.).

Таблица 5.9. Отклонения от точки прицеливания
y_i Боковые отклонения x_i Всего n_{y_j}
-20 -10 0 10 20 30 40
-50 0 0 1 0 2 0 0 3
-40 0 1 1 1 2 0 0 5
-30 1 1 3 5 2 1 0 13
-20 1 3 7 3 2 2 0 18
-10 0 2 6 10 3 0 0 21
0 0 1 6 6 6 1 1 21
10 0 0 3 3 3 1 0 10
20 0 1 1 2 1 0 0 5
Всего n_{x_i} 2 9 28 30 21 5 1 96

Для определения коэффициента корреляции понадобятся следующие характеристики:

\overline{x},S_x, \overline{y},S_y, ковариация \cfrac{1}{N}\sum\limits_{i=1}^{N}{(x_i-\overline{x})(y_i-\overline{y})}.

Все эти характеристики вычисляются по данным измеренных отклонений боковых x и по высоте y .

Для примера, расчет \overline{x}:

\overline{x}=\cfrac{(-20\cdot 2) + (-10\cdot 9)+ (0\cdot 28) + \ldots + (40\cdot 1)}{96} =
\cfrac{780}{96}\approx 8.1 см.

Результаты расчета остальных характеристик:

S_x=11.6 см, \,\,\, y=-11.6 см,\,\,\,
S_y=16.8 см,\,\,\, cov(x,y)=1518 см^2

Теперь оценка коэффициента корреляции:

\overline{r}=\cfrac{1518}{96\cdot 11.6\cdot 16.8}=\cfrac{1518}{18525}=0.082

Среднеквадратическое отклонение этой оценки:

S_{\overline{r}}=\cfrac{1-\overline{r}^2}{\sqrt{N}}=\cfrac{1-0.082^2}{\sqrt{96}}\approx 0.1 см

Из-за малого количества выстрелов оценка \overline{r} определена с ошибкой, которая в предположении о нормальном распределении случайной величины \overline{r} и достоверности, например, \alpha = 0.8 ( t_{\alpha} =1.28 ) равна:

\varepsilon = t_{\alpha}\sigma_{\overline{r}} \approx t_{\alpha}S_{\overline{r}} =1.28-0.1 = 0.128 см

Отсюда следует, что истинное значение коэффициента корреляции r лежит в пределах:

0.082-0.128 \le r \le 0.082 + 0.128,\,\,\, -0.046\le r < 0.21.

Обнаружена небольшая линейная зависимость отклонений боковых и по высоте. Баллистики, отвергая непосредственную корреляцию между отклонениями x и у, объясняют значение \overline{r} > 0 влиянием конструктивных особенностей пулемета. Обнаружена также систематическая ошибка в прицеле: \overline{x} \ne 0, \overline{y}\ne 0.

Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

Петр Гончар-Зайкин
Петр Гончар-Зайкин
Россия
Елена Городниченко
Елена Городниченко
Украина, Киев