Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3994 / 952 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 11:

Статистика нечисловых данных

11.6. Статистика нечисловых данных в экспертных оценках

Развитие статистики нечисловых данных во многом стимулировалось запросами теории и практики экспертных оценок. Рассмотрим взаимоотношение этих двух областей подробнее.

Современная теория измерений и экспертные оценки. Как проводить анализ собранных рабочей группой ответов экспертов? Для более углубленного рассмотрения проблем экспертных оценок понадобятся некоторые понятия репрезентативной теории измерений, служащей основой теории экспертных оценок, прежде всего той ее части, которая связана с анализом заключений экспертов, выраженных в качественном (а не в количественном) виде.

Как уже отмечалось, получаемые от экспертов мнения часто выражены в порядковой шкале. Поэтому экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы.

Рассмотрим в качестве примера применения результатов теории измерений, связанных со средними величинами в порядковой шкале, следующий сюжет.

Методы средних баллов. В настоящее время распространены экспертные, маркетинговые, квалиметрические, социологические и иные опросы, в которых опрашиваемых просят выставить баллы объектам, изделиям, технологическим процессам, предприятиям, проектам, заявкам на выполнение научно-исследовательских работ, идеям, проблемам, программам, политикам и т.п. Затем рассчитывают средние баллы и рассматривают их как интегральные (т.е. обобщенные, итоговые) оценки, выставленные коллективом опрошенных экспертов. Какими формулами пользоваться для вычисления средних величин? Ведь существует очень много разных видов средних величин.

По традиции обычно применяют среднее арифметическое. Однако специалисты по теории измерений уже около 30 лет знают, что такой способ некорректен, поскольку баллы обычно измерены в порядковой шкале (см. 5.3). Обоснованным является использование медиан в качестве средних баллов. Однако полностью игнорировать средние арифметические нецелесообразно из-за их привычности и распространенности. Поэтому представляется рациональным использовать одновременно оба метода - и средних арифметических рангов (баллов), и медианных рангов. Такая рекомендация находится в согласии с общенаучной концепцией устойчивости (см. 4.7), исходя из которой следует применять различные методы для обработки одних и тех же данных с целью выделения выводов, получаемых одновременно при всех методах. Такие выводы, видимо, соответствуют реальной действительности, в то время как заключения, меняющиеся от метода к методу, зависят от субъективизма исследователя, выбирающего метод обработки исходных экспертных оценок.

Пример сравнения восьми проектов. Рассмотрим конкретный пример применения только что сформулированного подхода.

По заданию руководства фирмы анализировались восемь проектов, предлагаемых для включения в план стратегического развития фирмы. Они обозначены следующим образом: Д, Л, М-К, Б, Г-Б, Сол, Стеф, К (по фамилиям менеджеров, предложивших их для рассмотрения). Все проекты были направлены 12 экспертам, включенным в экспертную комиссию, организованную по решению Правления фирмы. В табл.11.2 приведены ранги восьми проектов, присвоенные им каждым из 12 экспертов в соответствии с представлением экспертов о целесообразности включения проекта в стратегический план фирмы. При этом эксперт присваивает ранг 1 самому лучшему проекту, который обязательно надо реализовать. Ранг 2 получает от эксперта второй по привлекательности проект, ... , наконец, ранг 8 - наиболее сомнительный проект, который реализовывать стоит лишь в последнюю очередь.

Таблица 11.2. Ранги 8 проектов по степени привлекательности для включения в план стратегического развития фирмы
№ эксперта Д Л М-К Б Г-Б Сол Стеф К
1 5 3 1 2 8 4 6 7
2 5 4 3 1 8 2 6 7
3 1 7 5 4 8 2 3 6
4 6 4 2,5 2,5 8 1 7 5
5 8 2 4 6 3 5 1 7
6 5 6 4 3 2 1 7 8
7 6 1 2 3 5 4 8 7
8 5 1 3 2 7 4 6 8
9 6 1 3 2 5 4 7 8
10 5 3 2 1 8 4 6 7
11 7 1 3 2 6 4 5 8
12 1 6 5 3 8 4 2 7

Примечание. Эксперт № 4 считает, что проекты М-К и Б равноценны, но уступают лишь одному проекту - проекту Сол. Поэтому проекты М-К и Б должны были бы стоять на втором и третьем местах и получить баллы 2 и 3. Поскольку они равноценны, то получают средний балл (2+3)/ 2 = 5/ 2 = 2,5.

Анализируя результаты работы экспертов (т.е. упомянутую таблицу), члены аналитической подразделения Рабочей группы, анализировавшие ответы экспертов по заданию Правления фирмы, были вынуждены констатировать, что полного согласия между экспертами нет, а потому данные, приведенные в таблице, следует подвергнуть тщательному математическому анализу.

Метод средних арифметических рангов. Сначала для получения группового мнения экспертов был применен метод средних арифметических рангов. Прежде всего была подсчитана сумма рангов, присвоенных проектам (см. табл.11.2). Затем эта сумма была разделена на число экспертов, в результате - рассчитан средний арифметический ранг (именно эта операция дала название методу). По средним рангам строится итоговая ранжировка (в другой терминологии - упорядочение), исходя из принципа - чем меньше средний ранг, чем лучше проект. Наименьший средний ранг, равный 2,625, у проекта Б - следовательно, в итоговой ранжировке он получает ранг 1. Следующая по величине сумма, равная 3,125, у проекта М-К - и он получает итоговый ранг 2. Проекты Л и Сол имеют одинаковые суммы (равные 3,25), значит, с точки зрения экспертов они равноценны (при рассматриваемом способе сведения вместе мнений экспертов), а потому должны стоять на 3 и 4 местах и получают средний балл (3+4)/2 = 3,5. Дальнейшие результаты приведены в табл.11.3.

Итак, ранжировка по суммам рангов (или, что в данном случае то же самое, по средним арифметическим рангам) имеет вид:

\text{Б} < \text{М-К} < \{\text{Л}, \text{Сол}\} < \text{Д} < \text{Стеф} < \text{Г-Б} < \text{К}. ( 1)

Здесь запись типа "А<Б" означает, что проект А предшествует проекту Б (т.е. проект А лучше проекта Б). Поскольку проекты Л и Сол получили одинаковую сумму баллов, то по рассматриваемому методу они эквивалентны, а потому объединены в группу (в фигурных скобках). В терминологии математической статистики ранжировка (1) имеет одну связь.

Метод медиан рангов. Значит, наука сказала свое слово, итог расчетов - ранжировка (1), и на ее основе предстоит принимать решение? Так был поставлен вопрос при обсуждении полученных результатов на заседании Правления фирмы. Но тут наиболее знакомый с современной эконометрикой член Правления вспомнил, что ответы экспертов измерены в порядковой шкале, а потому для них неправомерно проводить усреднение методом средних арифметических. Надо использовать метод медиан.

Что это значит? Надо взять ответы экспертов, соответствующие одному из проектов, например, проекту Д. Это ранги 5, 5, 1, 6, 8, 5, 6, 5, 6, 5, 7, 1. Затем их надо расположить в порядке неубывания (проще было бы сказать - "в порядке возрастания", но поскольку некоторые ответы совпадают, то приходится использовать непривычный термин "неубывание"). Получим последовательность: 1, 1, 5, 5, 5, 5, 5, 6, 6, 6, 7, 8. На центральных местах - шестом и седьмом - стоят 5 и 5. Следовательно, медиана равна 5.

Таблица 11.3. Результаты расчетов по методу средних арифметических и методу медиан для данных, приведенных в табл.11.2
Д Л М-К Б Г-Б Сол Стеф К
Сумма рангов 60 39 37,5 31,5 76 39 64 85
Среднее арифметическое рангов 5 3,25 3,125 2,625 6,333 3,25 5,333 7,083
Итоговый ранг по среднему арифметическому 5 3,5 2 1 7 3,5 6 8
Медианы рангов 5 3 3 2,25 7,5 4 6 7
Итоговый ранг по медианам 5 2,5 2,5 1 8 4 6 7

Медианы совокупностей из 12 рангов, соответствующих определенным проектам, приведены в предпоследней строке табл.11.3. (При этом медианы вычислены по обычным правилам статистики - как среднее арифметическое центральных членов вариационного ряда.) Итоговое упорядочение комиссии экспертов по методу медиан приведено в последней строке таблицы. Ранжировка (т.е. упорядочение - итоговое мнение комиссии экспертов) по медианам имеет вид:

\text{Б} < \{\text{М-К, Л}\} < \text{Сол} < \text{Д} < \text{Стеф} < \text{К} < \text{Г-Б}. ( 2)

Поскольку проекты Л и М-К имеют одинаковые медианы баллов, то по рассматриваемому методу ранжирования они эквивалентны, а потому объединены в группу (кластер), т.е. с точки зрения математической статистики ранжировка (4) имеет одну связь.

Сравнение ранжировок по методу средних арифметических и методу медиан. Сравнение ранжировок (1) и (2) показывает их близость (похожесть). Можно принять, что проекты М-К, Л, Сол упорядочены как М-К < Л < Сол, но из-за погрешностей экспертных оценок в одном методе признаны равноценными проекты Л и Сол (ранжировка (1)), а в другом - проекты М-К и Л (ранжировка (2)). Существенным является только расхождение, касающееся упорядочения проектов К и Г-Б: в ранжировке (1) Г-Б < К, а в ранжировке (2), наоборот, К < Г-Б. Однако эти проекты - наименее привлекательные из восьми рассматриваемых, и при выборе наиболее привлекательных проектов для дальнейшего обсуждения и использования на указанное расхождение можно не обращать внимания.

Рассмотренный пример демонстрирует сходство и различие ранжировок, полученных по методу средних арифметических рангов и по методу медиан, а также пользу от их совместного применения.

Метод согласования кластеризованных ранжировок. Проблема состоит в выделении общего нестрогого порядка из набора кластеризованных ранжировок (в другой терминологии - ранжировок со связями). Этот набор может отражать мнения нескольких экспертов или быть получен при обработке мнений экспертов различными методами. Рассмотрим метод согласования кластеризованных ранжировок, позволяющий "загнать" противоречия внутрь специальным образом построенных кластеров (групп), в то время как упорядочение кластеров соответствует одновременно всем исходным упорядочениям.

В различных прикладных областях возникает необходимость анализа нескольких кластеризованных ранжировок объектов. К таким областям относятся прежде всего инженерный бизнес, менеджмент, экономика, социология, экология, прогнозирование, научные и технические исследования и т.д., особенно те их разделы, что связаны с экспертными оценками (см., например, [ [ 11.6 ] , [ 2.15 ] ]). В качестве объектов могут выступать образцы продукции, технологии, математические модели, проекты, кандидаты на должность и др. Кластеризованные ранжировки могут быть получены как с помощью экспертов, так и объективным путем, например, при сопоставлении математических моделей с экспериментальными данными с помощью того или иного критерия качества. Описанный ниже метод был разработан в связи с проблемами химической безопасности биосферы и экологического страхования [ [ 11.6 ] ].

В настоящем пункте рассматривается метод построения кластеризованной ранжировки, согласованной (в раскрытом ниже смысле) со всеми рассматриваемыми кластеризованными ранжировками. При этом противоречия между отдельными исходными ранжировками оказываются заключенными внутри кластеров согласованной ранжировки. В результате упорядоченность кластеров отражает общее мнение экспертов, точнее, то общее, что содержится в исходных ранжировках.

В кластеры заключены объекты, по поводу которых некоторые из исходных ранжировок противоречат друг другу. Для их упорядочения необходимо провести новые исследования. Эти исследования могут быть как формально-математическими (например, вычисление медианы Кемени, упорядочения по средним рангам или по медианам и т.п.), так и требовать привлечения новой информации из соответствующей прикладной области, возможно, проведения дополнительных научных или прикладных работ.

Введем необходимые понятия, затем сформулируем алгоритм согласования кластеризованных ранжировок в общем виде и рассмотрим его свойства.

Пусть имеется конечное число объектов, которые мы для простоты изложения будем изображать натуральными числами 1,2,3,...,k и называть их совокупность "носителем". Под кластеризованной ранжировкой, определенной на заданном носителе, понимаем следующую математическую конструкцию. Пусть объекты разбиты на группы, которые будем называть кластерами. В кластере может быть и один элемент. Входящие в один кластер объекты будем заключать в фигурные скобки. Например, объекты 1,2,3,...,10 могут быть разбиты на 7 кластеров: {1}, {2,3}, {4}, {5,6,7}, {8}, {9}, {10}. В этом разбиении один кластер {5,6,7} содержит три элемента, другой - {2,3} - два, остальные пять - по одному элементу. Кластеры не имеют общих элементов, а объединение их (как множеств) есть все рассматриваемое множество объектов (весь носитель).

Вторая составляющая кластеризованной ранжировки - это строгий линейный порядок между кластерами. Задано, какой из них первый, какой второй, и т.д. Будем изображать упорядоченность с помощью знака <. При этом кластеры, состоящие из одного элемента, будем для простоты изображать без фигурных скобок. Тогда кластеризованную ранжировку на основе введенных выше кластеров можно изобразить так:

A = [1 < \{2,3\} < 4 < \{5,6,7\} < 8 < 9 < 10].

Конкретные кластеризованные ранжировки будем заключать в квадратные скобки. Если для простоты речи термин "кластер" применять только к кластеру не менее чем из 2-х элементов, то можно сказать, что в кластеризованную ранжировку A входят два кластера {2,3} и {5,6,7} и 5 отдельных элементов.

Введенная описанным образом кластеризованная ранжировка является бинарным отношением на носителе - множестве {1,2,3,...,10}. Его структура такова. Задано отношение эквивалентности с 7-ю классами эквивалентности, а именно, {2,3}, {5,6,7}, а остальные 5 классов состоят из оставшихся 5 отдельных элементов. Затем введен строгий линейный порядок между классами эквивалентности.

Введенный математический объект известен в литературе как "ранжировка со связями" (М. Холлендер, Д. Вулф), "упорядочение" (Дж. Кемени, Дж. Снелл [ [ 11.9 ] ]), "квазисерия" (Б.Г. Миркин), "совершенный квазипорядок" (Ю.А. Шрейдер [ [ 11.37 ] , с.127, 130]). Учитывая разнобой в терминологии, было признано полезным ввести собственный термин "кластеризованная ранжировка", поскольку в нем явным образом названы основные элементы изучаемого математического объекта - кластеры, рассматриваемые на этапе согласования ранжировок как классы эквивалентности, и ранжировка - строгий совершенный порядок между ними (в терминологии Ю.А.Шрейдера [ [ 11.37 ] , гл.IV]).

Следующее важное понятие - противоречивость. Оно определяется для четверки - две кластеризованные ранжировки на одном и том же носителе и два различных объекта - элементы того же носителя. При этом два элемента из одного кластера будем связывать символом равенства = , как эквивалентные.

Пусть A и B - две кластеризованные ранжировки. Пару объектов (a,b) назовем "противоречивой" относительно кластеризованных ранжировок A и B, если эти два элемента по-разному упорядочены в A и B, т.е. a < b в A и a > b в B (первый вариант противоречивости) либо a>b в A и a<b в B (второй вариант противоречивости). Отметим, что в соответствии с этим определением пара объектов (a ,b), эквивалентная хотя бы в одной кластеризованной ранжировке, не может быть противоречивой: эквивалентность a = b не образует "противоречия" ни с a<b, ни с a>b. Это свойство оказывается полезным при выделении противоречивых пар.

В качестве примера рассмотрим, кроме A, еще две кластеризованные ранжировки

\begin{gathered}
B = [\{1,2\} < \{3,4, 5\} < 6 < 7 < 9 < \{8, 10\}], \\
C = [3 < \{1, 4\} < 2 < 6 < \{5, 7, 8\} < \{9, 10\}].
\end{gathered}

Совокупность противоречивых пар объектов для двух кластеризованных ранжировок A и B назовем "ядром противоречий" и обозначим S(A,B). Для рассмотренных выше в качестве примеров трех кластеризованных ранжировок A, B и C, определенных на одном и том же носителе {1, 2, 3,..., 10}, имеем

\begin{gathered}
S(A,B) = [(8, 9)], S(A,C) = [(1, 3), (2,4)],\\
S(B,C) = [(1, 3), (2, 3), (2, 4), (5, 6), (8,9)].
\end{gathered}

Как при ручном, так и при программном нахождении ядра можно в поисках противоречивых пар просматривать пары (1,2), (1,3), (1,4), .... , (1,k), затем (2,3), (2,4), ..., (2,k), потом (3,4), ..., (3, k), и т.д., вплоть до последней пары (k-1, k).

Пользуясь понятиями дискретной математики, "ядро противоречий" можно изобразить графом с вершинами в точках носителя. При этом противоречивые пары задают ребра этого графа. Граф для S(A,B) имеет только одно ребро (одна связная компонента более чем из одной точки). Граф для S(A,C) - 2 ребра (две связные компоненты более чем из одной точки). Граф для S(B,C) - 5 ребер (три связные компоненты более чем из одной точки, а именно, {1, 2 , 3, 4}, {5, 6} и {8, 9}).

Каждую кластеризованную ранжировку, как и любое бинарное отношение, можно задать матрицей ||x(a,b)|| из 0 и 1 порядка k \times k. При этом x(a,b) = 1 тогда и только тогда, когда a < b либо a = b. В первом случае x(b,a) = 0, а во втором x(b,a) = 1. При этом хотя бы одно из чисел x(a,b) и x(b,a) равно 1. Из определения противоречивости пары (a, b) вытекает, что для нахождения всех таких пар достаточно поэлементно перемножить две матрицы ||x(a,b)|| и ||y(a,b)||, соответствующие двум кластеризованным ранжировкам, и отобрать те и только те пары, для которых x(a,b)y(a,b) = x(b,a)y(b,a)=0.

Алгоритм согласования некоторого числа (двух или более) кластеризованных ранжировок состоят из трех этапов. На первом выделяются противоречивые пары объектов во всех парах кластеризованных ранжировок. На втором формируются кластеры итоговой кластеризованной ранжировки (т.е. классы эквивалентности - связные компоненты графов, соответствующих объединению попарных ядер противоречий). На третьем этапе эти кластеры (классы эквивалентности) упорядочиваются. Для установления порядка между кластерами произвольно выбирается один объект из первого кластера и второй - из второго, порядок между кластерами устанавливается такой же, какой имеет быть между выбранными объектами в любой из рассматриваемых кластеризованных ранжировок. (Если в одной из исходных кластеризованных ранжировок имеет быть равенство, а в другой - неравенство, то при построении итоговой кластеризованной ранжировки используется неравенство.)

Корректность подобного упорядочивания, т.е. его независимость от выбора той или иной пары объектов, вытекает из соответствующих теорем, доказанных в работе [ [ 11.6 ] ].

Два объекта из разных кластеров согласующей кластеризованной ранжировки могут оказаться эквивалентными в одной из исходных кластеризованных ранжировок (т.е. находиться в одном кластере). В таком случае надо рассмотреть упорядоченность этих объектов в какой-либо другой из исходных кластеризованных ранжировок. Если же во всех исходных кластеризованных ранжировках два рассматриваемых объекта находились в одном кластере, то естественно считать (и это является уточнением к этапу 3 алгоритма), что они находятся в одном кластере и в согласующей кластеризованной ранжировке.

Результат согласования кластеризованных ранжировок A, B, C,... обозначим f(A, B, C,...). Тогда

\begin{gathered}
f(A, B) = [1<2<3<4<5<6<7<\{8, 9\}<10], \\
f(A, C) = [\{1,3\}<\{2, 4\}<6<\{5,7\}<8<9<10], \\
f(B, C) = [\{1,2,3,4\}<\{5,6\}<7<\{8,9\}<10], \\
f(A, B, C) = f(B, C) = [\{1,2,3,4\} <\{5,6\}<7<\{8, 9\}<10].
\end{gathered}

Итак, в случае f(A, B) дополнительного изучения с целью упорядочения требуют только объекты 8 и 9. В случае f(A, C) кластер {5,7} появился не потому, что относительно объектов 5 и 7 имеется противоречие, а потому, что в обеих исходных ранжировках эти объекты не различаются. В случае f(B, C) четыре объекта с номерами 1, 2, 3, 4 объединились в один кластер, т.е. кластеризованные ранжировки оказались настолько противоречивыми, что процедура согласования не позволила провести достаточно полную декомпозицию задачи нахождения итогового мнения экспертов.

Обсудим некоторые свойства алгоритмов согласования.

1. Пусть D = f(A, B, C,...). Если a<b в согласующей кластеризованной ранжировке D, то a<b или a=b в каждой из исходных ранжировок A, B, C, ..., причем хотя бы в одной из них справедливо строгое неравенство.

2. Построение согласующих кластеризованных ранжировок может осуществляться поэтапно. В частности,

f(A,B,C) = f(f(A,B), f(A,C), f(B,C)).

Ясно, что ядро противоречий для набора кластеризованных ранжировок является объединением таких ядер для всех пар рассматриваемых ранжировок.

3. Построение согласующих кластеризованных ранжировок нацелено на выделение общего упорядочения в исходных кластеризованных ранжировках. Однако при этом некоторые общие свойства исходных кластеризованных ранжировок могут теряться. Так, при согласовании ранжировок B и C, рассмотренных выше, противоречия в упорядочении элементов 1 и 2 не было - в ранжировке В эти объекты входили в один кластер, т.е. 1 = 2, в то время как 1<2 в кластеризованной ранжировке C. Значит, при их отдельном рассмотрении можно принять упорядочение 1<2. Однако в f(B,C) они попали в один кластер, т.е. возможность их упорядочения исчезла. Это связано с поведением объекта 3, который "перескочил" в С на первое место и "увлек с собой в противоречие" пару (1, 2), образовав противоречивые пары и с 1, и с 2. Другими словами, связная компонента графа, соответствующего ядру противоречий, сама по себе не всегда является полным графом. Недостающие ребра при этом соответствуют парам типа (1, 2), которые сами по себе не являются противоречивыми, но "увлекаются в противоречие" другими парами.

4. Необходимость согласования кластеризованных ранжировок возникает, в частности, при разработке методики применения экспертных оценок в задачах экологического страхования и химической безопасности биосферы. Как уже говорилось, популярным является метод упорядочения по средним рангам, в котором итоговая ранжировка строится на основе средних арифметических рангов, выставленных отдельными экспертами [ [ 11.17 ] , [ 2.15 ] ]. Однако из теории измерений известно (см. "Описание данных" ), что более обоснованным является использование не средних арифметических, а медиан. Вместе с тем метод средних арифметических рангов весьма известен и широко применяется, так что просто отбросить его нецелесообразно. Поэтому было принято решение об одновременном применении обеих методов. Реализация этого решения потребовала разработки методики согласования двух указанных кластеризованных ранжировок.

5. Область применения рассматриваемого метода не ограничивается экспертными оценками. Он может быть использован, например, для сравнения качества математических моделей процесса испарения жидкости. Имелись данные экспериментов и результаты расчетов по 8 математическим моделям. Сравнивать модели можно по различным критериям качества. Например, по сумме модулей относительных отклонений расчетных и экспериментальных значений. Можно действовать и по другому. В каждой экспериментальной точке упорядочить модели по качеству, а потом получить единые оценки методами средних арифметических и медиан рангов. Использовались и иные методы. Затем применялись методы согласования кластеризованных ранжировок, полученных различными способами. В результате оказалось возможным упорядочить модели по качеству и использовать это упорядочение при разработке банка математических моделей, используемого в задачах химической безопасности биосферы.

6. Рассматриваемый метод согласования кластеризованных ранжировок построен в соответствии с методологией теории устойчивости, согласно которой результат обработки данных, инвариантный относительно метода обработки, соответствует реальности, а результат расчетов, зависящий от метода обработки, отражает субъективизм исследователя, а не объективные соотношения.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?