Кабардино-Балкарский государственный университет
Опубликован: 30.11.2014 | Доступ: свободный | Студентов: 1117 / 467 | Длительность: 09:25:00
Специальности: Преподаватель
Лекция 5:

Обоснование качества теста

< Лекция 4 || Лекция 5: 123456 || Лекция 6 >

5.2. Задачи и алгоритмы оценки

Рассмотрим некоторые базовые понятия и задачи (алгоритмы) проведения оценивания по любой методологии. Сам класс таких задач – весьма широк.

Задача 1. Пусть даны результаты тестирования группы, состоящей из n испытуемых для заданного теста из m различных знаний. Обычно эти данные представляются в виде некоторой матрицы A баллов размерности n на m:

A(n\times m)=\begin{Vmatrix}a_{11}&a_{12}&\dots&a_{1m}\\a_{21}&a_{22}&\dots&a_{2m}\\\dots&\dots&\dots&\dots\\a_{n1}&a_{n2}&\dots&a_{nm}\\\end{Vmatrix}=\|a_{ij}\|_{i=\overline{1,n}}^{j=\overline{1,m}}

Элемент aij матрицы A представляет собой результат выполнения j-го задания для i-го тестируемого.

Необходимо на основе имеющихся результатов x1, x2, ..., xn тестирования для каждого из n тестированных, вычислить основные статистические показатели тестирования (оценить "сырые" результаты) для выбранной случайным образом группы тестированных.

Алгоритм решения этой задачи состоит из следующих этапов.

  1. Упорядочиваем ряд по возрастанию (находим генеральную совокупность): x1<x2<...> xn.
  2. Выбираем интересующее нас подмножество тестированных (выборку).
  3. Находим среднее арифметическое по выборке
    \bar x=\frac{x_1+x_2+\cdots+x_n}{n}.
  4. Находим величины, характеризующие структурные изменения, например, моду и медиану. Для данных, имеющих "хорошее поведение", медиана всегда лежит в промежутке между средним арифметическим и модой. Эти величины выстраиваются по возрастанию следующим образом: среднее, медиана, мода, или же в обратном порядке. Прямой или обратный порядок их расположения можно определить, вычислив так называемый коэффициент асимметрии:
    K=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^3}{(\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2})^3}.
    Этот коэффициент отражает относительную изменчивость данных.
  5. Находим меры рассеяния, разброса или вариации, показывающие, как остальные элементы совокупности (выборки) группируются около средних величин. Например,
    1. размах
      r_x=x_{\max} – x_{\min} = x_n – x_1;
    2. среднее абсолютное отклонение
      r_{cp}=\frac{1}{n}\sum_{i=1}^{n}|x_i-\bar x|;
    3. среднеквадратичное отклонение
      \delta x=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2=\frac{1}{n}(\sum_{i=1}^{n}x_i^2-n x^{-2});
    4. дисперсия
      D=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2=\frac{1}{n-1}(\sum_{i=1}^{n}x_i^2-n x^{-2});
    5. стандартное отклонение:
      \sigma=\sqrt{D};
    6. коэффициент вариации
      \nu=\sigma/\bar x.
  6. Конец алгоритма.

Задача 2. Даны результаты тестирования для каждого из n тестированных и теста длины m в виде матрицы A, а также вектор эталонных ответов B=(b1, b2, …, bm), где bj – эталонный ответ на задание номер j. Необходимо определить "вес" (меру сложности) конкретного задания теста.

Простейший алгоритм решения этой задачи состоит из следующих этапов.

  1. Определяем для очередного задания теста по матрице А количество тестированных, давших правильный ответ на данное задание.
  2. В качестве "веса" задания берется дробь cj: знаменатель – количество тестированных, числитель – количество тестированных, давших правильные ответы на все задания.
  3. Вычисляем смежные веса di: знаменатель – количество всех тестированных, давших неправильный ответ на данное задание номер j, числитель – количество тестированных, давших неправильные ответы на все задания. Иногда в знаменателе берется количество всех тестированных.
  4. Находится вектор весов выполнения c=(c1, c2, …, cm) для заданного вектора b эталонных ответов.
  5. Находим вектор весов невыполнения d=(d1, d2, …, dm) для заданного вектора b эталонных ответов.
  6. Оцениваем дисперсию каждого j-го задания Djidi и стандартное отклонение \sigma_j=\sqrt{D_j}.
  7. Конец алгоритма.

Задача 3. Даны результаты тестирования для каждого из n тестированных и теста длины m в виде матрицы A, а также вектор эталонных ответов B=(b1, b2, …, bm), где bj – эталонный ответ на задание номер j. Необходимо оценить валидность каждого задания теста.

Простейший алгоритм решения этой задачи состоит из следующих этапов.

  1. Определяем для очередного задания теста по матрице A количество тестированных, давших правильный ответ на j-ое задание и находим их средний балл xj.
  2. Находим аналогично количество тестированных, давших неправильный ответ на j-ое задание и их средний балл yj.
  3. Находим дробь cj: знаменатель – количество тестированных, давших правильный ответ на данное задание номер j, числитель – количество тестированных.
  4. Находим дробь di: знаменатель – количество тестированных, давших неправильный ответ на данное задание номер j, числитель – количество тестированных.
  5. Оцениваем дисперсию каждого j-го задания Djidi и стандартное отклонение \sigma_j=\sqrt{D_j}.
  6. Находим стандартное отклонение \sigma=\sqrt{D} по всему тесту.
  7. Находим коэффициент корреляции (меру валидности задания):
    r_j = \frac {(x_j-y_j)\sigma_j}{\sigma}
  8. Если rj>0,3, то задание считаем валидным, иначе – не валидным (с точки зрения критериальной валидности, задания, выполненные всеми или невыполненные никем, не являются валидными).
  9. Конец алгоритма.

Задача 4. Даны результаты нормативно-ориентированного тестирования для каждого из n тестированных и теста длины m в виде матрицы A, а также вектор эталонных ответов B=(b1, b2, …, bm), где bj – эталонный ответ на задание номер j. Необходимо оценить надежность теста (степень устойчивости результатов тестирования каждого испытуемого, если тестирование было проведено в совершенно одинаковых условиях).

Для вычисления надежности нормативно-ориентированного теста используем коэффициент корреляции между результатами двух параллельных тестов. Сравнивая коэффициенты корреляции, делаем заключение о надежности (внутренней) теста. Если две половины теста коррелированы, то и тест надёжен; в противном случае – не надёжен (или необходимо применить другой, более тонкий математический аппарат исследования надежности).

Простой алгоритм решения этой задачи состоит из следующих этапов.

  • Делим тест на две равные части X и Y, например, по четным и нечетным номерам заданий. Этот метод называется методом расщепления теста. Таким образом, мы имеем данные по двум параллельным тестам X и Y – индивидуальные баллы (x1, x2, …, xn), (y1, y2, …, yn), где n – количество тестированных.
  • Для каждого задания группы X выполняем предыдущий алгоритм.
  • Для каждого задания группы Y выполняем предыдущий алгоритм.
  • Находим коэффициент корреляции X и Y по формуле:
    r_{XY}=\frac{\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\sum_{i=1}^{n}y_i}{\sqrt{\sum_{i=1}^{n}x_i^2-\frac{1}{n}(\sum_{i=1}^{n}x_i)^2}\cdot\sqrt{\sum_{i=1}^{n}y_i^2-\frac{1}{n}(\sum_{i=1}^{n}y_i)^2}}.
  • Находим надежность r всего теста по формуле (Спирмена-Брауна):
    r=\frac{2r_{XY}}{1+r_{XY}}.
  • Конец алгоритма.

Задача 5. Необходимо на основе имеющихся результатов тестирования (матрица А) получить для каждого из n тестированных интегральный (обобщенный) показатель выполнения теста длины m, а затем по вычисленным значениям этого интегрального показателя разбить всех тестированных на заданное количество k групп.

Алгоритм решения этой задачи состоит из следующих этапов.

  1. Если для j-го задания увеличение значений результатов измерения свидетельствует об улучшении соответствующего свойства, то с ним свяжем признак zj=1, а если свидетельствует об ухудшении – признак zj=–1.
  2. Выполняем нормирование элементов исходной матрицы так, чтобы в каждом столбце они изменялись в "одном направлении": для каждого задания (при фиксированном j=1, 2, …, m) и для каждого испытуемого i=1, 2, …, n вычислим новое значение
    a_{ij}:=\frac{a_{ij}-m_j}{M_j-m_j},
    где Mj, mj – наибольшее и наименьшее значения элементов j-го столбца и применяем преобразование вида
    a_{ij}:=\left\{\begin{aligned}a_{ij},&z_j=1\\1-a_{ij},&z_{ij}=-1.\\\end{aligned}\right.
  3. Для каждого столбца полученной новой матрицы А (нормированной) вычисляется среднее квадратичное отклонение по формуле
    c_{j}=\sqrt{\frac{\sum_{i=1}^{n}(a_{ij}-\bar a_j)^2}{n-1}},
    где \bar a_j– среднее арифметическое элементов j-го столбца.
  4. Вычисляется классификационный интегральный показатель
    y_i=\sum_{j=1}^{m}a_{ij}c_i,
    где yi – значение интегрального показателя для i-го обучаемого i=(1,2,…,n), cj – весовой коэффициент j-го задания в тесте или в банке всех заданий, a ij– элемент матрицы А или его преобразованное (нормированное, например, по отношению к максимальному элементу или к норме матрицы).
  5. Находим наименьшее ymin и ymax наибольшее значения интегрального показателя (по всем тестированным). Отрезок [yminymax;] делим на заданное число k интервалов. Часто берут (при построении, например, гистограммы) k=1+3,2lgn. Всех тестированных, для которых вычисленные значения интегрального показателя попадают в один и тот же интервал, отождествляем и относим к одному классу.
  6. Выдаем результаты: значения интегрального показателя для каждого тестированного, а также его класс (или классификацию тестированных по интегральному показателю).
  7. Конец алгоритма.

Задача 6. Есть результаты тестирования, полученные в виде матрицы А. Необходимо разбить всех тестированных на несколько групп по отношению к норме (сильные, средние, слабые), где величина x – норма для тестовых результатов и величина k – масштабный коэффициент.

Алгоритм решения задачи.

  1. Ввод данных: n, m, A, k.
  2. Для каждого из тестированных определяем его суммарный балл:
    b_i=\sum_{j=1}^{m}a_{ij}.
  3. Разбиваем рассматриваемую выборку тестированных на 3 группы. В первую группу попадают с высокими баллами: суммарный балл для попадающих в эту группу не ниже значения выражения
    \min\{b_i\}+k(\max\{b_i\}-b_i).
  4. В третью группу попадают с низкими баллами – не выше значения выражения
    \min\{b_i\}+(1-k)(\max\{b_i\}-b_i).
  5. Во вторую группу попадают все остальные (со средними баллами).
  6. Выдача результатов: количество и состав попавших в каждую группу.
  7. Конец алгоритма.

Задача 7. Необходимо отсеять первичные ("сырые") результаты в группах, т.е. по данным x1, x2, …, xn (процент выполнения, валидность и т.д.) выяснить задания (тесты, результаты), которые не согласуются с общей картиной тестирования.

Алгоритм решения задачи состоит из следующих этапов.

  1. Вычисляется средняя величина \bar x.
  2. Вычисляются наибольшее xmax и наименьшее xmin в группе.
  3. Вычисляются наибольшее отклонение в группе:
    d_{\max}=|x_{\min(\max)}-\bar x|.
  4. Вычисляется относительное отклонение:
    w=d_{\max}/\bar x.
  5. Находим по таблице распределения Стьюдента процентные точки для t(5%) и t(0.1%). Таблица Стьюдента имеется практически во всех справочниках по математической статистике и в математических пакетах.
  6. Вычисляем соответствующие точки w(5%;n), w(0.1%;n).
  7. Если
    w(5\%;n)>t(5\%) (w(0.1\%;n)>t(0.1\%)),
    то отсеиваем рассматриваемое данное и пересчитываем все заново (повторяем заново пункты 1-6).
  8. Конец алгоритма.
< Лекция 4 || Лекция 5: 123456 || Лекция 6 >
Наталья Кузьминова
Наталья Кузьминова
Павел Плехов
Павел Плехов

Кое как сдал Тест 2, перешёл к лекции 3, и вижу, что здесь как раз и рассказывается про то, что я сдавал до этого.

Как так?

Харламп Бикс
Харламп Бикс
Россия
Артур Гибадуллин
Артур Гибадуллин
Россия, г. Нижневартовск