Лекция 14. Оценивание надежности и валидности педагогических тестов.
1. Реестовый метод. 2. Метод параллельных форм. 3. Метод расщепления теста. 4. Метод Кьюдера- Ричардсона. Н 5. адежность и стандартная ошибка измерения. 6. Валидность гомогенных тестов.
1. Оценивание надежности ретестовым методом (двукратное тестирование)
Общие замечания о надежности и методах ее оценивания. Вводные представления о надежности педагогических измерений были изложены в разделе 4.5, содержащем определение, концептуальное обоснование и анализ надежности в контексте ее связи с дисперсией наблюдаемых баллов и ошибкой измерения. В том же разделе приведено определение коэффициента надежности теста — rH, позволяющее сделать некоторые выводы о факторах, влияющих на ее величину. Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы [1; 60]. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста или с помощью двух параллельных форм теста. Вторая группа методов предполагает однократное тестирование при оценке надежности теста. На практике стараются использовать вторую группу методов, поскольку организация повторного тестирования и разработка параллельных форм всегда сопряжены с определенными трудностями и дополнительными затратами со стороны создателей тестов. Обычно вне зависимости от метода оценка надежности строится на подсчете корреляции между двумя наборами данных. Логика рассуждений при этом довольно проста: чем выше корреляция, тем надежнее тест. Для маленькой выборки корреляцию можно оценить визуально (табл. 13). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 учеников. Тест А обладает оптимальной надежностью, так как результаты 10 учеников остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице. Тест В полностью ненадежен: тот, кто имел самые высокие баллы в первом тестировании, получает самые низкие баллы во втором тестировании после повторного применения этого же теста. Полное отсутствие воспроизводимости баллов испытуемых указывает на минимальную надежность теста, близкую к -1. Тест С обеспечивает в целом хаотичное изменение результатов, хотя баллы отдельных учеников (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность третьего теста близка к нулю.
Таблица 13 Результаты двукратного выполнения трех тестов
Естественно, что рассмотренные гипотетические ситуации не встречаются в практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице. Это относится даже к существующим десятилетия тестам, получившим всеобщее признание. Подсчет коэффициента надежности. Ретестовый метод оценки надежности (test-retest reliability) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Обычно повторное тестирование проводится через 1 —2 недели, когда испытуемые еще не успели забыть учебный материал и незначительно продвинулись в усвоении новых знаний. При таких условиях повторного предъявления теста низкая корреляция между результатами тестирования будет следствием не изменения состояния испытуемых, а применения ненадежного теста. Для подсчета коэффициента надежности по методу повторного тестирования используется формула
где (гн)рет — коэффициент надежности теста по ретестовому методу; Xi — индивидуальный балл i-го испытуемого в первом тестировании; Yi — индивидуальный балл i-го испытуемого во втором тестировании (i = 1, 2, ..., N). Пример подсчета. Используя данные табл. 9 (первое тестирование) и добавляя к ним гипотетические данные второго тестирования, можно с помощью табл. 14 подсчитать коэффициент надежности ретестовым методом. После подстановки чисел из нижней строчки таблицы в формулу (16) коэффициент надежности будет равен (rн)рен=
указывает на невысокую надежность теста. Применение ретестового метода может привести к ошибочным оценкам надежности в тех случаях, когда, проводится слишком близкое по времени повторное применение теста. Учащиеся запоминают ответы к заданиям и при повторном тестировании значительно повышают свои результаты, что искажает оценку надежности теста.
Пример данных для оценки надежности
Таблица 14
2. Метод параллельных форм
Метод параллельных форм (parallel-form reliability) малоэффективен в тех случаях, когда при тестировании используется один вариант теста. В некоторых странах, например в США, благодаря соблюдению всех требований к проведению тестирования применение единственного варианта не снижает необходимый уровень информационной безопасности и обеспечивает при этом высокую сопоставимость результатов выполнения теста. Если тест только один, то для оценки надежности методом параллельных форм приходится создавать параллельный вариант теста, затем с затратами сил, средств и времени на апробацию доказывать правомерность гипотезы о параллельности и только потом оценивать надежность исходного теста. Если параллельные варианты теста разрабатываются изначально, как в ЕГЭ, оценка надежности методом параллельных форм также требует значительных трудозатрат. Необходима тщательная ротация вариантов в группе испытуемых для обеспечения сходных выборок учащихся на параллельных вариантах теста. Даже при стратификации выборки испытуемых и ротации вариантов достоверность оценок надежности снижается из-за того, что параллельные формы — это скорее теория, чем реальность, поскольку на практике, несмотря на все усилия авторов, как правило, обнаруживаются статистически значимые различия в характеристиках параллельных вариантов. Для оценки надежности методом параллельных форм используется формула (16). В ней Xi (i= 1, 2,..., N) — индивидуальные баллы испытуемых в первой форме, a Yi (i=1, 2,...., N) — индивидуальные баллы во второй форме. Далее все вычисления с точностью повторяют подробно рассмотренный пример (см. табл. 9).
3. Метод расщепления теста (однократное тестирование) Описание метода. Метод оценивания надежности, основанный на расщеплении результатов по тесту на две части (split-half method), наиболее распространен из-за своего удобства. Он позволяет вычислить коэффициент надежности при однократном выполнении учениками теста. Для оценки надежности результаты тестирования делят на две части: в одну включают данные испытуемых по четным, а в другую — по нечетным заданиям, считая при этом, что получены сходные по содержанию части теста. Правда, деление на две части не единственный способ, возможны и другие варианты, когда выделяют большее число частей, при оценке надежности теста. Таблица 15 Сводная таблица для оценка надежности (метод расщепления)
Подсчет, коэффициента надежности. Для оценивания надежности методом расщепления результаты учеников заносят в табл. 15. Далее для таблицы данных используют формулу (16), в которой роль результатов в первом тестировании выполняют данные по четным, а во втором — по нечетным заданиям. Использование метода расщепления дает заниженные оценки надежности в силу того, что она оценивается для укороченного в 2 раза теста. Коррекция коэффициента надежности. Для коррекции оценки надежности в соответствии с длиной исходного теста используется формула Спирмена—Брауна
где в числителе и знаменателе дроби стоит коэффициент надежности для половины заданий теста, а слева — скорректированный коэффициент надежности с учетом всех заданий теста. Приведенный метод оценивания надежности имеет свои ограничения в применении. Он основан на допущении параллельности двух половин теста, что не всегда и не в полной мере может оказаться верным. Корреляция двух половин возрастает по мере роста гомогенности теста. В этой связи метод, расщепления нередко называют методом оценки внутренней состоятельности {согласованности) теста (Internal-Consistency Method).
4. Метод Кьюдера—Ричардсона (для дихотомических оценок по заданиям теста) Описание метода. Метод Кьюдера—Ричардсона для оценки надежности, так же как и метод расщепления теста, основан на однократном тестировании, но в отличие от него не зависит от искусственных допущений о полной параллельности двух частей теста. Однако сфера его применения ограниченна, так как он годится лишь при использовании дихотомических опенок по результатам выполнения заданий гомогенных тестов. Формула Кьюдера—Ричардсона. Формула Кыодера— Ричардсона (KR-20) имеет следующий вид:
pj — доля правильных ответов на j-е задание; qj — доля неправильных ответов, qj = 1 – рj; Sx2 — дисперсия по распределению наблюдаемых баллов; п — число заданий теста [87]. Для матрицы данных, представленных в табл. 9, подсчитанная ранее исправленная дисперсия равна Sx2=6,89, а доли правильных ответов получаются делением чисел Rj в последней строке матрицы на 10. Сумма произведений долей правильных и неправильных ответов в таком случае будет равна 0,9*0,1+0,8*0,2 + 0,7 *0,3 + 0,6*0,4 + + 0,5*0,5 + 0,5 *0,5 + 0,3*0,7 + 0,4*0,6 + 0,2*0,8 + 0,1*0,9 = 1,9,
.
а коэффициент надежности
Общие рекомендации по применению метода Кьюдера—Ричардсона. В целом при оценке надежности нельзя полагаться лишь на один показатель, поскольку каждый из них имеет свои ограничения, смещающие оценки надежности теста в сторону завышения или занижения. Для достоверной проверки качества теста следует учитывать несколько показателей надежности, подсчитанных по разным формулам. В данном пособии приведена лишь небольшая их часть. В качестве нижнего предела допустимых значений надежности обычно выбирают 0,7. При более низком значении использование теста вряд ли целесообразно в силу большой погрешности измерения. Бели тест разрабатывается профессионалами, то к нему предъявляют более жесткие требования. Как правило, тесты с надежностью менее 0,8 считаются непригодными в профессионально организованных службах и центрах тестирования. Значения коэффициента надежности, превышающие 0,9, свидетельствуют о высоком качестве теста. Они желательны, но встречаются редко. Обычно в тестологической практике надежность тестов колеблется в интервале (0,8; 0,9).
5. Надежность и стандартная ошибки измерения
Связь между стандартной ошибкой измерения и надежностью теста. Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу (1) для коэффициента надежности теста, выделив в левой части SЕ2. После преобразования формулы относительно SЕ2 получится выражение
где Sx — стандартное отклонение по распределению индивидуальных баллов; rH — коэффициент надежности теста; SE — стандартная ошибка измерения. Это выражение обычно используется для вычисления SE по известным величинам rн и Sx. Для лучшего уяснения смысла показателя SE можно представ вить, гипотетическую ситуацию, когда i-й испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормальное распределение вокруг истинного балла Тi, со стандартным отклонением SE. На практике SE рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину SE используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы. Построение доверительного интервала. Общераспространен подход, когда доверительный интервал выстраивается вокруг наблюдаемого показателя ученика как две симметричные окрестности (левая и правая), хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт вынужденно игнорируется в прикладных исследованиях в силу отсутствия истинного балла, и доверительный интервал при заданном риске допустить ошибку t= 0,05 (в пяти случаях из ста) принимается равным (Xi - 1,96SE, Xi + l,96SE), где Xi — наблюдаемый балл i-го испытуемого; 1,96 — константа, табличное число, используемое при t =0,05. Численный пример. Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 9), коэффициента надежности rн= 0,78 и стандартного отклонения Sx= 2,62, вычисленного ранее для матрицы, SE будет равно SE =2,62√1-0,78 ≈1,23. В данном случае доверительный интервал для истинного балла первого ученика со значением Х1.= 6 будет составлять (6 - 1,23; 6 +1,23) или (4,77; 7,23). Истинный балл первого ученика может находиться в любой точке этого интервала. Очевидно, что с ростом SE границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (величина отклонения наблюдаемых баллов от истинной компоненты измерения). Предсказание истинных баллов на основе регрессионной модели. Методы регрессионного анализа позволяют прогнозировать оценки истинных баллов испытуемых по распределению наблюдаемых баллов и коэффициенту надежности теста. Прогноз получается путем подстановки в регрессионное уравнение
Ti=X + rн(Xi-X),
где Тi — истинный балл; Xi — индивидуальный балл i-го испытуемого; .X — среднее значение баллов испытуемых [60].
6. Валидность гомогенных тестов
Общие замечания. Валидность педагогических измерений рассматривалась ранее в разделе 4.5. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто валидность стараются проверить с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как необходимо не только выделить лучших абитуриентов в момент приема, но и спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов. Критерии для оценки валидности. Как было отмечено ранее, оценивание валидности всегда проводится путем соотнесения характеристик результатов измерения с внешними критериями [1; 69; 86]. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой ваяидизации носит не практический» а методологический характер, поскольку она состоит в выборе значимого внешнего критерия. Связь надежности и валидности. Для повышения полноты охвата содержания и роста содержательной валидности теста жела-тельно отбирать задания с малыми коэффициентами интеркорреляции. К противоположному выводу легко прийти, если старать повысить надежность теста. Отбирая задания с большими коэффициентами интеркорреляции, можно обеспечить высокую однородность содержания и надежность теста. Это противоречие, получившее название «парадокс Ф.Лорда», приводит к возникновению серьезных проблем при конструировании теста. Таким образом, при конструировании гомогенного теста следует стремиться к повышению в разумных пределах его надежности, чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем заданиям, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. По мнению Кэттела и Клайна, максимум валидности может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, однако каждое из них имеет высокую корреляцию с критерием по тесту [26]. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисериальной корреляции с суммой баллов по тесту. По рассматриваемой выше проблеме существует и другая точка зрения. Так, Гилфорд и Ньюнелли |26] полагают, что внутренняя согласованность теста — непременное условие его высокой содержательной валидности, и потому высокая надежность является предпосылкой оптимальной валидности теста. Количественные оценки валидностн. При количественных оценках валидности для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизапии осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек. Если мера согласованности достаточно высока, то для оценки валидности используется формула где Xi - X — отклонение тестового балла i-го ученика от среднего балла по тесту; Хmi –Хэ — отклонение балла i-гo ученика у экспертов от Хэ - среднего арифметического экспертных оценок; S2x — дисперсия баллов учеников по тесту; Smx2 — дисперсия баллов т- го эксперта; т — число экспертов. Бывают случаи, когда педагог заинтересован в оценке прогностической валидности, указывающей меру вероятности прогноза успешности дальнейшего обучения по результатам выполнения теста. В этом случае результаты по тесту коррелируют с результатами поступивших абитуриентов после окончания первого года обучения в вузе. Высокая корреляция означает, что разработанные тесты дли отбора абитуриентов в вуз прогностичны. Источники повышения валидности теста. Для повышения содержательной валидности теста необходимы: - подбор оптимальной трудности заданий; - экспертиза качества содержания теста; - расчет оптимального времени выполнения теста; - подбор валидных заданий с высокой дискриминативностью.
|