Лекция 7. Педагогические измерения.

 

1.      Компоненты и уровни измерений.

2.      Объективность педагогических измерений.

3.      Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.

4.      Уровни измерений в образовании.

5.       Надежность и валидность результатов педагогических измерений.

 

 Основные понятия теории педагогических измерений

 

Измерение в образовании, латентные переменные. Согласно наи­более распространенному определению, введенному в 1946 г. аме­риканским психологом С.Стивенсом, измерение – это процеду­ра приписывания чисел некоторым характеристикам объектов в соответствии с определенными правилами [6; 22]. Данное опреде­ление – результат формального обобщения опыта количествен­ных измерений, широко применяемых в физике и других есте­ственных науках, однако на протяжении многих лет его брали за основу и в эмпирических науках.

По мере развития педагогики, психологии и социологии воз­никла потребность во введении не только количественных, но и качественных оценок для величин, отличающихся по степени проявления того или иного свойства. Качественные оценки явля­ются менее точными по сравнению с количественными в силу применяемых способов и инструментов измерения. Например, классифицирующие понятия в образовании («знающий», «подготовленный» и др.), которые дифференцируют обучающихся по уровню знаний и играют важную роль в учебном процессе, опре­деляются субъективно учителем или группой учителей. Нередко качественные оценки выражают с помощью чисел, которые выби­рают на основе экспертных суждений и соглашений. Приписываемые числа могут трактоваться по-разному. Так, в традиционном педагогическом контроле у каждого учителя есть свои представления о том, за что нужно ставить «5», «4», «3» и т.д.

Неоднозначность оценивания в образовании усугубляется латентным (скрытым, исключающим возможность непосредственно­го измерения) характером измеряемых переменных. В силу латентности оцениванию подвергаются не сами характеристики обученности и обучаемости, а их эмпирические референты – наблюдаемые признаки измеряемых характеристик. Выбор по­следних происходит, интуитивно, поэтому их соответствие ла­тентным характеристикам нуждается в доказательстве на основе экспертного и статистического анализа эмпирических результа­тов измерения.

Современная трактовка понятия «педагогическое измерение». Современная теория измерений появилась в 80-х гг. XX в. Она стро­ится на более строгой аксиоматической основе [22; 34]. В соответ­ствии с новыми представлениями, измерение трактуется как кон­струирование числовой функции, осуществляющей изоморфное отображение некоторой эмпирической структуры в соответствую­щим образом подобранную числовую структуру.

Изоморфизм – важное понятие математики, которое опреде­ляет ряд условий взаимно однозначного, отображения двух мно­жеств с сохранением их свойств в процессе такого отображения. Хотя это понятие впервые появилось в высшей алгебре, в наше время оно используется довольно широко, хотя и не вполне стро­го, например в педагогических измерениях. Поскольку эмпири­ческая структура и строящаяся по результатам оценивания число­вая структура (шкала) изоморфны, имея шкалу, можно, не обра­щаясь непосредственно к измеряемым объектам, восстановить все их свойства, характерные для эмпирической структуры.

1. Компоненты процесса педагогических измерений.

 Процесс педа­гогических измерений включает:

- выбор предмета измерения (латентных характеристик объек­тов) и их числа;

- выбор эмпирических референтов (наблюдаемых характерис­тик объектов);

- выбор измерительных процедур;

- конструирование и использование измерительных инструмен­тов;

- выбор шкалы (если измеряемая переменная одна) или шкал (если измеряют более одной переменной при многомерных изме­рениях);

- построение отображения результатов измерения на шкалу (шкалы в случае многомерных измерений) по определенным про­цедурам и правилам;

- обработку, анализ и интерпретацию результатов измерения.

В силу неизбежности ошибок измерения оцениваемые характе­ристики объектов могут принимать более или менее точные значе­ния, поэтому эти характеристики принято называть переменными измерения. Любые отклонения от стандартизированных условий из­мерения, обработки, анализа и интерпретации полученных резуль­татов увеличивают ошибки измерения, которые представляют наи­большую опасность в эмпирических науках в силу латентного харак­тера переменных. Поэтому так важен анализ устойчивости и точно­сти (надежности) результатов тестирования, что выгодно отличает тесты от традиционных оценочных средств [22; 46; 60].

Еще одна характеристика качества результатов тестирования – валидность – отражает адекватность эмпирических результатов по­ставленным целям измерения [22; 60]. В силу многогранности целей анализ валидности должен быть многоаспектным, но в любом случае важное, место занимает доказательство адекватности эмпи­рических референтов концептуально выделенной переменной (пе­ременных) измерения (конструктная валидность).

Измерительный инструмент. Измерительный инструмент вклю­чает два компонента. Первый компонент – само измеряю­щее устройство, роль которого в педагогических измерениях чаще всего, но не всегда выполняет тест. В самом обобщенном виде под тестом можно понимать совокупность контрольных заданий в стандартизированной форме, обладающих необходимыми системооб­разующими статистическими характеристиками и обеспечиваю­щих обоснованные оценки концептуально выделенной переменной (переменных) измерения с высокой объективностью. Таким образом, в самом определении теста заложены требования к его качеству, отсутствующие в традиционных оценочных средствах.

Второй компонент измерительного инструмента – заранее подготовленная шкала, которая служит для фиксации ре­зультатов измерения и на которой откладываются оценки (коли­чественные или качественные) измеряемой переменной. В про­цессе упорядочения оценок каждому элементу совокупности на­блюдаемых эмпирических данных ставится в соответствие опреде­ленный балл, устанавливающий положение наблюдаемого эле­мента на шкале, где можно размещать сырые (первичные) баллы (результаты суммирования оценок по отдельным заданиям теста) или производные баллы, получающиеся в результате преобразования первичных оценок для повышения сопоставимости и удоб­ства интерпретации результатов учащихся.

Шкала с отложенными оценками переменной, является целью измерения. При измерениях с высокой надежностью, и валидностью она адекватно отображает оцениваемые характеристики и представляет их без существенных искажений. В зависимости от ко­личества оцениваемых характеристик объекта можно говорить об одномерных (одна переменная) или многомерных (более одной пере­менной) измерениях. Соответственно по результатам измерения стро­ился одна шкала или несколько шкал, число которых в последнем случае обычно бывает равно числу переменных измерения.

Обработка и анализ данных измерения. Последний компонент процесса педагогических измерений, включающий обработку, анализ и интерпретацию данных, служит для выявления обеспе­чиваемого качества результатов измерения, коррекции тестов и представления полученных данных в форме, удобной для интер­претации и сравнения. Благодаря сопоставимости тестовых бал­лов, достигаемой в процессе обработки, по результатам педагоги­ческих измерений можно выстраивать качественный анализ ре­зультатов учащихся, проводить мониторинг и принимать обосно­ванные управленческие решения в образовании.

 

2. Объективность педагогических измерений

 

Может ли быть абсолютная объективность? Появление пер­вых стандартизованных тестов в образовании вызвало массовую позитивную реакцию, поскольку первоначально они рассматри­вались как средство получения объективных оценок подготов­ленности обучаемых, преодолевающее субъективизм традицион­ных оценочных средств. По мере развития теории педагогических измерений и накопления опыта применения тестов пришло по­нимание того, что абсолютная объективность – это недостижи­мая характеристика результатов любых, в том числе и педагоги­ческих, измерений в силу существования ошибочных компонен­тов, неизбежно смещающих оценки. Поэтому при использова­нии тестов можно говорить лишь о высокой или низкой объек­тивности, степень проявления которой связана с величиной на­дежности теста.

Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Е.Вебстера (E.Webster) [22], предложившего восемь толкований этого понятия. Три из них – процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность – не­посредственно относятся к педагогическим измерениям.

Процедурная объективность. Под процедурной объективностью (первая трактовка термина «объективность измерений») понима­ется независимость результатов тестирования от субъективных суж­дений педагога, использующего тест. Эта независимость обеспе­чивается благодаря равенству условий тестирования, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стан­дартизации процедуры проверки результатов и максимальной ее автоматизации, исключающей влияние педагога на оценки.

Сведение всех видов объективности только к процедурной не­допустимо, поскольку при таком подходе не выдвигается никаких требований к качеству теста. В этом случае может создаться впе­чатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаме­нов к любым, в том числе некачественным, тестам, устранив вли­яние педагога на оценку тестирования путем автоматизации про­цедуры подсчета баллов испытуемых.

Классическая, или традиционная, объективность. Второе, углубленное, понимание объективности измерений рассматривается в классической теории тестов и основывается на понятиях «сырой балл» и «истинный балл», отличающихся друг от друга на величи­ну ошибки измерения.

Сырой (первичный, наблюдаемый, индивидуальный) балл по­лучается простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке резуль­татов по заданиям (1 или 0) индивидуальный балл равен количеству правильно выполненных заданий теста. Истинный балл в классической теории отождествляется с абсолютно объективной оценкой свойств испытуемого, свободной от влияния любых ошибок измерения. В отличие от сырого балла, который меняется в зависимости от теста и способа подсчета результата испыту­емого, истинный балл трактуется как не зависящая от средств измерения константа, характеризующая оцениваемое свойство испытуемого в момент измерения, но меняющаяся в процессе обучения.

Согласно основной аксиоме классической теории тестов лю­бой наблюдаемый балл равен сумме истинного балла и ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранных пределов точности измерений, говорят о высокой объективности результатов тестирования, а оценки испытуемых принимают за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания вели­чины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и качество теста.

Инвариантная, или специфическая, объективность. Третья трак­товка объективности основана на современной теории конструи­рования тестов – Item Response Theory (IRT). Преимущества.IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, приводят к достижению так называемой инвариантной объективности измерений, которая предпочтитель­нее объективности, обеспечиваемой классической теорией тестов [60].

Для достижения специфической объективности необходима подгонка данных тестирования к требованиям моделей теории IRT и длительная серьезная работа над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект инвариантной объективности либо реализуется со слишком большими затрата­ми, либо не реализуется вообще в силу недостаточно высокого качества теста.

 

3. Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.

 

Концептуальные и реальные переменные измерения, конструкты. Измерение начинается с постановки цели, в соответствии с ко­торой выбирают одну (одномерный случай) или несколько (мно­гомерный случай) переменных. В последнем случае для обозначе­ния измеряемых характеристик часто используют обобщающий термин – «конструкт». Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и спо­собен на основании своего педагогического опыта точно подо­брать задания обеспечивающие оценивание конструкта. Многие тестологи так и остаются в полном заблуждении относительно того, что на самом деле измеряет тест, поскольку не проверяют соответствие задуманного конструкта и реальных результатов измерения.

Анализ такого соответствия является необходимым этапом оценивания валидности измерения. Нередко его пытаются провести априорно, до начала тестирования, экспертным путем, и в ре­зультате, как правило, получают недостоверную информацию. Для корректного оценивания валидности необходим статистический анализ эмпирических данных тестирования, поэтому понять, что же мы на самом деле измеряем, можно лишь после применения теста.

Сложность процедуры установления размерности пространства измерений увеличивает проблемы, связанные с неоднозначной трактовкой многих конструктов в образовании и в других социальных науках (рис. 2). Каждый педагог вкладывает в оценивание учебных достижений свое видение оптимального набора перемен­ных измерения. Неоднозначность трактовки конструкта усугубля­ется по мере продвижения от начальных ступеней образования к более высоким ступеням, когда содержание большинства учеб­ных курсов приобретает междисциплинарный характер.

Рис.  2. Пример неоднозначной трактовки конструкта и ошибки в выводах

о связи переменных

 

Операционализации. Операционализация заключается в прида­нии оцениваемым латентным характеристикам подготовленности учащихся формы, удобной для фиксации определенными прави­лами измерения. При педагогическом измерении в качестве таких характеристик подготовленности обучаемых обычно выступают зна­ния, умения, навыки, компетентности и т.д. ... В процессе операционализации происходит выделение, набора эмпирических индикаторов, в роли которых выступают задания теста. Количество правильно выполненных заданий, подсчитан­ное и преобразованное по определенным правилам, дает основа­ние для присвоения испытуемому определенного места на шкале переменной измерения.

Визуализация результатов педагогического измерения. Визуали­зация – геометрическая интерпретация связи между латентной переменной А (одномерной или многомерной) и наблюдаемой переменной В – показана на рис. 3.

 

Рис. 3. Связь между латентной и наблюдаемой переменными.

 

Стрелки на рисунке указывают характер связи между перемен­ными. Латентная переменная А является первопричиной, порож­дающей множество наблюдаемых результатов выполнения теста. Однако при измерениях всегда ставят обратную задачу – по на­блюдаемым результатам тестирования найти достаточно точные оценки латентных переменных.

Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 4. Каждая оценка переменной измерения для учащихся из те­стируемой группы соответствует одной из точек оси. В свою оче­редь каждая точка определяет положение испытуемого или груп­пы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.

 

Рис. 4. Геометрическая интерпретация результата тестовых измерений

 

На изображенной оси более высокие баллы располагаются пра­вее, а более низкие – левее. Крайний слева результат отражает случай, когда испытуемый выполнил правильно лишь несколько заданий теста. Противоположной ситуаций, когда ученик выпол­нил все или почти все, соответствует крайняя правая точка на оси переменной измерения. Остальные точки занимают некоторое промежуточное положение на отрезке, где лежат тестовые баллы учащихся.

Если правильно выполненные задания теста соотнести с ре­зультатами учащихся и расположить их вдоль оси переменной из­мерения, то можно предположить, что более трудны задания сместятся вдоль оси вправо, так как их, скорее всего, будут вы­полнять правильно наиболее сильные учащиеся в классе. И наобо­рот, более легкие задания будут смещены влево – они по силам ученикам с низким уровнем подготовки (см. рис. 5).

 

Рис. 5. Соотношение между трудностью заданий и подготовленностью учащихся:

β– уровень трудности j -го задания, j = 1, 2,.... 4, θ1 и θ2 – тестовые баллы двух

учащихся

 

Из дидактических соображений на рисунке показано выполне­ние четырех заданий, однако все выводы, получаемые с помо­щью этого примера, применимы к любому числу заданий в тесте. Расположение тестового балла первого учащегося говорит о том, что он выполнил верно два самых легких задания, но не справил­ся с третьим и четвертым заданиями. Второй учащийся имеет бо­лее высокий тестовый балл и подготовлен лучше. Он не выполнил только самое трудное – четвертое задание теста.

Ошибки измерения. Локализация места расположения резуль­тата ученика на оси переменной зависит в основном от соотно­шения между величиной его истинного балла и трудностью зада­ний теста. Если балл довольно высок, а задание довольно лег­кое, то у ученика все основания для успешного выполнения этого задания теста. В противном случае ученика скорее всего ждет неудача.

Конечно, наверняка предугадать ничего нельзя в силу действия различных смещающих факторов (эффект забывания, подсказки и т.д.), поэтому обычно говорят лишь о некоторой вероятности успеха или неуспеха.

Вероятностный характер наблюдаемых результатов выполне­ния теста Обусловлен влиянием случайных и неслучайных ошибок измерения. В число последних входят те, которые появляются из-за просчетов разработчиков в процессе создания теста. К ошибкам систематического характера могут также привести нарушение требований к сбору статистических дан­ных, некачественная интерпретация ре­зультатов выполнения теста и ряд дру­гих причин. К случайным факторам можно отнести настроение испытуемого, поведение экзаменатора, обстанов­ку при тестировании в классе и многое другое – словом, все, что учесть и пред­видеть при тестировании попросту невозможно.

Одномерные измерения. Чаще всего при планировании измере­ний в образовании выбирают одномерные конструкты. Это упро­щает процесс построения шкалы, но не всегда бывает адекватно содержанию тестов. Рис. 6 иллюстрирует случай одномерных изме­рений, который может быть интерпретирован следующим обра­зом: одна латентная переменная Т – истинный уровень подготов­ленности каждого обучаемого – приводит к возникновению од­ной оценки наблюдаемой переменной Х – уровня подготовлен­ности обучаемого. Помимо переменной Т на оценку X оказывает влияние фактор Е – ошибка измерения.

Рис. 6. Иллюстрация связи переменной измерения, истинного бала и ошибки при одномерном измерении

 

Чтобы принять гипотезу об одномерности теста, необходимо выявить связь между теоретическим конструктом и эмпирически­ми индикаторами, роль которых выполняют задания теста. Оцен­ка связи требует ответа на вопрос – есть ли разница между доказательством одномерности конструкта и доказательством одно­мерности заданий теста?

На рис. 7 представлена измерительная модель для одномерного случая, иллюстрирующая связь между конструктом, обозначенным символом Т, и четырьмя заданиями 1, Х2, Х3, Х4), Числа, стоящие у каждого луча, показывают меру предполагаемой корреляцион­ной связи между конструктом и эмпирическими индикаторами – заданиями теста.

Рис. 7. Измерительная модель, иллюстрирующая связь между конструктом и заданиями теста (одномерный случай)

 

При анализе модели важно пони­мать, что конструкт является латент­ным (скрытым от возможностей не­посредственного измерения) факто­ром, взаимодействие которого с заданиями порождает наблюдаемые ре­зультаты выполнения теста. Влияние конструкта на наблюдаемые перемен­ные показано на рис. 7 с помощью направленных лучей.

Поскольку каждое задание в рас­смотренном гипотетическом примере измеряет только один конструкт, то справедлив, вывод об одномерности за­даний теста. Обратный вывод, в общем случае, неверен: из одномерности заданий не следует одно­мерности теста.

Многомерные измерения. Если конструкт включает не одну, а несколько переменных, то измерения называются многомерны­ми, Совокупность переменных образует пространство переменных измерения, размерность которого равна их числу. Иногда при про­ведении многомерных измерений создают несколько субтестов, каждый из которых является одномерным и измеряет свою пере­менную с помощью одномерных заданий.

Примером такого подхода является полидисциплинарный тест, состоящий из набора одномерных субтестов. В другом случае в многомерных измерениях используют междисциплинарный тест, задания которого не являются одномерными. Каждое из заданий измеряет свою совокупность переменных, которые могут отличаться как по количеству, так и по содержательной трактовке конструкта.

В практике педагогических измерений существуют специаль­ные методы анализа размерности пространства измерений. Такую группу методов предоставляет исследовательский и конфирматорный факторный анализ, применение аппарата которого основано на использовании соответствующего программного обеспечения, например статистического пакета SPSS.

 

4. Уровни измерений в образовании

 

Типология уровней измерения. Общая типология уровней изме­рения основывается на проявлении совокупности свойств, лежа­щей в основе построения шкал. В качестве таких свойств выделя­ют: идентичность, позволяющую однозначно относить объекты к одной из выделяемых совокупностей; транзитивность, способству­ющую ранжированию объектов в определенном порядке; метричность, обеспечивающую единую единицу измерения, и наличие абсолютного нуля.

Наиболее общая классификация, предложенная С.Стивенсон [18; 22; 60], включает четыре уровня измерений и фиксирует при­сущие им свойства. Согласно такой классификации различают шкалы качественные (шкала наименований, или классификаций, и порядковая шкала) и количественные (интервальная шкала и шкала отношений) шкалы. Качественные шкалы иногда называ­ют неметрическими (концептуальными), а количественные – мет­рическими (материальными). Для каждого уровня измерений су­ществуют группы допустимых преобразований и операций с различными математическими и статистическими величинами, ха­рактеризующими измеряемые признаки.

Качественные шкалы. На качественном уровне отнесение эмпи­рических объектов измерения к различным классам проводится по признаку эквивалентности (шкала наименований, или номиналь­ная шкала) или по признаку упорядочения внутри эквивалентных объектов одного класса (порядковая шкала). Для построения шка­лы наименований и порядковой шкалы в основном применяются экспертные методы, при которых оценки на шкале считаются дос­товерными, если они признаны большинством экспертов,

Примером номинальной шкалы могут служить результаты за­четной сессии, когда все студенты делятся на две труппы – полу­чивших и не получивших зачет. Порядковые шкалы используются в образовании в тех случаях, когда педагогический контроль осуществляется традиционными способами без применения тестов. Например, порядковой является привычная четырехбальная школьная шкала, которую иногда неоправданно называют пяти­балльной. Каждой группе учащихся, проявляющей согласно мне­нию, учителя сходные знания, присваивается одинаковый (один из четырех) номер места от двух до пяти.

Недостатки качественных шкал – ограниченная сфера приме­нения и низкая точность измерения. Числа или символы, припи­сываемые объектам путем экспертного оценивания, субъективны и носят исключительно условный характер. Их нельзя суммиро­вать или проводить с ними другие математические операции.

Количественные шкалы. К количественным шкалам относятся интервальная шкала и шкала отношений. Процесс их построения основывается на измерениях, поэтому представленные в них оцен­ки характеристик объектов отличаются более высокой объектив­ностью по сравнению с оценками в качественных шкалах и под­даются определенным математическим операциям. Интервальная шкала используется для упорядочения объектов, свойства кото­рых удовлетворяют отношениям эквивалентности, порядка и ад­дитивности. В ней определено расстояние между объектами и пред­усмотрена общая для всех объектов единица измерения, а нача­лом отсчета является условно выбранная нулевая точка. Благодаря существованию единицы измерения в интервальной шкале воз­можны все арифметические действия над числами, кроме опера­ции деления в силу отсутствия абсолютного нуля. Примером ин­тервальной шкалы в образовании, обеспечивающей корректную сравнимость результатов педагогических измерений, является шкала логитов, построение которой осуществляется на основе те­ории IRT [22; 60; 67; 83].

Шкала отношений описывает свойства объектов, удовлетворяю­щие отношениям эквивалентности, порядка, аддитивности и про­порциональности. Последнее свойство появляется благодаря су­ществованию в этой шкале однозначного естественно определенного критерия нулевого проявления измеряемого свойства – аб­солютного нуля. Другими словами, шкала отношений является интервальной шкалой с естественным, а не условным началом отсчета, что расширяет возможности преобразований чисел, приписанных объектам. По сравнению со всеми ранее рассмотренны­ми шкалами эта шкала обеспечивает самый высокий уровень из­мерений, но реализовать ее в образовании невозможно в силу отсутствия абсолютного нуля.

 

5. Надежность и валидность результатов педагогических измерений

 

Общие замечания. Размерность, надежность и валидность явля­ются взаимосвязанными свойствами, характеризующими различ­ные аспекты качества педагогических измерений. Выявление раз­мерности – необходимый предварительный этап работ по оцени­ванию надежности и валидности результатов измерений.

Надежность результатов тестирования. Надежностью (reliability) называется характеристика точности тестовых результатов и их устойчивости к действию случайных факторов [60]. По сложив­шейся традиции термин «надежность» часто, хотя и не совсем верно, используют по отношению к тесту. Однако надежность те­ста является необходимым, но не достаточным условием получе­ния высокой точности измерений. В случае нарушений требова­ний к стандартизации условий проведения тестирования, проверке и оцениванию его результатов даже с помощью очень на­дежного измерителя можно получить результаты со значительным ошибочным компонентом.

Концепция истинного балла. Анализ надежности основан на предположении классической теории тестов о связи между на­блюдаемым баллом, истинным баллом и ошибкой измерения. Оценка истинных баллов (true scores) испытуемых – главная цель всех, кто создает или применяет педагогические тесты. Так как любые результаты тестирования всегда содержат в себе ошибоч­ные компоненты, то приходится заменять истинные баллы – па­раметры испытуемых – их наиболее достоверными оценками, которые тем точнее, чем надежнее тест.

Концептуальная формула для коэффициента надежности. Основ­ная аксиома классической теории тестов приводит к фундамен­тальному соотношению, позволяющему получить концептуальную формулу для коэффициента надежности результатов измерений (количественной характеристики надежности), которая связыва­ет дисперсию (показатель разброса) наблюдаемых баллов  и дисперсию ошибок измерения с rн – коэффициентом надеж­ности теста. Эта формула имеет вид

                                                             (1)

 

Ее значение исключительно теоретическое, поскольку по эм­пирическим результатам выполнения теста нельзя подсчитать .

Несложный анализ формулы для оценивая надежности (1) по­зволяет сделать выводы о возможных пределах величины rн. Очевидно, что дробь  всегда неотрицательна, поэтому коэффици­ент надежности не может принимать значение больше единицы. Максимальное значение rн равное 1, получается в том случае, когда  = 0, – случай, который не встречается в практике изме­рений. Так как величина дроби уменьшается с ростом знаменате­ля, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокий разброс тестовых баллов учеников.

Факторы, влияющие на надежность гомогенного теста. На осно­ве постулатов классической теорий тестов и различных модифи­каций концептуальной формулы (1) можно определить факторы, влияющие на повышение надежности теста.

1. Если при компоновке теста отбирать задания, имеющие наи­большую корреляцию с другими заданиями теста, то тест будет иметь высокую надежность и обеспечит низкую погрешность изме­рения. Другими словами, чем выше содержательная однородность (гомогенность) теста, тем он надежнее. Этот вывод представляет особую важность для коротких тестов (от 20 до 35 заданий). В очень длинных тестах (более 100 заданий) малые значения интеркорре­ляции заданий могут сочетаться с высокой надежностью теста.

2. Надежность измерений повышается с увеличением длины теста. Этот формальный вывод не всегда согласуется с реальными возможностями учеников. По мере роста длины теста повышается утомляемость и снижается мотивация к выполнению заданий, что в совокупности ведет к росту ошибки измерения. Поэтому при выборе оптимальной длины теста разработчики анализируют груп­пу факторов, среди которых: высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых за­даний, возраст учеников и время выполнения теста, выбранное в соответствии с целями тестирования и физиологическими воз­можностями учащихся.

По данным Н.Гронлунда, учащиеся старших классов в сред­нем за 1 мин могут выполнить одно задание с выбором ответа (при числе ответов не более четырех) [88]. На задание с кратким дополняемым ответом требуется в среднем до 2 мин, а с полным свободно конструируемым ответом – до 5 мин. В целом для обес­печения достаточно высокой надежности измерений рекоменду­ется проводить тестирование выпускников неполной средней школы (IX класс) в течение 2 – 3 уроков, а выпускников средней школы (XI класс) – в течение 2—4 уроков.

Валидность результатов педагогических измерений. Валидность – это характеристика адекватности результатов измерения постав­ленной цели создания теста [60]. Другими словами, валидность – это характеристика того, в какой мере удается измерить именно запланированный конструкт. Поэтому оценивание валидности тес­но связано с анализом размерности пространства педагогических измерений.

Оценивание валидности. Количественная опенка валидности получается путем соотнесения результатов измерения с различ­ными внешними критериями (обычно качественного характера), независимо описывающими вне ситуации тестирования все, что собирались измерять. Высокая корреляция результатов измерений с внешними критериями свидетельствует о высокой валидности теста. Наоборот, слабая корреляция указывает на неполную адек­ватность теста своему предназначению и позволяет сделать вывод о низкой валидности теста. Поскольку можно выбрать достаточно много внешних критериев адекватности теста поставленным це­лям измерения, существуют различные виды валидности и мно­гочисленные методы ее исследования.

Конструктная валидность. Оценка конструктной валидности связана с выявлением того, насколько хорошо измеряется кон­цептуально выбранный латентный конструкт. При анализе конст­руктной валидности часто рассматривают корреляцию между ре­зультатами по новым и уже существующим тестам, валидность которых подтверждена многолетней практикой их применения. Проводят независимую экспертизу качества содержания теста, ис­пользуют факторный анализ, позволяющий выстроить факторную структуру теста, анализируют внутреннюю согласованность теста методами корреляционного анализа и т.д.

Содержательная валидность. В педагогических измерениях на первый план выходит исследование содержательной валидности теста, основанное на тщательной экспертизе. В общем случае со­держательная валидность – это степень релевантности и репре­зентативности отражения концептуально выделенного конструк­та в содержании заданий теста. В основе работы экспертов обычно лежит анализ полноты, значимости, правильности пропорций со­держания теста и его соответствия запланированным для провер­ки видам учебной деятельности (рис. 8).

Рис. 8. Модель обеспечения содержательной валидности измерения