Лекция 5. Тестирование в России и зарубежом.

1. Развитие тестов в конце XX в. и в наши дни.

2. Развитие тестов в психологии, образовании и армии.

3. Развитие классической теории педагогических измерений и тестирования в XX веке.

4. Создание современной теории тестов.

2. Развитие тестов в конце XX в. и в наши дни.

Новая история тестов в России началась в 90-е гг. XX в., когда стали больше говорить не о руководстве, а о научно обоснованном управлении учебным процессом, в информационном обеспечении которого важная роль по праву принадлежит тестам [3]. Новое понимание возможностей тестов в образовании способствовало росту научных исследований. В 90-е гг. XX в. появляются работы по проблемам измерений и тестирования в образовании, защищаются многочисленные кандидатские и докторские диссертации, издаются монографии, учебные пособия, журналы, проводятся конференции и симпозиумы.

Последнее десятилетие XX в. в нашей стране совпало с периодом, бурного развития структур, занимающихся практической работой по созданию и применению тестов. К основным событиям этого периода можно отнести открытие в 1990 г. первой в стране кафедры педагогических измерений в Исследовательском центре проблем качества подготовки специалистов {директор Н.А.Селезнева) Московского института стали и сплавов; создание при Московском государственном университете в этом же году Центра тестирования «Гуманитарные технологии» (проект по компьютерному аттестационному тестированию для старшеклассников «Телетестинг» – научный руководитель А.Г.Шмелев); привлечение в 1991 г. Центра качества образования Института общего среднего образования РАО к участию в сравнительных международных исследованиях по оценке учебных достижений (директор Центра — Г.С.Ковалева); открытие в 1995 г. Центра тестирования выпускников общеобразовательных учреждений, преобразованного впоследствии в Федеральный центр тестирования со статусом государственного учреждения Министерства образования и науки Российской Федерации; основание в 1998 г. государственной системы тестирования иностранных граждан по русскому языку как иностранному при поддержке ведущих вузов Москвы, Санкт-Петербурга и других городов России. Перечень этот можно было бы смело продолжить. Начиная с 90-х гг. XX в. практически во всех регионах России создаются центры тестирования и аттестации учащихся, методические лаборатории по диагностике и центры, качества образования.

Значимым событием в области подготовки кадров по педагогическим измерениям стало открытие в 2001 г. на факультете повышения квалификации Российского университета дружбы народов (декан Т.М.Балыхина) кафедры тестологии (заведующая кафедрой М.Б.Мельникова). На этой кафедре впервые в нашей стране началась реализация профессиональной образовательной программы, рассчитанной на 1480 часов, для получения дополнительной квалификации «Тестолог (специалист в области педагогических измерений)».

Для повышения качества тестовых материалов, разрабатываемых в России, в 2000 г. при Исследовательском центре проблем качества подготовки специалистов Московского института стали и сплавов (технологического университета) был открыт Центр сертификации педагогических тестовых материалов (ПТМ) (директор В.И.Звонников) и создан Координационный совет Минобразования России (в настоящий момент – Минобрнауки) по вопросам сертификации качества педагогических тестовых материалов.

Коренные изменения в отношении учителей к тестам произошли в 2001 г. в связи с началом эксперимента по введению единого государственного экзамена, благодаря которому тесты получили официальное признание в России. За годы эксперимента значительно повысилась степень доверия к результатам тестирования со стороны органов управления образованием, образовательных учреждений, самих учителей, которые убедились в высокой объективности и обоснованности баллов ЕГЭ, в их высокой прогностичности при отборе абитуриентов вузов. В 2002 г. был открыт Федеральный институт педагогических измерений (директор А.Г.Ершов), приоритетным направлением деятельности которого является научное, методическое и организационное сопровождение процесса создания контрольных измерительных Материалов (КИМ) для ЕГЭ.

В целом, подводя итоги развития тестирования в России, можно сказать, что на сегодняшний день среди ученых-педагогов в нашей стране наконец появилось понимание того, что теория педагогических измерений – наука, обладающая своей методологией, методами и аппаратом, необходимым для разработки качественных педагогических тестов. Сегодня большими тиражами издаются инновационные работы по педагогическим тестам отечественных ученых и зарубежных авторов, а также сборники материалов КИМ ЕГЭ, специальные журналы по тестовой проблематике. Таким образом, можно считать, что на данный момент в России сформировалось сообщество профессионалов – специалистов по разработке и применению тестов.

3. Развитие тестирования в психологии, образовании и армии.

Появление педагогических тестов за рубежом нередко связывают с именем французского врача и психолога А.Бине (А.Binet). Его работа по диагностике интеллектуальных способностей, вышедшая в 1905 г., считается точкой отсчета в становлении основных научных подходов к измерениям в психологии и образовании [69]. Конечно, были и более ранние попытки создания подобных тестов. Британские исследователи Ф.Гальтон (F.Gallon) и Дж.Кэттелл (J.Cattell) в 1890 г. использовали термин «тест на интеллект» (mental test) [1]. Им же принадлежит заслуга введения в научный оборот специальной характеристики качества теста (power of discrimination), указывающей на его способность дифференцировать испытуемых по измеряемой переменной.

Немного позднее идеи А.Бине были использованы немецким психологом и философом В.Штерном (W.Stem), который предложил специальный коэффициент для оценивания интеллекта – коэффициент IQ. Этот термин используется до сих пор, правда, несколько в ином контексте. В США работы А.Бине по измерениям продолжил Л.Терман (L.Termari). Он создал новые тесты (Стэн-форда-Бине), представляющие собой оригинальную модификацию работы его предшественника [1].

Достижения второго десятилетия XX в. в сфере измерений были связаны с проблемой распределения большого количества призывников по различным родам войск в США во время Первой мировой войны. Правительство Соединенных Штатов организовало «мозговой центр» из специалистов – составителей тестов, статистиков и экспертов по измерениям – и направило его работу на решение задач, продиктованных военной необходимостью. В этом центре свои усилия по отбору и распределению новобранцев объединили такие известные специалисты, как Э.Торндайк (Е.Thorndike), Р.Годдард (R.Goddard), П.Йеркс (Р.Yerkes) и Л.Терман (L.Terman). Результатом их работы стали знаменитые батареи Альфа и Бета тестов для армии, которые после стали использовать (вплоть до настоящего времени) в качестве примеров при обучении разработчиков тестов в образовании.

Первые стандартизированные измерители в образовании США были созданы для оценки качества почерка, правописания и выполнения арифметических действий в конце 20-х гг. XX в. Тогда же в Америке появилась батарея тестов SAT, разработанных по инициативе Совета колледжей и предназначенных для отбора абитуриентов [1]. Несколько позже, в конце 40-х гг. XX в., были созданы батареи тестов достижений, реализующие идеи многомерных измерений и обеспечивающие сопоставимость результатов по разным школьным предметам.

4. Развитие классической (традиционной) теории педагогических измерений и тестирования в XX в.

В 1904 г. англичанин Ч.Спирмен (С.Spearman) опубликовал фундаментальный теоретический труд по исследованию общих интеллектуальных способностей. Используя школьные оценки но различным предметам, Ч.Спирмен применил к данным тестирования аппарат новой для того времени теории корреляции и выявил примеры ковариации оценок школьников. Тем самым он заложил основы научных подходов к обоснованию качества тестов, соединив в своем исследовании теорию физических измерений, корреляционные методы и накопленный, его предшественниками-психологами опыт оценивания способностей детей.

Прообразом научных положений теории педагогических измерений послужила далекая от образования работа Н.Р.Кэмпбедла «Основы физики» (1920), благодаря которой был разработан теоретический аппарат для анализа качества измерений, а обыденное представление о тесте и его научное определение стали заметно различаться. Для обоснования качества педагогических измерений, их надежности и валидности была создана классическая теория тестов, получившая впоследствии название традиционной, и базирующаяся на концепции параллельных измерений и теории корреляции. На основе этой теории в 30—40-е гг. XX в. интенсивно разрабатывались количественные методы для анализа качества тестовых заданий, строились стандартизованные тесты учебных достижений и осваивались методы шкалирования результатов выполнения тестов.

В конце 40-х гг. XX в. увлечение чистой теорией сменилось пониманием важности правильного применения измерений в сфере психологии и образования. Исследователи осознали тот факт, что к тестируемым нужно относиться бережно и осторожно и что любая ошибка в оценках может, привести к необратимым последствиям. В этой связи в теории педагогических измерений активизировался поиск эффективных методов повышения надежности результатов тестирования, стали разрабатываться методы факторного, дисперсионного и корреляционного анализа данных, получили широкое развитие методы формирования репрезентативных выборок, необходимых для стандартизации тестов.

Значимым событием конца 40-х гг. XX в. для развития теории и практики измерений в образовании стало создание в 1947 г. в США Службы образовательного тестирования – Educational Testing Service (ETS). Сегодня эта организация имеет представительства практически во всех странах мира. Из числа тестов, созданных ETS, наибольшую известность в связи с расширением программ международного обмена в обучении приобрел TOEFL, выявляющий уровни владения различными видами речевой деятельности для обучения в англоязычных странах.

5. Создание современной теории тестов.

В истории тестов были этапы подъемов и спадов. В частности период ожесточенной критики педагогических тестов наблюдался в США в конце 60-х гг. XX в. Широкая публичная дискуссия по проблемам использования тестирования совпала по времени с научной критикой, вызванной недостатками классической теории тестов. Высказывались опасения в том, что тестирование служит инструментом подавления инициативы и творчества учащихся, слишком упрощенно трактует такие сложные конструкты, какими являются учебные умения, не объективно оценивает учебные достижения. Приводились и другие аргументы против широкого использования тестов. Ученые-тестологи занимались в основном конструктивной научной критикой традиционных методов разработки тестов, что привело к построению новой теории – Item Response Theory (IRT), которую нередко в наши дни называют современной теорией тестов.

Неоспоримые преимущества IRT, связанные с возможностью прогноза надежности измерений, увеличения эффективности тестирования и получением оценки параметров подготовленности учащихся, не зависящих от трудности заданий теста, стали широко применяться на практике с конца 80-х гг. XX в. В это время были разработаны алгоритмы оценивания параметров испытуемых и заданий на основе математических моделей IRT, создано программное обеспечение и стали широко использоваться ПК. Сочетание аппарата классической теории и IRT при разработке тестов, открыло новые возможности повышения качества педагогических измерений и применения тестирования в образовании.

Современный период в истории развития тестов. Современный период в истории развития тестов характеризуется интенсивным развитием теории IRT, созданием новых моделей и методик ее применения, внедрением в тестирование компьютерных технологий, адаптивного тестирования, различных инноваций в области разработки и применения тестов. В настоящий момент наметился ряд направлений исследований, нацеленных на расширение возможностей педагогических измерений, разработку инновационных измерителей и повышение качества тестов. К их числу относится создание новых моделей педагогического измерения, инновационных форм тестовых заданий для проверки творческих и практико-ориентированных аспектов подготовленности учащихся, методов калибровки тестовых заданий и методик компьютерного моделирования тестов, обеспечивающих планируемую точность измерений.

Большое внимание уделяется психолого-педагогическим проблемам тестирования (проблемам тревожности, мотивации), развитию специальных процедур для выявления размерности пространства измерений, созданию специальных методик, позволяющих обоснованно использовать результаты педагогических измерений в управлении качеством образования.