Раздел 6. Непараметрические критерии проверки статистических гипотез
Часть статистических выводов, которая касается
сравнения выраженности параметров, делится на параметрические (сравнение
средних значений) и непараметрические критерии (сравнение рангов
значений, измеренных с помощью порядковых шкал). Однако, часто характеристика, подлежащая сравнению, бывает измерена в порядковой шкале. Последнее делает проверку допущений параметрических критериев бессмысленной, по причине невозможности осуществления большинства математических операций с порядковыми шкалами. Для таких случаев существуют непараметрические аналоги параметрических критериев, не требующие соблюдения каких-либо допущений:
Стоит отметить, что в реальной исследовательской практике, конечно если мы говорим о социальных и поведенческих науках, с порядковыми переменными обращаются так, как если бы они были метрическими. В данном случае, это означает, что, несмотря на невозможность корректной проверки допущений, зачастую применяются параметрические критерии сравнения средних.
ОЦЕНКА ДОСТОВЕРНОСТИ СДВИГА В ЗНАЧЕНИЯХ ИССЛЕДУЕМОГО ПРИЗНАКА В психологических исследованиях часто бывает важно доказать, что в результате действия каких-либо факторов произошли достоверные изменения ("сдвиги") в измеряемых показателях. К числу таких факторов должен быть отнесен прежде всего фактор времени. Сопоставление показателей, полученных у одних и тех же испытуемых по одним и тем же методикам, но в разное время, дает нам временной сдвиг. Сопоставление показателей, полученных по одним и тем же методикам, но в разных условиях измерения (например, "покоя" и "стресса"), дает нам ситуационный сдвиг. Мы можем создать специальные экспериментальные условия, предположительно влияющие на те или иные показатели, и сопоставить замеры, произведенные до и после экспериментального воздействия. Если сдвиги окажутся статистически достоверными, это позволит нам утверждать, что экспериментальные воздействия были существенными, или эффективными. Например, мы можем сделать вывод о том, что данная программа тренинга действительно способствует развитию уверенности, или что данный способ внушающего воздействия влияет на изменение отношения испытуемых к той или иной проблеме, или что психодраматическая замена ролей подтверждает постулат Дж.Л. Морено о сближении позиций спорщиков после того, как им пришлось играть роль своего оппонента и т.п. Во всех этих случаях мы говорим о сдвиге под влиянием контролируемых или не контролируемых воздействий. И здесь мы наталкиваемся на методическую трудность, которую оказывается возможным преодолеть только путем введения контрольной группы, которая не испытывала бы на себе воздействия данного экспериментального фактора. Если нет контрольной группы, то сдвиг в экспериментальной группе может объясняться действием самых разных причин: временем суток, в которое производились замеры, важным для испытуемых событием, которое произошло между 1-м и 2-м замерами и по мощности воздействия значительно перекрыло экспериментальный фактор и т. п. Мы никогда не сможем исключить той возможности, что изменения, достигнутые, как нам кажется, в результате наших воздействий, на самом деле объясняются неучтенными причинами. Вот если в экспериментальной группе сдвиги окажутся достоверными, а в контрольной группе - недостоверными, то это, действительно, может свидетельствовать об эффективности воздействий. При отсутствии контрольной группы мы констатируем, что сдвиг произошел, но не имеем права приписать его именно данным, изучаемым нами, факторам воздействия. 1. G- критерий знаков Назначение критерия G Критерий знаков[i] G предназначен для установления общего направления сдвига исследуемого признака. Он позволяет установить, в какую сторону в выборке в целом изменяются значения признака при переходе от первого измерения ко второму: изменяются ли показатели в сторону улучшения, повышения или усиления или, наоборот, в сторону ухудшения, понижения или ослабления. Описание критерия G Критерий знаков применим и к тем сдвигам, которые можно определить лишь качественно (например, изменение отрицательного отношения к чему-либо на положительное), так и к тем сдвигам, которые могут быть измерены количественно (например, сокращение времени работы над заданием после экспериментального воздействия). Во втором случае, однако, если сдвиги варьируют в достаточно широком диапазоне, лучше применять критерий Т Вилкоксона. Он учитывает не только направление, но и интенсивность сдвигов и может оказаться более мощным в определении достоверности сдвигов, чем критерий знаков. Как правило, исследователь уже в процессе эксперимента может заметить, что у большинства испытуемых показатели во втором замере имеют тенденцию, скажем, повышаться. Однако ему еще требуется доказать, что положительный сдвиг является преобладающим. Для начала мы назовем сдвиги, которые нам кажутся преобладающими, типичными сдвигами, а сдвиги более редкого, противоположного направления, нетипичными. Если значения показателя повышаются у большего количества испытуемых, то этот сдвиг мы будем считать типичным. Если мы исследуем отношение испытуемых к какому-либо событию или предложению, и после экспериментальных воздействий у большинства испытуемых отрицательное отношение сменилось на положительное, то этот сдвиг мы назовем типичным. Есть еще, правда, возможность "нулевых" сдвигов, когда реакция не изменяется или показатели не повышаются и не понижаются, а остаются на прежнем уровне. Однако такие "нулевые" сдвиги в критерии знаков исключаются из рассмотрения. При этом количество сопоставляемых пар уменьшается на число таких "нулевых" сдвигов. Суть критерия знаков состоит в том, что он определяет, не слишком ли много наблюдается "нетипичных сдвигов", чтобы сдвиг в "типичном" направлении считать преобладающим? Ясно, что чем меньше "нетипичных сдвигов", тем более вероятно, что преобладание "типичного" сдвига является преобладающим. Gэмп - это количество "нетипичных" сдвигов. Чем меньше Gэмп, тем более вероятно, что сдвиг в "типичном" направлении статистически достоверен. Гипотезы Н0: Преобладание типичного направления сдвига является случайным. H1: Преобладание типичного направления сдвига не является случайным. Ограничения критерия знаков Количество наблюдений в обоих замерах - не менее 5 и не более 300. Пример В исследовании Г.А. Бадасовой (1994) изучались личностные факторы суггестора, способствующие его внушающему воздействию на аудиторию. В эксперименте участвовало 39 слушателей колледжа и спецфакультета практической психологии Санкт-Петербургского университета 9 мужчин и 30 женщин в возрасте от 18 до 39 лет, средний возраст 23,5 года. Испытуемые выступали в качестве суггерендов, т.е. лиц, по отношению к которым оказывалось внушающее воздействие. В экспериментальной группе (n1=16) испытуемые просматривали видеозапись речи суггестора о целесообразности применения физических наказаний в воспитании детей, а в контрольной группе (n2=23) испытуемые просто читали про себя письменный текст. Содержание речи суггестора и текста полностью совпадали. До и после предъявления видеозаписи (в экспериментальной группе) и текста (в контрольной группе) испытуемые отвечали на 4 вопроса, оценивая степень согласия с их содержанием по 7-балльной шкале: 1. Я считаю возможным иногда шлепнуть своего ребенка за дело, если он этого заслужил: Несогласен 1 2 3 4 5 6 7 Согласен 2. Если, придя домой, я узнаю, что кто-то из близких, бабушка или дедушка, шлепнул моего ребенка за дело, то я буду считать, что это нормально: Несогласен 1 2 3 4 5 6 7 Согласен 3. Если мне станет известно, что воспитательница детского сада или учительница в школе шлепнула моего ребенка за дело, то я восприму это как должное: Несогласен 1 2 3 4 5 6 7 Согласен 4. Я бы согласился отдать своего ребенка в школу, где применяется система физических наказаний по итогам недели: Несогласен 1 2 3 4 5 6 7 Согласен Суггестор (источник внушения (суггестии); им может быть индивид, группа, средства массовой информации) был подобран по признакам, которые были выявлены в пилотажном исследовании (Бадасова Г. А., 1994). Результаты двух замеров по обеим группам представлены в Табл. 3.2 и Табл. 3 3 Таблица 3.2 Оценки степени согласия с утверждениями о допустимости телесных наказаний до и после предъявления видеозаписи в экспериментальной группе (n1=16)
Таблица 3.3 Оценки степени согласия с утверждениями о допустимости телесных наказаний до и после предъявления письменного текста в контрольной группе (n2=23)
Вопросы: 1. Можно ли утверждать, что после просмотра видеозаписи о пользе телесных наказаний наблюдается достоверный сдвиг в сторону большего принятия их в экспериментальной группе? 2. Достоверны ли различия по выраженности положительного сдвига между экспериментальной и контрольной группами? 3. Является ли достоверным сдвиг оценок в контрольной группе? Решение Подсчитаем сначала количество положительных, отрицательных и нулевых сдвигов по каждой шкале в каждой из выборок. Это необходимо для выявления "типичных" знаков изменения оценок и значительно облегчит нам дальнейшие расчеты и рассуждения. Таблица 3.4 Расчет количества положительных, отрицательных и нулевых сдвигов в двух группах суггерендов
Из Табл. 3.4. мы видим, что наиболее типичными являются "нулевые" сдвиги, то есть отсутствие сдвига в оценках после предъявления видеозаписи или письменного текста. И все же, в экспериментальной группе по шкале "Я сам наказываю" и "Бабушка наказывает" положительные сдвиги наблюдаются примерно в половине случаев. Нам необходимо учитывать только положительные и отрицательные сдвиги, а нулевые отбрасывать. Количество сопоставляемых пар значений при этом уменьшается на количество этих нулевых сдвигов. Теперь для шкалы "Я сам" n=8; для шкалы "Бабушка" n=9; шкалы "Воспитатель" n=5 и шкалы "Школа" n=4. Мы видим, что по отношению к последней шкале критерий знаков вообще неприменим, так как количество сопоставляемых пар значений меньше 5. Мы можем сразу же проверить и гипотезу о преобладании положительного сдвига в ответах по сумме 4 шкал. Сумма положительных и отрицательных сдвигов по 4 шкалам составляет: n=8+9+5+4=26. Сформулируем гипотезы. Н0: Сдвиг в сторону более снисходительного отношения к телесным наказаниям после внушения является случайным. H1: Сдвиг в сторону более снисходительного отношения к телесным наказаниям после внушения является неслучайным. По Табл. V Приложения 1 определяем критические значения критерия знаков G. Это максимальные количества "нетипичных", менее часто встречающихся, знаков, при которых сдвиг в "типичную" сторону еще можно считать существенным. 1) Шкала "Я сам наказываю" n=8 Типичный сдвиг - положительный. Отрицательных сдвигов нет.
Н0 отклоняется. Принимается H1 (p<0,01).
2) Шкала "Бабушка наказывает" n=9 Типичный сдвиг - положительный. Отрицательных сдвигов нет.
Н0 отклоняется. Принимается H1 (p<0,01).
3) Шкала "Воспитательница наказывает" n=5 Типичный сдвиг - отрицательный.
Ответ: Сдвиг в сторону более снисходительного отношения к телесным наказаниям в экспериментальной группе после просмотра видеозаписи является неслучайным для шкал "Я сам наказываю", "Бабушка наказывает" и по сумме четырех шкал (р<0,01 во всех случаях). Сформулируем гипотезы для контрольной группы. Н0: Сдвиг в сторону более снисходительного отношения к телесным наказаниям после прочтения текста является случайным. H1: Сдвиг в сторону более снисходительного отношения к телесным наказаниям после прочтения текста не является случайным. Далее действуем по тому же принципу: вначале определяем количество сдвигов в ту или иную сторону (n), выявляем типичный сдвиг и количество нетипичных сдвигов (Gэмп) сопоставляем с критическими значениям G, определяемыми по Табл. V Приложения 1.
1) Шкала "Я сам наказываю" n=8 Положительных сдвигов - 4, отрицательных сдвигов - 4. Типичный сдвиг установить невозможно, т.к. положительных и отрицательных сдвигов поровну. Н0 принимается.
2) Шкала "Бабушка наказывает" n=8 Положительных сдвигов - 4, отрицательных сдвигов - 4. Н0 принимается по тем же основаниям, что и для предыдущей шкалы.
3) Шкала "Воспитательница наказывает" n=6 Типичный сдвиг - положительный. Отрицательных сдвигов - 2. Gкp=0 (p≤0,05) Gкр(p≤0,01) при данном п определить невозможно. Gэмп=2 Gэмn>Gкp Н0 принимается.
4) Шкала "Школа наказывает" Поскольку n<5, критерий знаков неприменим.
5) Сумма по 4-м шкалам n=26 Типичный сдвиг - положительный. Количество отрицательных сдвигов - 10.
Ответ: Сдвиг в сторону более снисходительного отношения к телесным наказаниям в контрольной группе является случайным - и по каждой из шкал в отдельности, и по сумме шкал. Мы можем определенно ответить на 1-ый вопрос задачи: да, можно утверждать, что после просмотра видеозаписи о пользе телесных наказаний наблюдается достоверный сдвиг в пользу большего принятия их в экспериментальной группе. Мы можем ответить и на 3-й вопрос задачи: нет, сдвиг оценок в контрольной группе недостоверен. Однако мы пока не ответили на 2-й вопрос - о том, достоверны ли различия по выраженности положительного сдвига между экспериментальной и контрольной группами? Дело в том, что нами был избран вариант сопоставлений, предполагающий сравнение значений "после" и "до" экспериментального воздействия отдельно в экспериментальной и контрольной выборках. Для того, чтобы ответить на вопрос 2, необходимо выбрать второй вариант сопоставлений, предусматривающий сравнение сдвигов в двух группах с помощью критериев для сравнения независимых выборок -Q - критерия Розенбаума, U - критерия Манна-Уитни и критерия φ* Фишера (см. Табл. 3.1). Однако такого рода сопоставления, как правило, проводятся только в том случае, если и в экспериментальной, и в контрольной группах выявлен достоверный однонаправленный эффект, и нужно доказать, что в экспериментальной выборке он достоверно больше, выраженнее (см. Задачу 1). В данном же случае нами доказано, что в контрольной выборке не произошло сколько-нибудь значимых изменений, и мы можем этим удовлетвориться.
АЛГОРИТМ 8 Расчет критерия знаков G 1. Подсчитать количество нулевых реакций и исключить их из рассмотрения. В результате п уменьшится на количество нулевых реакций. 2. Определить преобладающее направление изменений. Считать сдвиги в преобладающем направлении "типичными". 3. Определить количество "нетипичных" сдвигов. Считать это число эмпирическим значением G. 4. По Табл. V Приложения 1 определить критические значения G для данного п. 5. Сопоставить Gэмп с Gкр. Если Gэмп меньше Gкр или по крайней мере равен ему, сдвиг в типичную сторону может считаться достоверным. 2. Т - критерий Вилкоксона Назначение критерия Критерий применяется для сопоставления показателей,, измеренных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить не только направленность изменений, но и их выраженность. С его помощью мы определяем, является ли сдвиг показателей в каком-то одном направлении более интенсивным, чем в другом. Описание критерия Т Этот критерий применим в тех случаях, когда признаки измерены по крайней мере по шкале порядка; и сдвиги между вторым и первым замерами тоже могут быть упорядочены. Для этого они должны варьировать в достаточно широком диапазоне. В принципе, можно применять критерий Т и в тех случаях, когда сдвиги принимают только три значения: —1, 0 и +1, но тогда критерий Т вряд ли добавит что-нибудь новое к тем выводам, которые можно было бы получить с помощью критерия знаков. Вот если сдвиги изменяются, скажем, от —30 до +45, тогда имеет смысл их ранжировать и потом суммировать ранги. Суть метода состоит в том, что мы сопоставляем выраженность сдвигов в том и ином направлениях по абсолютной величине. Для этого мы сначала ранжируем все абсолютные величины сдвигов, а потом суммируем ранги. Если сдвиги в положительную и в отрицательную сторону происходят случайно, то суммы рангов абсолютных значений их будут примерно равны. Если же интенсивность сдвига в одном из направлений перевешивает, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях. Первоначально мы исходим из предположения о том, что типичным сдвигом будет сдвиг в более часто встречающемся направлении, а нетипичным, или редким, сдвигом - сдвиг в более редко встречающемся направлении. Гипотезы Н0: Интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении. H1: Интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении. Ограничения в применении критерия Вилкоксона 1. Минимальное количество испытуемых, прошедших измерения в двух условиях - 5 человек. Максимальное количество испытуемых - 50 человек, что диктуется верхней границей имеющихся таблиц. Крити-чесхие значения Т приведены в Табл. VI Приложения 2. Нулевые сдвиги из рассмотрения исключаются, и количество наблюдений п уменьшается на количество этих нулевых сдвигов (McCall R., 1970, р. 36). Можно обойти это ограничение, сформулировав гипотезы, включающие отсутствие изменений, например: "Сдвиг в сторону увеличения значений превышает сдвиг в сторону уменьшения значений и тенденцию сохранения их на прежнем уровне". Пример В выборке курсантов военного училища (юноши в возрасте от 18 до 20 лет) измерялась способность к удержанию физического волевого усилия на динамометре. Сначала у испытуемых измерялась максимальная мышечная сила каждой из рук, а на следующий день им предлагалось выдерживать, на динамометре с подвижной стрелкой мышечное усилие, равное 1/2 максимальной мышечной силы данной руки. Почувствовав усталость, испытуемый должен был сообщить об этом экспериментатору, но не прекращать опыт, преодолевая усталость и неприятные ощущения - "бороться, пока воля не иссякнет". Опыт проводился дважды; вначале с обычной инструкцией, а затем, после того, как испытуемый заполнял опросник самооценки волевых качеств по методике А.Ц. Пуни (Пуни А.Ц., 1977), ему предлагалось представить себе, что он уже добился идеала в развитии волевых качеств, и продемонстрировать соответствующее идеалу волевое усилие. Подтвердилась ли гипотеза экспериментатора о том, что обращение к идеалу способствует возрастанию волевого усилия? Данные представлены в Табл. 3.5. Таблица 3.5 Расчет критерия Т при сопоставлении замеров физического волевого усилия
Для подсчета этого критерия нет необходимости упорядочивать ряды значений по нарастанию признака. Мы можем использовать алфавитный список испытуемых, как в данном случае. Первый шаг в подсчете критерия Т - вычитание каждого индивидуального значения "до" из значения "после". Мы видим из Табл. 3.5, что 8 полученных разностей - отрицательные и лишь 3 - положительные. Это означает, что у 8 испытуемых длительность удержания мышечного усилия во втором замере уменьшилась, а у 3 - увеличилась. Мы столкнулись с тем случаем, когда уже сейчас мы не можем сформулировать статистическую гипотезу, соответствующую первоначальному предположению исследователя. Предполагалось, что обращение к идеалу будет увеличивать длительность мышечного усилия, а экспериментальные данные свидетельствуют, что лишь в 3 случаях из 11 этот показатель действительно увеличился. Мы можем сформулировать лишь гипотезу, предполагающую несущественность сдвига этого показателя в сторону снижения. Сформулируем гипотезы. Н0: Интенсивность сдвигов в сторону уменьшения длительности мышечного усилия не превышает интенсивности сдвигов в сторону ее увеличения. H1: Интенсивность сдвигов в сторону уменьшения длительности мышечного усилия превышает интенсивность сдвигов в сторону ее увеличения. На следующем шаге все сдвиги, независимо от их знака, должны быть проранжированы по выраженности. В Табл. 3.5 в четвертом слева столбце приведены абсолютные величины сдвигов, а в последнем столбце (справа) - ранги этих абсолютных величин. Меньшему значению соответствует меньший ранг. При этом сумма рангов равна 66, что соответствует расчетной:
Теперь отметим те сдвиги, которые являются нетипичными, в данном случае - положительными. В Табл. 3.5 эти сдвиги и соответствующие им ранги выделены цветом. Сумма рангов этих "редких" сдвигов и составляет эмпирическое значение критерия Т:
где Rr - ранговые значения сдвигов с более редким знаком. Итак, в данном случае, Тэмn=1+2,5+7=10,5 По Таблице VI определяем критические значения Т для n=11:
Зона значимости в данном случае простирается влево. Действительно, если бы "редких", в данном случае положительных, сдвигов не было совсем, то и сумма их рангов равнялась бы нулю. В данном же случае эмпирическое значение Т попадает в зону неопределенности: Тэмп<Ткр (0,05) Ответ: Н0 отвергается. Интенсивность отрицательного сдвига показателя физического волевого усилия превышает интенсивность положительного сдвига (р<0,05). Таким образом, исследователю придется признать, что продолжительность удержания мышечного волевого усилия во втором замере снижается, и этот сдвиг неслучаен. Инструкция, ориентирующая испытуемого на соответствие идеалу в развитии воли, оказалась гораздо менее мощным фактором, чем какая-то иная сила - возможно, мышечное утомление, может быть, разочарование в себе или в возможностях данного психологического эксперимента. А может быть, в момент второго замера просто перестает действовать какой-то мощный фактор, который был активен вначале? На все эти вопросы статистические методы не могут ответить, если в схему эксперимента не включена контрольная группа - в данном случае, выборка, уравновешенная с экспериментальной группой по всем значимым характеристикам (полу, возрасту, профессии, месту обучения), у которой просто измерили бы вторично волевое усилие через такой же промежуток времени, не призывая соответствовать идеалу в развитии воли. Представим выполненные действия в виде алгоритма: АЛГОРИТМ 9 Подсчет критерия Вилкоксона 1. Составить список испытуемых в любом порядке, например, алфавитном. 2. Вычислить разность между индивидуальными значениями во втором и первом замерах ("после" - "до"). Определить, что будет считаться "типичным" сдвигом и сформулировать соответствующие гипотезы. 3. Перевести разности в абсолютные величины и записать их отдельным столбцом (иначе трудно отвлечься от знака разности). 4. Проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг. Проверить совпадение полученной суммы рангов с расчетной. 5. Отметить кружками или другими знаками ранги, соответствующие сдвигам в "нетипичном" направлении. 6. Подсчитать сумму этих рангов по формуле:
где Rr - ранговые значения сдвигов с более редким знаком. 7. Определить критические значения Т для данного п по Табл. VI Приложения 1. Если Тэмп меньше или равен Ткр, сдвиг в "типичную" сторону по интенсивности достоверно преобладает.
|