Материально-техническое обеспечение и технико-методические средства обеспечения освоения студентами дисциплин «Психодиагностика» и «Практикум по психодиагностике. Надежность тестовых методик Надежностью теста называют

План лекции

1. Надежность и ее виды.

2. Процедуры определения ретестововй надежности.

3. Определение одномоментной надежности теста

Тема 13. Надежность теста. Ее виды.

Процедуры определения надежности теста

(семинарско-практическое - 8 часов)

Вопросы для обсуждения:

1. Понятие надежности. Виды надежности.

2. Ретестовая надежность тестовой методики. Процедуры ее определения: преимущества и недостатки.

3. Одномоментная надежность теста. Варианты определения одномоментной надежности: метод параллельных форм, метод расщепления, метод анализа согласованности ответов по всем пунктам методики (метод Кьюдера-Ричардсона). Преимущества и недостатки каждого из них.

3. Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валид-ность, устойчивость, сила/трудность, дискриминативность. Процедуры опреде­ления надежности отдельных пунктов теста

Практические задания:

1) расчет ретестовой надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера;

2) расчет одномоментной надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера.

1. Надежность и ее виды.

В традиционной тестологии термин «надежность» означает относ тельное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место, занимаемое испытуемым в группе.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.)

меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);

3) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

4) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);

5) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важ­нейших средств повышения надежности психодиагностической ме­тодики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенно­сти контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно сущест­венно уменьшить влияние посторонних случайных факторов на ре­зультаты теста и таким образом повысить их надежность.

В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах ив какой мере они могут быть приписаны случайным ошибкам. В узком методическом смысле под надежностью понимают степень согласованности результатов теста при повторном его использовании.

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой.

В настоящее время надежность все чаще определяется на наибо­лее однородных выборках, т.е. на выборках, схожих по полу, воз­расту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надеж­ности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как все виды надежности отражают степень согласованное двух независимо полученных рядов показателей, то математике статистический прием, с помощью которого устанавливается надежность методики, - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Важнейшим средством повышения надежности ПД методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым и пр.) существенно повышается надежность теста.

Надежность тесно связана с валидностью. Надежность – это устойчивость процедуры относительно объектов исследования. Валидность – устойчивость относительно измеряемых свойств объекта (предмета измерения). Устойчивость теста относительно объектов исследования является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. То есть, надежность является необходимым, но не достаточным условием валидности. Валидность может качественно и количественно превышать надежность.

В данном пособии при описании видов надежности основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по это£ проблеме, предложил толковать надежность как:

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, т.е. относительную независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности; показатель, харак­теризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния личности эксперимен­татора - коэффициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.

1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологиче­ского измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так на­зываемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух по­лученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корре­ляции будет достаточно высоким.

Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть - со второй и четвертой и т.п. Однако «расщепление» на четные и не­четные задания представляется наиболее целесообразным, посколь­ку именно этот способ наиболее независим от влияния таких фак­торов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный ко­эффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46-0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей спе­цифичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переде­лать их, либо вообще изъять.

Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следу­ет отметить, что любые изменения в содержании методики - изъя­тие заданий, их перестановка, переформулировка вопросов или от­ветов требует заново высчитывать коэффициенты надежности.

При ознакомлении с коэффициентами надежности не следует за­бывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверя­лась надежность измерительного инструмента.

2. Определение стабильности изучаемого признака. Опре­делить надежность самой методики - это не значит решить все во­просы, связанные с ее применением. Нужно еще установить, на­сколько устойчив, стабилен признак, который исследователь наме­рен измерять. Колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойств используется прием, известный как тест - ретест. Он заключаете в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико Поэтому необходимо соблюдать требования единообразия процедуры проведения эксперимента.

При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого, но не слишком, так как возможно, что испытуемые помнят свои ответы. В тестологической литературе наиболее часто называются вре­менные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные измене­ния и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (напри­мер, умение проводить обобщения), то коэффициент стабильности мо­жет оказаться невысоким, но это не следует истолковывать как недос­таток теста. Такой коэффициент стабильности должен интерпретиро­ваться как показатель определенных изменений, развития исследуемого свойства. Совсем другое требование предъявляется к коэффициенту ста­бильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффи­циент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).

Таким образом, вопрос о стабильности измеряемого свойства ре­шается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

3. Определение константности, т.е. относительной независи­мости результатов от личности экспериментатора. Поскольку мето­дика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию лич­ности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правила­ми и примерами, указывающими, как проводить эксперимент, рег­ламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуе­мый в своем отношении к опыту всегда отразит то, как сам экспе­риментатор к этому опыту относится. . Если под воздействием но­вого экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздей­ствие экспериментатора на испытуемых различно: одни стали рабо­тать лучше, другие хуже, а третьи так же, как и при первом экспе­риментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными эксперимен­таторами. Коэффициент корреляции не должен быть ниже 0,80.

2. Определение ретестовой надежности.

НАДЕЖНОСТЬ РЕТЕСТОВАЯ - ха­рактеристика надежности психодиагно­стической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надеж­ность в этом случае вычисляется по соот­ветствию результатов первого и второго обследований или по сохранению ранго­вых мест испытуемых в выборке при ретесте. Коэффициент надежности (г () соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкалприменяет­ся коэффициент корреляции произведе­ния моментов Пирсона. Для шкал порядка в ка­честве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

При характеристике ретестовой надежности особое зна­чение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции име­ют тенденцию к снижению, существенно повышается вероятность воздействия по­сторонних факторов - могут наступить закономерные возрастные изменения из­меряемых тестом свойств, произойти раз­личные события, влияющие на состояние и особенности развития исследуемых ка­честв. По этой причине при определении ретестовой надежности стараются выбирать непродолжи­тельные временные интервалы (до не­скольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку воз­растные изменения и развитие в этом слу­чае происходят еще быстрее.

Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временном промежутком. Определение ретестовой надежности ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

Наряду с очевидной простотой ретестовая надежность как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

Один из путей устранения влияния тренировки на результаты оценки ретестовой надежности - формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения рас­четных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контингентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне.Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов.

3. Определение одномоментной надежности.

Одномоментная надежность теста. Понятие сопоставимых форм методи­ки. Варианты определения одномоментной надежности:

Метод параллельных форм.

Одни и те же испытуемые в выборке опре­деления надежности обследуются внача­ле с использованием основного набора заданий, а затем - с применением анало­гичных дополнительных наборов. Коэф­фициент надежности по типу параллельных форм мо­жет быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них пред­лагается форма А теста, а другой - фор­ма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

Такая процедура обследования лише­на значительной части недостатков спосо­ба определения надежности ретестовой. Так как в параллельной форме ис­пользуется другой по содержанию мате­риал, возможность тренировки и запоми­нания отдельных решений уменьшается. Важнейшим преимуществом данного ме­тода является сокращение временного ин­тервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между резуль­татами первичного и повторного обследо­ваний, который позволяет оценить как временную стабильность теста (собствен­но надежность), так и степень соответ­ствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.

Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только от­вечать одним и тем же требованиям, измеряя идентичные показатели и давая сход­ные результаты, но вместе с тем быть от­носительно независимыми друг от друга. На практике эта задача осуществима да­леко не для всех тестовых. Другим недостатком характеристики надеж­ности по типу Н. п. ф. является возмож­ность усвоения испытуемым принципа ре­шения, общего для основной и параллель­ной форм. Таким образом, в случае оцен­ки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследо­вании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.

Метод расщепления.

Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайногонабора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

Распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);

Распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.

При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время (t^J решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5t m ] n) и решенных за время между первым и вторым сигналами (0,25f mln).

Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения r t ниже истинных.



Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера-Ричардсона

где σ х - дисперсия первичных оценок те­ста, р - индекс трудности, выраженный в виде доли индекса трудности U деленного на 100, q = 1 - р, r pb - коэффициент дискриминации

При отсутствии коэффициента диск­риминации применим вариант формулы Кьюдера-Ричардсона:

Где ∑σ² ‑ сумма дисперсий результатов отдельных заданий. В практике психологической диагностики считается, что тест надежен, если r>0,6.

Характеристика надежности по типу частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм, главным образом благодаря отсутствию необходимости в повторном обследова­нии. Таким образом, снимается влияние многих посторонних факторов, в частно­сти тренировки, запоминания решений и т. д. Это обстоятельство определяет ши­рокое распространение метода Кьюдера-Ричардсона по сравнению с другими типами надежности. К недостаткам мето­да относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комби­нирования метода Кьюдера-Ричардсона с другими типа­ми характеристики надежности психоло­гической методики

4. Надежность отдельных пунктов теста.

Надежность отдельных пунктов теста. Характеристика требований, обес­печивающих надежность отдельных пунктов теста: объективность, валидность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста.

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ - test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста) :

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность (англ. - internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно "узкую" переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом , сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Вычисление Кронбаха

Кронбаха определяется как

где - число элементов в шкале, - дисперсия общего тестового балла, и - дисперсия элемента .

Альтернативный способ вычисления выглядит следующим способом:

где N - число элементов в шкале, - средняя дисперсия для выборки, - среднее значение для всех ковариаций между компонентами выборки.

В настоящее время Кронбаха считают при помощи SPSS , STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel

Значение Кронбаха

Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор - одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI , в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).

Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.

Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д

Теоретическое основание Кронбаха

Альфа Кронбаха может быть рассмотрено как расширение Кьюдера-Ричардсона-20 , которая является эквивалентом для работы с дихотомиями или переменными, принимающих только два значения (например, ответы истинно/ложно).

Α Кронбаха теоретически связана с формулой прогнозирования Спирмана-Брауна . И обе эти формулы вытекают из классической теорией теста , заключающийся в том, что достоверность результатов тестирования может быть выражена как отношение дисперсий истинной и общей оценок (ошибки и истинной оценки).

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. "Справочное руководство по конструированию тестов", Киев, 1994.

Ссылки

  • Надёжность тестов в книге В.С.Кима "Тестирование учебных достижений"

Wikimedia Foundation . 2010 .

Надежность теста это такой критерий, который говорит о степени точности, с которой тест измеряет определённоё свойство или способ поведения личности. Надёжность характеризует тест с точки зрения его устойчивости к действию помех (внешних и внутренних).

О высокой степени надёжности теста говорят в том случае, когда тест точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:

1) При повторно применении теста к тем же самым испытуемым, в одних и тех же условиях, через определённый интервал времени, результаты обоих тестирований существенно не различаются между собой.

2) Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования.

В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещённость помещения и другие. Такие посторонние случайные факторы ещё называют факторами нестабильности измерительной процедуры.

3) При повторном применении теста к тем же самым испытуемым, через определённый интервал времени, в изменённых условиях результаты обоих тестирований существенно не различаются между собой. Под изменёнными имеется в виду следующие условия: другой экспериментатор, состояние респондента и другие.

Наиболее часто надёжность толкуют в следующих смыслах:

1) Надёжность самого измерительного инструмента – характеризуется коэффициентом надёжности. Эмпирическое определение этого коэффициента является обязательным условием допуска теста для его использования в практической деятельности психолога. Уровень надёжности теста зависит от:

а) Правильности подбора заданий, с точки зрения их взаимосогласованности;

б) Внутренней однородности – актуализации в заданиях одного и того же свойства;

в) Общей гомогенности и взаимосогласованности отдельных пунктов заданий.

Для проверки надёжности измерительного инструмента, позволяющего судить о степени его однородности (гомогенности) используют метод деления, или расщепления теста на части, при котором задания теста делятся на чётные и нечётные (иногда первую половину и вторую половину), отдельно обрабатываются, а затем результаты двух полученных на репрезентативной выборке рядов коррелируются между собой, и мерой надёжности выступает коэффициент корреляции, рассчитанный по формуле Спирмена (см. 3.1.1). Методика признаётся надёжной, если полученный коэффициент корреляции Спирмена (r s) не ниже +0,75 - +0,85. Но на начальном этапе разработки теста можно получить невысокий коэффициент корреляции - +0,46 - +0,50, что говорит о том, что ряд заданий теста имеет специфичность и их надо изъять из теста и повторить процедуру снова. Снижение коэффициента надёжности может происходить также в результате социально-психологической неоднородности той выборки, на которой проверялась надёжность теста.


2) Стабильность изучаемого признака – характеризуется коэффициентом стабильности. Он позволяет судить о том, насколько устойчив, стабилен признак, который измеряется данной методикой.

Для измерения стабильности теста используется приём, известный под названием тест – ретест, заключающийся в повторном тестировании выборки испытуемых одним и тем же тестом через определённый интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), событий, происходящих с испытуемым в жизни, содержанием и характером задач теста. С увеличением временного интервала в последовательности: , стабильность признака имеет тенденцию снижаться, и поэтому наибольшую проблему вызывает попытка ответить на вопрос об оптимальных сроках повторного тестирования. Наиболее часто многие авторы называют срок между первым и повторным тестированием для взрослых в несколько месяцев, но не более 6. Для детей младшего возраста – несколько недель.

Мерой стабильности теста выступает коэффициент корреляции между результатами первого и повторного тестирования у одной и той же выборки испытуемых. Коэффициент стабильности, рассчитанный по формуле Спирмена (см. 3.1.1 (r s)), должен быть не ниже r s = +0,8.

*Надежность и валидность теста - это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста - это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Факторы надежности

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

  • несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
  • временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
  • несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
  • меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
  • субъективный подход при оценке результатов теста.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

  • конструктивная валидность теста - это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность - это который позволяет оценить перспективное развитие параметра.

Типы критериев валидности

Валидность теста - это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

  • соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
  • отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
  • исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию - проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Выводы

Валидность и надежность тестов - это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

Просмотров