Logistyka oraz środki techniczno-metodyczne zapewniające studentom opanowanie dyscyplin „Psychodiagnostyka” i „Warsztat z Psychodiagnostyki”. Rzetelność metod badawczych Rzetelność testów nazywa się

Konspekt wykładu

1. Niezawodność i jej rodzaje.

2. Procedury określania wiarygodności metodą test-retest.

3. Wyznaczanie rzetelności testu jednorazowego

Temat 13. Testuj niezawodność. Jego typy.

Procedury określania wiarygodności testów

(seminarium-praktyczne - 8 godz.)

Zagadnienia do dyskusji:

1. Pojęcie niezawodności. Rodzaje niezawodności.

2. Test-retest wiarygodności metodologii testów. Procedury jego wyznaczania: zalety i wady.

3. Jednorazowa wiarygodność testu. Opcje określania rzetelności jednorazowej: metoda form równoległych, metoda dzielenia, metoda analizy spójności odpowiedzi dla wszystkich punktów metodologii (metoda Kudera-Richardsona). Zalety i wady każdego z nich.

3. Rzetelność poszczególnych pozycji testowych. Charakterystyka wymagań zapewniających wiarygodność poszczególnych pozycji testowych: obiektywność, ważność, stabilność, siła/trudność, rozróżnialność. Procedury określania wiarygodności poszczególnych pozycji testowych

Zadania praktyczne:

1) obliczenie rzetelności test-retest na podstawie wyników testu J. Ravena i kwestionariusza Ch.D. Spielbergera;

2) obliczenie rzetelności jednorazowej na podstawie wyników testu J. Ravena i kwestionariusza Ch.D. Spielbergera.

1. Niezawodność i jej rodzaje.

W tradycyjnych testach termin „rzetelność” oznacza względną stałość, stabilność i spójność wyników testów podczas pierwszego i wielokrotnego stosowania u tych samych osób. Wielokrotne stosowanie wiarygodnych technik pozwala uzyskać podobne szacunki. W takim przypadku w pewnym stopniu zarówno same wyniki, jak i miejsce porządkowe zajmowane przez podmiot w grupie mogą się pokrywać.

Stopień wiarygodności metod zależy od wielu powodów. Dlatego ważnym problemem w diagnostyce praktycznej jest identyfikacja czynników negatywnych wpływających na dokładność pomiarów. Wielu autorów próbowało klasyfikować takie czynniki. Wśród nich najczęściej wymieniane są:

1) niestabilność diagnozowanej nieruchomości;

2) niedoskonałość metod diagnostycznych (instrukcje są sporządzone niestarannie, zadania mają charakter niejednorodny, instrukcje przedstawiania badanym metody nie są jasno sformułowane itp.)

zmieniająca się sytuacja badawcza (różne pory dnia, w których przeprowadzane są eksperymenty, różne oświetlenie pomieszczenia, obecność lub brak zewnętrznego hałasu itp.);

3) różnice w zachowaniu eksperymentatora (z eksperymentu na eksperyment inaczej przedstawia instrukcje, inaczej stymuluje realizację zadań itp.);

4) wahania stanu funkcjonalnego podmiotu (w jednym eksperymencie dobre zdrowie, w innym zmęczenie itp.);

5) elementy subiektywizmu w sposobach oceny i interpretacji wyników (w przypadku rejestrowania odpowiedzi osób badanych oceniane są one pod kątem stopnia kompletności, oryginalności itp.).

Jeśli weźmie się pod uwagę wszystkie te czynniki i spróbuje wyeliminować w każdym z nich warunki zmniejszające dokładność pomiarów, można osiągnąć akceptowalny poziom rzetelności testu. Jednym z najważniejszych sposobów zwiększenia wiarygodności techniki psychodiagnostycznej jest ujednolicenie procedury badawczej, jej ścisłe uregulowanie: takie same środowisko i warunki pracy dla badanej próby, ten sam rodzaj instrukcji, te same ograniczenia czasowe dla d. wszyscy, sposoby i cechy kontaktu z podmiotami, kolejność prezentacji zadań itp. Dzięki takiej standaryzacji procedury badawczej możliwe jest znaczne ograniczenie wpływu zewnętrznych czynników losowych na wyniki badań, a tym samym zwiększenie ich wiarygodności.

W najszerszym znaczeniu niezawodność testów jest miarą stopnia, w jakim różnice w wynikach testów pomiędzy podmiotami odzwierciedlają rzeczywiste różnice w mierzonych właściwościach oraz stopnia, w jakim można je przypisać błędom przypadkowym. W wąskim sensie metodologicznym niezawodność rozumiana jest jako stopień spójności wyników testów przy wielokrotnym użyciu.

Na charakterystykę niezawodności metod duży wpływ ma badana próbka. Może albo zmniejszyć, albo zwiększyć ten wskaźnik, np. wiarygodność można sztucznie zwiększyć, jeśli w próbie występuje niewielki rozrzut wyników, tj. jeśli wyniki są sobie bliskie. W takim przypadku podczas powtórnego badania nowe wyniki również będą zlokalizowane w bliskiej grupie.

Obecnie coraz częściej niezawodność określa się na próbkach najbardziej jednorodnych, tj. na próbach podobnych pod względem płci, wieku, poziomu wykształcenia, przygotowania zawodowego itp. Dla każdej takiej próbki podane są jej własne współczynniki rzetelności. Podany wskaźnik rzetelności dotyczy wyłącznie grup podobnych do tych, na których został wyznaczony. Jeżeli technikę stosuje się do próbki innej niż ta, na której sprawdzano jej wiarygodność, procedurę tę należy powtórzyć.

Ponieważ wszystkie typy rzetelności odzwierciedlają stopień zgodności pomiędzy dwoma niezależnie uzyskanymi szeregami wskaźników, matematyczną techniką statystyczną, za pomocą której ustala się rzetelność techniki, jest korelacja (wg Pearsona lub Spearmana). Im bardziej uzyskany współczynnik korelacji zbliża się do jedności, tym wyższa jest niezawodność i odwrotnie. Najważniejszym sposobem zwiększenia wiarygodności technik WNZ jest standaryzacja procedury badawczej. Przy ścisłym regulowaniu procedury egzaminacyjnej (ustawienia i warunki pracy, charakter instrukcji, ograniczenia czasowe, metody i cechy kontaktu z badanym itp.) Wiarygodność testu znacznie wzrasta.

Rzetelność jest ściśle powiązana z ważnością. Niezawodność to stabilność procedury w stosunku do obiektów badań. Trafność to stabilność względem mierzonych właściwości obiektu (przedmiotu pomiaru). Stabilność testu w stosunku do obiektów badań jest warunkiem koniecznym, ale niewystarczającym dla jego stabilności w stosunku do mierzonych właściwości obiektów. Oznacza to, że niezawodność jest warunkiem koniecznym, ale niewystarczającym ważności. Trafność może jakościowo i ilościowo przewyższać niezawodność.

W tym podręczniku, opisując rodzaje niezawodności, główny nacisk położony jest na pracę K.M. Gurewicza (1969, 1975, 1977, 1979), który po wnikliwej analizie literatury zagranicznej dotyczącej tego problemu zaproponował interpretację rzetelności jako:

1) niezawodność samego przyrządu pomiarowego;

2) stabilność badanej cechy;

3) stałość, tj. względna niezależność wyników od osobowości eksperymentatora.

Proponuje się, aby wskaźnik charakteryzujący przyrząd pomiarowy nazwać współczynnikiem niezawodności; wskaźnik charakteryzujący stabilność mierzonej właściwości - współczynnik stabilności; a wskaźnikiem oceny wpływu osobowości eksperymentatora jest współczynnik stałości.

W tej kolejności zaleca się sprawdzenie metodologii: zaleca się najpierw sprawdzenie narzędzia pomiarowego. Jeżeli uzyskane dane są zadowalające, można przystąpić do ustalenia miary stabilności mierzonej nieruchomości, a następnie, w razie potrzeby, rozważyć kryterium stałości.

1. Określenie niezawodności przyrządu pomiarowego. Dokładność i obiektywność każdego pomiaru psychologicznego zależy od sposobu opracowania metodologii, prawidłowego doboru zadań z punktu widzenia ich wzajemnej spójności i ich jednorodności. Wewnętrzna jednorodność metodologii pokazuje, że jej zadania realizują tę samą właściwość, znak.

Aby sprawdzić niezawodność przyrządu pomiarowego, wskazując na jego jednorodność (lub jednorodność), stosuje się tzw. metodę „rozszczepiania”. Zazwyczaj zadania dzielone są na parzyste i nieparzyste, przetwarzane oddzielnie, a następnie wyniki dwóch uzyskanych szeregów są ze sobą korelowane. Aby skorzystać z tej metody, należy umieścić badanych w takich warunkach, aby mieli czas na rozwiązanie (lub próbę rozwiązania) wszystkich zadań. Jeśli technika jest jednorodna, nie będzie dużej różnicy w powodzeniu rozwiązania dla takich połówek, a zatem współczynnik korelacji będzie dość wysoki.

Możesz podzielić zadania na inne sposoby, na przykład porównać pierwszą połowę testu z drugą, pierwszą i trzecią ćwiartkę z drugą i czwartą itp. Jednak „podział” na zadania parzyste i nieparzyste wydaje się najwłaściwszy, gdyż to właśnie ta metoda jest najbardziej niezależna od wpływu czynników takich jak urabialność, wytrenowanie, zmęczenie itp.

Technikę uważa się za niezawodną, ​​jeśli uzyskany współczynnik jest nie niższy niż 0,75-0,85. Najlepsze testy niezawodności dają współczynniki rzędu 0,90 i więcej.

Jednak na początkowym etapie opracowywania techniki diagnostycznej można uzyskać niskie współczynniki niezawodności, na przykład rzędu 0,46-0,50. Oznacza to, że opracowana metodologia zawiera pewną liczbę zadań, które ze względu na swoją specyfikę prowadzą do obniżenia współczynnika korelacji. Takie zadania należy specjalnie przeanalizować i albo przerobić, albo całkowicie usunąć.

Aby ułatwić ustalenie, dzięki którym zadaniom następuje redukcja współczynników korelacji, należy dokonać analizy tabel z zapisanymi danymi przygotowanymi do korelacji. Należy zaznaczyć, że wszelkie zmiany w treści metodyki – usunięcie zadań, ich przegrupowanie, przeformułowanie pytań lub odpowiedzi wymagają przeliczenia współczynników rzetelności.

Zaznajomiając się ze współczynnikami rzetelności nie należy zapominać, że zależą one nie tylko od prawidłowego doboru zadań pod względem ich wzajemnej spójności, ale także od jednorodności społeczno-psychologicznej próby, na której sprawdzano niezawodność przyrządu pomiarowego .

2. Określenie trwałości badanej cechy. Określenie niezawodności samej techniki nie oznacza rozwiązania wszystkich problemów związanych z jej zastosowaniem. Konieczne jest także ustalenie, jak stabilna jest cecha, którą badacz zamierza mierzyć. Wahania cechy nie powinny być nieprzewidywalne. Jeśli przyczyny ostrych wahań nie są jasne, takiego znaku nie można wykorzystać do celów diagnostycznych.

Aby sprawdzić stabilność zdiagnozowanej cechy lub właściwości, stosuje się technikę znaną jako test-retest. Kończy się ponownym zbadaniem przedmiotów przy użyciu tej samej techniki. Trwałość znaku ocenia się na podstawie współczynnika korelacji pomiędzy wynikami pierwszego i kolejnych badań. Wskaże, czy każdy badany zachował, czy nie, swój numer porządkowy w próbie.

Na stopień wytrzymałości i stabilności diagnozowanej nieruchomości wpływa wiele czynników. Ich liczba jest dość duża, dlatego konieczne jest przestrzeganie wymagań jednolitości procedury doświadczalnej.

Przy określaniu stabilności znaku duże znaczenie ma odstęp czasowy pomiędzy pierwszym a ponownym badaniem. Im krótszy jest okres od pierwszego do drugiego badania, tym większa szansa (przy niezmienionych warunkach), że diagnozowany objaw utrzyma się na poziomie pierwszego badania. Wraz ze wzrostem odstępu czasu stabilność cechy ma tendencję do zmniejszania się, wraz ze wzrostem liczby zewnętrznych czynników wpływających na nią. W związku z tym wniosek sam w sobie nasuwa się, że wskazane jest przeprowadzenie ponownego badania wkrótce po pierwszym, ale nie za długo, gdyż istnieje możliwość, że badani zapamiętają swoje odpowiedzi. W literaturze testologicznej najczęściej mówi się o przedziałach czasowych kilkumiesięcznych (ale nie dłuższych niż sześciomiesięczne). W przypadku małych dzieci, gdy zmiany i rozwój związane z wiekiem zachodzą bardzo szybko, odstępy te mogą wynosić kilka tygodni.

Jeżeli w teście badana jest właściwość, która w okresie testowania podlega intensywnemu rozwojowi (np. zdolność do dokonywania uogólnień), wówczas współczynnik stabilności może być niski, ale nie należy tego interpretować jako wadę testu. Taki współczynnik stabilności należy interpretować jako wskaźnik pewnych zmian i rozwoju badanego dobra. Zupełnie inny wymóg stawiany jest współczynnikowi stabilności, jeśli autor techniki uważa, że ​​mierzona właściwość została już ukształtowana i powinna być wystarczająco stabilna. Współczynnik stabilności w tym przypadku powinien być dość wysoki (nie niższy niż 0,80).

Zatem kwestia stabilności mierzonej właściwości nie zawsze jest rozwiązana jednoznacznie. Decyzja zależy od istoty diagnozowanej nieruchomości.

3. Definicja stałości, te. względna niezależność wyników od osobowości eksperymentatora. Ponieważ technika opracowana do celów diagnostycznych nie ma pozostać na zawsze w rękach jej twórców, niezwykle ważne jest, aby wiedzieć, w jakim stopniu na jej wyniki wpływa osobowość eksperymentatora. Choć do techniki diagnostycznej zawsze dołączona jest szczegółowa instrukcja jej stosowania, zasady i przykłady wskazujące sposób przeprowadzenia eksperymentu, bardzo trudno jest regulować zachowanie eksperymentatora, szybkość mówienia, ton głosu, pauzy i wyraz twarzy. Postawa podmiotu wobec doświadczenia zawsze będzie odzwierciedlać sposób, w jaki sam eksperymentator odnosi się do tego doświadczenia. . Jeśli pod wpływem nowego eksperymentatora wszyscy badani jednakowo zaczną działać trochę lepiej lub trochę gorzej, to fakt ten sam w sobie (choć zasługuje na uwagę) nie wpłynie na niezawodność techniki. Niezawodność zmieni się tylko wtedy, gdy wpływ eksperymentatora na badane osoby będzie inny: niektórzy zaczęli działać lepiej, inni gorzej, a jeszcze inni tak samo jak za pierwszego eksperymentatora. Innymi słowy, jeśli badani pod okiem nowego eksperymentatora zmienili swoje porządkowe miejsca w próbie.

Współczynnik stałości wyznacza się poprzez skorelowanie wyników dwóch eksperymentów przeprowadzonych w stosunkowo identycznych warunkach na tej samej próbie osób, ale przez różnych eksperymentatorów. Współczynnik korelacji nie powinien być niższy niż 0,80.

2. Wyznaczanie wiarygodności test-retest.

NIEZAWODNOŚĆ PRZETESTOWANY- Charakterystyka niezawodność technika psychodiagnostyczna uzyskana poprzez wielokrotne badanie osób przy użyciu tego samego testu. Rzetelność w tym przypadku oblicza się poprzez zgodność wyników pierwszego i drugiego badania lub poprzez utrzymanie miejsc rankingowych osób w próbie podczas powtórnego testu. Współczynnik rzetelności (r) odpowiada współczynnikowi korelacji pomiędzy wynikami takich badań.W przypadku stosowania skal przedziałowych stosuje się współczynnik korelacji iloczynu momentów Pearsona . W przypadku skal zamówień współczynnik korelacji rang Spearmana lub Kendalla można zastosować jako miarę odporności na ponowne testowanie .

Przy charakteryzowaniu wiarygodności test-retest szczególne znaczenie ma odstęp czasowy pomiędzy pierwszym i drugim badaniem. Wraz ze wzrostem wskaźniki korelacji mają tendencję do zmniejszania się, prawdopodobieństwo narażenia na czynniki zewnętrzne znacznie wzrasta - mogą wystąpić naturalne zmiany związane z wiekiem we właściwościach mierzonych testem, mogą wystąpić różne zdarzenia, które wpływają na stan i cechy rozwoju badane cechy. Z tego powodu przy ustalaniu rzetelności badania-powtórnika starają się wybierać krótkie odstępy czasowe (do kilku miesięcy), a przy badaniu małych dzieci odstępy te powinny być jeszcze krótsze, gdyż zmiany i rozwój związany z wiekiem w tym przypadku zachodzą nawet szybciej.

Pomimo tej tendencji, przy uzyskiwaniu charakterystyk testowych, badania powtarzane są w długim odstępie czasu. Określenie wiarygodności test-retest ogranicza się do analizy krótkoterminowych zmian losowych charakteryzujących test jako procedurę pomiarową, a nie jego związku z badanym obszarem zachowań.

Oprócz oczywistej prostoty, niezawodność metodą test-retest jako metoda określania niezawodności ma istotne wady. Zatem przy wielokrotnym wykonywaniu tych samych zadań, zwłaszcza przy stosunkowo krótkich odstępach czasu pomiędzy badaniami, badani mogą rozwinąć umiejętność pracy z tą techniką psychodiagnostyczną, co prowadzi do poprawy indywidualnych wyników, choć nie tak wyraźnej u różnych osób. Prowadzi to nieuchronnie do zauważalnej zmiany miejsc rankingowych poszczególnych podmiotów w danej próbie, a co za tym idzie, do pogorszenia współczynnika rzetelności. Jeszcze bardziej zauważalny wpływ na wyniki analizy rzetelności ma zapamiętywanie przez osoby badane poszczególnych decyzji i odtwarzanie w wielokrotnym badaniu dotychczasowego wzorca prawidłowych i błędnych decyzji. W takim przypadku wyniki obu prezentacji testowych nie będą niezależne, a korelacja między nimi będzie przeszacowana.

Jednym ze sposobów eliminacji wpływu szkolenia na wyniki oceny wiarygodności testu-retestu jest wyrobienie stabilnej umiejętności pracy z odpowiednią metodologią przed przeprowadzeniem testu-retestu. Jednak liczba powtórzeń testu nieuchronnie wzrasta, co prowadzi do wzrostu liczby zapamiętanych rozwiązań. Technikę tę można polecić w przypadku technik takich jak testy prędkości, zawierające dużą liczbę elementów materiału badawczego.

W przypadku innych metod oczywiście jedynym akceptowalnym sposobem ograniczenia wpływu uczenia jest zwiększenie interwału powtórnego testu, co jednak, jak wspomniano powyżej, jest sprzeczne z definicją niezawodności jako cechy testu.

Większość testów umiejętności ogólnych charakteryzuje się poprawą wskaźników wydajności N. z wiekiem badanych dzięki lepszej kontroli warunków ich realizacji. Kolejnym czynnikiem zwiększającym obliczone wskaźniki N. r. to względne spowolnienie wraz z wiekiem tempa rozwoju umysłowego w obszarze tych cech, które mogą stać się przedmiotem pomiaru lub wpłynąć na wynik testu. Z tego powodu po czasie równym interwałowi ponownego testu losowe sztucznie zawyżają wskaźniki N.R. Ten wzór wymaga oddzielnych pomiarów N. r. w różnych grupach wiekowych pacjentów, co jest szczególnie istotne w przypadku metod przeznaczonych do badania w szerokim przedziale wiekowym Wskazane cechy i wady metody określania wiarygodności metodą retestową sprawiają, że nadaje się ona jedynie do ograniczonej liczby metod pozwalających na wielokrotne powtarzanie badań . Należą do nich testy sensomotoryczne, testy prędkości i szereg innych technik, które różnią się dużą liczbą punktów.

3. Wyznaczanie niezawodności chwilowej.

Rzetelność przekrojowa testu. Pojęcie porównywalnych form metodologicznych. Opcje określania chwilowej niezawodności:

Metoda form równoległych.

Te same podmioty w próbie określenia niezawodności są badane najpierw przy użyciu głównego zestawu zadań, a następnie przy użyciu podobnych zestawów dodatkowych. Współczynnik rzetelności na podstawie rodzaju równoległych formularzy można określić w inny sposób, a mianowicie: badani są dzieleni na w przybliżeniu równe grupy, następnie jednemu z nich oferuje się testową formę A, a drugiemu - formę B. Po pewnym czasie ( zwykle nie dłużej niż tydzień), przeprowadza się ponowne badanie, ale w odwrotnej kolejności.

Ta procedura badawcza pozbawiona jest większości wad metody ustalania niezawodność testu-retestu. Ponieważ w formie równoległej wykorzystuje się materiał różniący się treścią, zdolność uczenia się i zapamiętywania poszczególnych rozwiązań jest ograniczona. Najważniejszą zaletą tej metody jest skrócenie czasu przed ponownym badaniem. Głównym wskaźnikiem rzetelności form równoległych jest współczynnik korelacji między wynikami badań wstępnych i powtórnych, który pozwala ocenić zarówno stabilność czasową testu (samą rzetelność), jak i stopień zgodności wyników obu form testu. Jeżeli formy stosuje się bezpośrednio jedna po drugiej, wówczas korelacja odzwierciedla ich wymienność.

Zależność pomiędzy równoległymi formami testu jest złożona. Obydwa zestawy zadań muszą nie tylko spełniać te same wymagania, mierzyć identyczne wskaźniki i dawać podobne wyniki, ale jednocześnie być od siebie względnie niezależne. W praktyce zadanie to nie jest wykonalne dla wszystkich przypadków testowych. Kolejna wada cech niezawodnościowych typu N. p. f. to zdolność podmiotu do przyswojenia sobie zasady rozwiązania, wspólnej dla form głównych i równoległych. Zatem w przypadku oceny N.p.f. Wpływ wyszkolenia i umiejętności nabytych podczas ponownego egzaminu, choć zmniejszony w porównaniu z charakterystyką rzetelności test-retest, nie jest całkowicie wyeliminowany.

Metoda podziału.

Najprostszym i najpowszechniejszym sposobem określenia N. h.t. jest metoda podziału, której istotą jest wykonanie przez osobę badaną zadań z dwóch równoważnych części testu. Uzasadnieniem tej metody jest wniosek, że przy normalnym lub zbliżonym do normalnego rozkładzie wyników pełnego testu wykonanie dowolnego losowego zestawu części testu da podobny rozkład (pod warunkiem, że części te będą miały jednorodny charakter zadania w odniesieniu do testu jako całości).

Do oceny niezawodności metodą splittingu wybiera się dwie grupy zadań o równoważnym charakterze i stopniu trudności (por. Spójność wewnętrzna, Trudność elementów testowych). Podział objętości zadań testowych na porównywalne części osiąga się:

Podział zadań na parzyste i nieparzyste (w przypadku, gdy zadania w teście są ściśle uszeregowane według stopnia subiektywnej trudności);

Rozkład pozycji według zasady bliskości lub równości wartości wskaźników trudności i dyskryminacyjności .

Podczas dzielenia testów prędkości stosowana jest specjalna procedura grupowania zadań. Określany jest minimalny czas (t^J rozwiązując cały test, następnie odliczając połowę i jedną czwartą tego czasu. Wszyscy badani pracują przez połowę minimalnego czasu, po czym zaznaczają zadanie wykonywane w momencie uzyskania sygnału i kontynuują pracę przez kolejną czwartą minimalnego czasu. Współczynnik niezawodności w tym przypadku będzie odpowiadał stopniowi korelacji pomiędzy liczbą problemów rozwiązanych przed pierwszym sygnałem (0,5 t m ] n) i rozwiązany w czasie pomiędzy pierwszym a drugim sygnałem (0,25f mln).

Dzielenie elementów testowych na równe połowy jest tylko szczególnym przypadkiem N. ch.t. Podział na trzy, cztery lub więcej części jest całkiem możliwy. W przypadku ograniczającym liczba części jest równa liczbie punktów. W tym przypadku do określenia wiarygodności stosuje się analizę spójność wewnętrzna.

Dzieląc cały zestaw obiektów testowych na dowolną liczbę grup w celu prawidłowego określenia N.h.t., jak już wskazano powyżej, należy spełnić wymóg równoważności takich grup. Dlatego przy obliczaniu współczynnika rzetelności metodą analizy spójności wewnętrznej wybrane pozycje testowe muszą być wysoce jednorodne pod względem treści i trudności (jednorodne). W przypadku problemów heterogenicznych wartości rt poniżej tych prawdziwych.


2a

Najpopularniejszą metodą oceny wiarygodności poszczególnych pozycji jest obliczenie współczynnika Kudera-Richardsona.

gdzie σ X- rozproszenie wyników testów pierwotnych, R- wskaźnik trudności, wyrażony jako ułamek wskaźnika trudności U podzielony przez 100 , Q= 1 - r, r pb- współczynnik dyskryminacji

W przypadku braku współczynnika dyskryminacji stosujemy wersję wzoru Kudera-Richardsona:

Gdzie ∑σ² jest sumą wariancji wyników poszczególnych zadań. W praktyce diagnostyki psychologicznej test uznaje się za rzetelny, jeśli r > 0,6.

Charakteryzowanie niezawodności według rodzaju części testowych ma poważne zalety w porównaniu z niezawodność testu-retestu I niezawodność form równoległych, głównie ze względu na brak konieczności powtarzania badań. W ten sposób usuwa się wpływ wielu czynników zewnętrznych, w szczególności treningu, zapamiętywania decyzji itp. Okoliczność ta determinuje powszechne stosowanie metody Kudera-Richardsona w porównaniu z innymi rodzajami niezawodności. Wadą tej metody jest brak możliwości sprawdzenia stabilności wyników badań po określonym czasie. Wymaga to połączenia metody Kudera-Richardsona z innymi rodzajami charakteryzacji wiarygodności technik psychologicznych

4. Rzetelność poszczególnych pozycji testowych.

Wiarygodność poszczególnych pozycji testowych. Charakterystyka wymagań zapewniających wiarygodność poszczególnych pozycji testowych: obiektywność, ważność, stabilność, siła/trudność, rozróżnialność. Procedury określania wiarygodności poszczególnych pozycji testowych.

Niezawodność jako stabilność

Stabilność wyników badań lub rzetelność testu-retestu – możliwość uzyskania tych samych wyników od osób badanych w różnych przypadkach.

Stabilność określa się za pomocą powtarzane testowanie (retest):

Metoda ta proponuje wykonanie kilku pomiarów w określonym przedziale czasu (od tygodnia do roku) tym samym testem. Jeżeli korelacja pomiędzy wynikami różnych pomiarów jest wysoka, wówczas test jest w miarę rzetelny. Najniższa zadowalająca wartość rzetelności testu-powtórzenia wynosi 0,5. Jednak nie wszystkie testy można sprawdzić tą metodą, gdyż oceniana jakość, zjawisko czy efekt same w sobie mogą być niestabilne (np. nasz nastrój, który może zmieniać się z pomiaru na pomiar). Kolejną wadą powtarzanych testów jest efekt przyzwyczajenia. Zdający znają już test i mogą nawet pamiętać większość swoich odpowiedzi z poprzedniego testu.

W związku z powyższym do badania rzetelności technik psychodiagnostycznych stosuje się formy równoległe, w których konstruowane są równoważne lub równoległe zestawy zadań. W tym przypadku badani wykonują zupełnie inny test w podobnych warunkach. Istnieją jednak trudności w udowodnieniu, że te dwie formy są rzeczywiście równoważne. Mimo to w praktyce równoległe formy testów okazały się przydatne w ustalaniu wiarygodności testów.

Rzetelność jako spójność wewnętrzna

Wewnętrzna spójność(Angielski - spójność wewnętrzna) określa się poprzez powiązanie każdego konkretnego elementu testu z wynikiem ogólnym, stopień, w jakim każdy element koliduje z innymi, stopień, w jakim każde indywidualne pytanie mierzy cechę, na podstawie której cały test jest przeprowadzany wycelowany. Najczęściej testy projektuje się w taki sposób, aby charakteryzowały się wysokim stopniem spójności wewnętrznej, a ze względu na to, że jeśli w części testu mierzona jest jedna zmienna, to w pozostałych częściach, jeżeli nie są one zgodne z pierwszą , tej samej zmiennej nie można zmierzyć. Zatem, aby test był ważny, musi być spójny.

Istnieje jednak również odwrotny punkt widzenia. Cattell sugeruje, że wysoka spójność wewnętrzna jest w rzeczywistości przeciwieństwem trafności: każde pytanie powinno obejmować mniejszy obszar lub mieć węższe znaczenie niż mierzone kryterium. Jeśli wszystkie pozycje są wysoce spójne, są silnie skorelowane i dlatego wiarygodny test będzie mierzyć jedynie stosunkowo wąską zmienną o małych wariancjach. Zgodnie z rozumowaniem Cattella, maksymalna trafność występuje wtedy, gdy wszystkie pozycje testu nie są ze sobą skorelowane i każda z nich ma dodatnią korelację z kryterium. Jednakże taki test będzie miał niską niezawodność spójności wewnętrznej.

Aby sprawdzić spójność wewnętrzną, stosuje się:

  1. Metoda podziału lub metoda części autonomicznych
  2. Metoda formularzy równoważnych

Niezawodność połówkowa

Metoda ta polega na podzieleniu testu na dwie równe części (np. pytania parzyste i nieparzyste, pierwsza i druga połowa), a następnie znalezieniu korelacji między nimi. Jeżeli korelacja jest wysoka, test można uznać za wiarygodny.

Metoda formularzy równoważnych

OIE polega na podaniu dużej próbie dwóch porównywalnych formularzy testowych (na przykład form L i M Skali Inteligencji Stanforda-Bineta). Wyniki uzyskane z tych dwóch formularzy są porównywane i obliczana jest korelacja. Jeśli współczynnik korelacji jest wysoki, test jest rzetelny. Wadą tej metody jest to, że wiąże się ona z tak długim i pracochłonnym procesem, jak utworzenie dwóch równoważnych form.

Alfa Cronbacha

Metoda ta, zaproponowana przez Lee Cronbacha, porównuje wariancję każdej pozycji z ogólną wariancją całej skali. Jeśli rozrzut wyników testu jest mniejszy niż rozrzut wyników dla każdego pojedynczego pytania, wówczas każde indywidualne pytanie ma na celu zbadanie tej samej wspólnej podstawy. Tworzą znaczenie, które można uznać za prawdziwe. Jeżeli takiej wartości nie da się wypracować, czyli przy udzielaniu odpowiedzi na pytania uzyska się losowy rozrzut, test nie jest rzetelny i współczynnik alfa Cronbacha będzie równy 0. Jeżeli wszystkie pytania mierzą tę samą cechę, to test jest rzetelny i współczynnik alfa Cronbacha w tym przypadku będzie równy 1.

Obliczenia Cronbacha

Zespół Cronbacha definiuje się jako

gdzie jest liczbą pozycji na skali, jest wariancją całkowitego wyniku testu i jest wariancją pozycji.

Alternatywny sposób obliczenia jest następujący:

gdzie N jest liczbą pozycji na skali, jest średnią wariancją dla próby i jest średnią wszystkich kowariancji pomiędzy składnikami próbki.

Obecnie współczynnik Cronbacha oblicza się przy użyciu programów SPSS, STATISTICA i innych nowoczesnych pakietów statystycznych, ewentualnie przy użyciu programu Microsoft Excel

Wartość Cronbacha

Alfa Cronbacha będzie na ogół wzrastać wraz ze wzrostem wzajemnych korelacji między zmiennymi, dlatego też uważa się je za wskaźnik wewnętrznej spójności w ocenie wyników testów. Ponieważ maksymalne korelacje między zmiennymi we wszystkich pozycjach występują, gdy mierzona jest ta sama rzecz, alfa Cronbacha pośrednio wskazuje stopień, w jakim wszystkie pozycje mierzą to samo. Zatem alfa jest najwłaściwsza do użycia, gdy wszystkie pozycje mają na celu pomiar tego samego zjawiska, właściwości, zjawiska. Należy jednak zaznaczyć, że wysoka wartość współczynnika wskazuje, że zbiór pozycji ma wspólną podstawę, ale nie oznacza, że ​​stoi za nimi jeden czynnik – jednowymiarowość skali należy potwierdzić dodatkowymi metodami. mierzy się strukturę, alfa Cronbacha będzie często niska. Zatem alfa nie nadaje się do oceny wiarygodności celowo heterogenicznych instrumentów (na przykład dla pierwotnego MMPI, w takim przypadku sensowne jest przeprowadzenie osobnych pomiarów dla każdej skali).

Oczekuje się, że profesjonalnie opracowane testy będą miały wewnętrzną spójność co najmniej 0,90.

Współczynnik alfa można również wykorzystać do rozwiązywania innych typów problemów. Można nim zatem zmierzyć stopień zgodności ekspertów oceniających dany obiekt, stabilność danych podczas powtarzanych pomiarów itp.

Podstawa teoretyczna Cronbacha

Alfa Cronbacha może być traktowana jako rozszerzenie skali Kudera-Richardsona-20, która jest równoważna w przypadku dychotomii lub zmiennych, które przyjmują tylko dwie wartości (na przykład odpowiedzi prawda/fałsz).

Wartość α Cronbacha jest teoretycznie powiązana ze wzorem przewidywania Spearmana-Browna. Obydwa te wzory wynikają z klasycznej teorii testów, która głosi, że wiarygodność wyników testów można wyrazić jako stosunek wariancji wyników prawdziwych i całkowitych (błądu i wyniku prawdziwego).

Zobacz też

Oprócz wiarygodności testów istnieje również niezawodność obserwacyjna – niezawodność między obserwatorami. MN to procent zgodności między wynikami obserwacji ekspertów a sobą.

Rzetelność i ważność

Rzetelność pokazuje, że wyniki badania są bliskie prawdy, a trafność pokazuje, że wyniki rzeczywiście odnoszą się do zjawiska, które bada badacz. Prawidłowe badanie jest automatycznie wiarygodne, ale niekoniecznie musi być odwrotnie. Wiarygodne badanie może nie być ważne.

Literatura

Pawła Klina. „Przewodnik informacyjny po projektowaniu testów”, Kijów, 1994.

Spinki do mankietów

  • Wiarygodność testów w książce V.S. Kima „Badanie osiągnięć edukacyjnych”

Fundacja Wikimedia. 2010.

Wiarygodność testu to kryterium wskazujące stopień dokładności, z jaką test mierzy określoną właściwość lub zachowanie jednostki. Rzetelność charakteryzuje test pod względem jego odporności na zakłócenia (zewnętrzne i wewnętrzne).

Mówi się, że test ma wysoki stopień wiarygodności, jeśli dokładnie mierzy właściwość, którą ma mierzyć. Można zauważyć następujące kryteria dokładności:

1) W przypadku powtórzenia badania na tych samych osobach, w tych samych warunkach, po określonym czasie, wyniki obu testów nie różnią się istotnie od siebie.

2) Działania losowych czynników zewnętrznych nie mają istotnego wpływu na wyniki testu.

Za czynniki zewnętrzne można uznać: stan emocjonalny i zmęczenie, jeśli nie wchodzą w zakres badanych cech, temperaturę, oświetlenie pomieszczenia i inne. Takie zewnętrzne czynniki losowe nazywane są również czynnikami niestabilności procedury pomiarowej.

3) W przypadku powtórzenia testu na tych samych osobach, po pewnym czasie, w zmienionych warunkach, wyniki obu testów nie różnią się znacząco od siebie. Przez zmienione rozumiemy następujące warunki: inny eksperymentator, stan respondenta i inne.

Niezawodność jest najczęściej interpretowana w następujących znaczeniach:

1) Niezawodność samego przyrządu pomiarowego charakteryzuje się współczynnikiem niezawodności. Empiryczne określenie tego współczynnika jest warunkiem dopuszczenia testu do jego stosowania w praktycznej działalności psychologa. Poziom wiarygodności testu zależy od:

a) Prawidłowy dobór zadań pod kątem ich wzajemnej spójności;

b) Wewnętrzna jednorodność - aktualizacja tej samej właściwości w zadaniach;

c) Ogólna jednorodność i spójność poszczególnych elementów zadania.

Aby sprawdzić niezawodność przyrządu pomiarowego, co pozwala ocenić stopień jego jednorodności (jednorodności), stosuje się metodę podziału, czyli podziału testu na części, w której zadania badawcze dzieli się na parzyste i nieparzyste (czasami pierwsza i druga połowa), przetwarzane oddzielnie, a następnie wyniki obu. Szeregi uzyskane z reprezentatywnej próby są ze sobą skorelowane, a miarą rzetelności jest współczynnik korelacji obliczony za pomocą wzoru Spearmana (patrz 3.1.1). Technikę uważa się za wiarygodną, ​​jeśli uzyskany współczynnik korelacji Spearmana (r s) jest nie niższy niż +0,75 - +0,85. Jednak na początkowym etapie tworzenia testu można uzyskać niski współczynnik korelacji - +0,46 - +0,50, co wskazuje, że pewna liczba pozycji testowych ma swoistość i należy je usunąć z testu, a procedurę powtórzyć ponownie. Spadek współczynnika rzetelności może nastąpić także na skutek niejednorodności społeczno-psychologicznej próby, na której badano rzetelność testu.


2) Stabilność badanej cechy charakteryzuje się współczynnikiem stabilności. Pozwala ocenić, jak stabilna jest cecha mierzona tą techniką.

Aby zmierzyć stabilność testu, stosuje się technikę znaną jako test-retest, która polega na ponownym badaniu próbki osób tym samym testem po pewnym czasie i w tych samych warunkach. Przedział czasowy zależy od wieku (np. u małych dzieci zmiany mogą nastąpić w ciągu jednego miesiąca), wydarzeń zachodzących w życiu osoby badanej, treści i charakteru zadań testowych. Wraz ze wzrostem odstępu czasu w ciągu: , stabilność znaku ma tendencję do zmniejszania się, dlatego też największym problemem jest próba odpowiedzi na pytanie o optymalny moment powtórnego testowania. Najczęściej wielu autorów określa okres pomiędzy pierwszym a ponownym badaniem u dorosłych na kilka miesięcy, ale nie więcej niż 6. U małych dzieci – na kilka tygodni.

Miarą stabilności testu jest współczynnik korelacji pomiędzy wynikami pierwszego i powtórzonych testów w tej samej próbie osób. Współczynnik stateczności obliczony według wzoru Spearmana (patrz 3.1.1 (r s)) nie może być niższy niż r s = +0,8.

*Wiarygodność i trafność testu to cechy zgodności badania z kryteriami formalnymi, które określają jakość i przydatność do zastosowania w praktyce.

Czym jest niezawodność

Podczas badania wiarygodności testów ocenia się zgodność wyników uzyskanych po powtórzeniu testu. Rozbieżności w danych powinny być nieobecne lub nieistotne. W przeciwnym razie nie można z całą pewnością traktować wyników testu.

Wiarygodność testów to kryterium wskazujące, że za istotne uważa się następujące właściwości testów:

  • powtarzalność wyników uzyskanych w badaniu;
  • stopień dokładności lub powiązane instrumenty;
  • trwałość wyników w określonym czasie.

W interpretacji niezawodności można wyróżnić następujące główne składowe:

  • niezawodność przyrządu pomiarowego (mianowicie umiejętność czytania i pisania oraz obiektywność zadania testowego), którą można ocenić poprzez obliczenie odpowiedniego współczynnika;
  • stabilność badanej cechy w długim okresie czasu oraz przewidywalność i płynność jej wahań;
  • obiektywność wyniku (czyli jego niezależność od osobistych preferencji badacza).

Czynniki niezawodności

Na stopień niezawodności może mieć wpływ szereg negatywnych czynników, z których najważniejsze to:

  • niedoskonałość metodologii (nieprawidłowe lub niedokładne instrukcje, niejasne sformułowanie zadań);
  • tymczasowa niestabilność lub ciągłe wahania wartości badanego wskaźnika;
  • nieadekwatność środowiska, w którym prowadzone są badania wstępne i uzupełniające;
  • zmieniające się zachowanie badacza, a także niestabilność stanu podmiotu;
  • subiektywne podejście przy ocenie wyników badań.

Metody oceny wiarygodności testów

Do określenia wiarygodności testu można zastosować następujące techniki.

Metoda ponownego testowania jest jedną z najpopularniejszych. Pozwala ustalić stopień korelacji pomiędzy wynikami badań, a czasem w jakim je przeprowadzono. Ta technika jest prosta i skuteczna. Niemniej jednak z reguły powtarzane badania powodują podrażnienie i negatywne reakcje u badanych.

  • Trafność konstruktywna testu jest kryterium stosowanym przy ocenie testu o strukturze hierarchicznej (stosowanym w procesie badania złożonych zjawisk psychologicznych);
  • trafność kryterialna polega na porównaniu wyników testu z poziomem rozwoju tej lub innej cechy psychologicznej u osoby badanej;
  • trafność merytoryczna określa zgodność metodologii z badanym zjawiskiem i zakresem parametrów, które obejmuje;
  • Trafność predykcyjna to taka, która pozwala ocenić przyszły rozwój parametru.

Rodzaje kryteriów ważności

Trafność testu jest jednym ze wskaźników pozwalających ocenić adekwatność i przydatność techniki do badania konkretnego zjawiska. Istnieją cztery główne kryteria, które mogą na to wpływać:

  • kryterium wykonawcy (mówimy o kwalifikacjach i doświadczeniu badacza);
  • kryteria subiektywne (stosunek osoby badanej do określonego zjawiska, który znajduje odzwierciedlenie w końcowym wyniku testu);
  • kryteria fizjologiczne (stan zdrowia, zmęczenie i inne cechy, które mogą mieć istotny wpływ na końcowy wynik badania);
  • kryterium przypadku (odbywa się przy określaniu prawdopodobieństwa wystąpienia określonego zdarzenia).

Kryterium ważności jest niezależnym źródłem danych o konkretnym zjawisku (właściwości psychologicznej), którego badanie odbywa się poprzez testowanie. Dopóki uzyskane wyniki nie zostaną sprawdzone pod kątem zgodności z kryterium, nie można oceniać ich trafności.

Podstawowe wymagania kryterialne

Kryteria zewnętrzne mające wpływ na wskaźnik ważności testu muszą spełniać następujące podstawowe wymagania:

  • zgodność z dziedziną, w której prowadzone są badania, trafność i powiązanie semantyczne z modelem diagnostycznym;
  • brak jakichkolwiek zakłóceń lub ostrych pęknięć w próbce (chodzi o to, aby wszyscy uczestnicy eksperymentu musieli spełniać założone parametry i znajdować się w podobnych warunkach);
  • badany parametr musi być rzetelny, stały i niepodlegający nagłym zmianom.

Sposoby ustalenia ważności

Sprawdzanie ważności testów można przeprowadzić na kilka sposobów.

Ocena wiarygodności twarzy polega na sprawdzeniu, czy test jest adekwatny do zamierzonego celu.

Trafność konstrukcji ocenia się, przeprowadzając serię eksperymentów w celu zbadania konkretnego złożonego środka. Obejmuje:

  • walidacja zbieżna – sprawdzanie związku ocen uzyskanych różnymi złożonymi technikami;
  • walidacja rozbieżna, która polega na zapewnieniu, że metodologia nie implikuje oceny wskaźników zewnętrznych, niezwiązanych z badaniem głównym.

Ocena trafności predykcyjnej polega na ustaleniu możliwości przewidzenia przyszłych wahań badanego wskaźnika.

wnioski

Trafność i rzetelność testów to uzupełniające się wskaźniki, które pozwalają na najpełniejszą ocenę rzetelności i istotności wyników badań. Często są one ustalane jednocześnie.

Rzetelność pokazuje, jak bardzo można ufać wynikom testu. Oznacza to ich stałość przy każdym powtórzeniu podobnego testu z tymi samymi uczestnikami. Niski stopień niezawodności może wskazywać na celowe zniekształcenia lub nieodpowiedzialne podejście.

Pojęcie trafności testu wiąże się z jakościową stroną eksperymentu. Mówimy o tym, czy wybrane narzędzie odpowiada ocenie konkretnego zjawiska psychologicznego. Można tu zastosować zarówno wskaźniki jakościowe (ocena teoretyczna), jak i wskaźniki ilościowe (obliczenie odpowiednich współczynników).

Wyświetlenia