psychologische diagnostik (Subject) / Reliabilität, Klassische Testtheorie, Konstruktionsschritte eines Tests (Lesson)

There are 27 cards in this lesson

Reliabilität, Klassische Testtheorie, Konstruktionsschritte eines Tests

This lesson was created by ladodo.

Learn lesson

  • Was versteht man unter Reliabilität? Genauigkeit, mit der ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst = Zuverlässigkeit, Genauigkeit  
  • Was bedeutet Reliabilität in der KLassischen Testtheorie? Verhältnis der "wahren Varianz" zur Gesamtvarianz der Testwerte
  • Nenne die drei Axiome der Klassischen Testtheorie! Existenzaxiom:  Zu jedem beobachtbaren Testwert X existiert ein wahrer Wert T, dessen Merkmalsausprägung über die Zeit konstant ist Fehleraxiom:  Erwartungswert des Messfehler ist null;   Messfehler und wahrer Wert sind nicht korreliert;              Messfehler verschiedener Tests sind nicht korreliert Verknüpfungsaxiom: Der beobachtete Wert X setzt sich additiv aus wahrem Wert und Fehlerwert zusammen X = T + E  
  • Wie heißt die Klassische Testtheorie noch und wann gilt sie? KTT = Messfehlermodell gilt nur für quantitative Personenvariablen
  • Wie lässt sich der Standardmessfehler eines diagnostischen Verfahrens ermitteln? Was kann man mit diesem ermitteln? durch die Bestimmung von Reliabilitätskoeffizienten! man kann damit angeben, in welchem Bereich der wahre Wert eines PB bei vorgegebener Irrtumswahrscheinlichkeit liegt mit Standardmessfehler lässt sich das Vertrauensintervall abschätzen, innerhalb dessen mit einer bestimmten Irrtumswahrscheinlichkeit (1%, 5%,10%) der wahre Testwert eines Pb liegt  
  • Welche Messgenauigkeiten sind zu untesrscheiden? Wiederholungsmessgenauigkeit --> zeitliche Stabilität Paralleltest-Reliabilität --> Gleichwertigkeit von 2 Paralleltests Split-half- Reliabilität --> Gleichwertigkeit von 2 Testhälften Konsistenzanalyse --> Homogenität der Testitems
  • Wie kann man Wiederholungsreliabilität messen und welche Einflüsse wirken darauf? Messung an einer Stichprobe wiederholen und prüfen, wie der Zusammenhang zur ersten Messung ist -->Korrelation der Messwerte der ersten und zweiten Testreihe --> Rangreihe gleich -> zeitlich stabil! Einflüsse: Übung Erinnerung beeinflussen und stabilisieren durch Gedächtniseffekte wird ein Teil der zufälligen Varianz in systematische umgewandetlt Zeit zwischen den Testungen gleiche Itemstichprobe  
  • Wie kann man Paralleltestreliabilität messen? was ist ein paralleler Test? - Konstruktion von mehreren gleichwertigen (parallelen) Tests  beide Verfahren an allen Pbn durchführen, dann Messwerte korrelieren --> man erhält den Äquivalenzkoeffizienten als Reliabilitätskoeffizienten paralleler Test:  alle Items aus Itemuniversum. Zufällige Stichproben daraus gezogen. -> bei unterschiedlichen Item Auswahlen wird die Tau-Äquivalenz unterstellt (Items sollen alle gleichermaßen gut die Zieldimension messen und sich höchstens bei Messfehlern unterscheiden)
  • Wann betrachtet Votaw zwei Tests als vollkommen parallel? nach Mittelwert , Varianz und Iteminterkorrelation gleich. evtl. auch gleiche Homogenität und Verfahren mit gleichem Validitätsanspruch
  • Welche verschiedenen Ergebnisse gibt es bezüglich der Gleichheit /Äquivalenz von Tests? in wenn eine Variable durch vier Indikatoren gemessen wird , die nicht mit der Variable identisch sind, wirken sich auf die Variable weitere Störgrößen aus. Folgende Annahmen können getroffen werden: streng parallel essenziell parallel tau-äquivalente Messung essenziell tau-äquivalente Messung tau-kongenerisch
  • Was bedeutet "streng parallel"? bei parallenen Messungen sind für alle Personen die wahren Werte und Messfehler in beiden Messungen identisch Mittelwerte und Varianzen beider Messungen sind identisch Reliabilität und Validität für beide gleich Die Variable wirkt auf alle Items gleich stark und die Störgrößen wirken gleich stark auf die Items --> "parallele Items"
  • Was heißt "essenziell parallel"? der wahre Wert in einem Test ist um eine additive Konstante verschoben kann mittels konfirmatorischer Faktorenanalyse geprüft werden --> alle Faktorladungen und alle Fehlervarianzen müssen gleich groß sein
  • Was ist eine tau-äquivalente Messung? für jede Person ist der wahre Wert beider Messungen gleich aber: beide Messungen unterschiedlich messgenau --> Störgrößen wirken auf jedes Item anders Mittelwerte sind gleich Reliabilität, Validität können verschieden sein --> die minderungskorrigierten Korrelationen für beide Messungen sollten gleich sein
  • was heißt "essenziell tau-äquivalente Messung"? der wahre Wert einer Person ist zwischen den beiden Messungen jeweils um eine Konstante verschoben wahre Werte der Messungen sind ungleich, aber systematischer Zusammenhang beide Messungen Messungen um die Konstante verschoben
  • was heißt "tau kongenerisch"? Die beiden Messungen weisen unterschiedliche Maßeinheiten, Mittelwerte und Fehlervarianzen auf, d.h. die Variable wirkt sich unterschiedlich auf die Items aus und auch die Störgrößen wirken sich unterschiedlich aus Jedoch sind die wahren Werte perfekt korreliert --> Messungen bilden abgesehen von der additiven Konstanten und einer um die multiplikative Konstante β verschobenen Maßeinheit das selbe Merkmal ab
  • Wie ermittelt man die Split-Half-Reliabilität? ein Testdurchgang an einer Pbn-Stichprobe, wobei die Testergebnisse im Nachhinein in zwei Hälften geteilt werden. Korrelation der Rohwerte der Testhälften bei Power/Niveau Tests (z.b. IQ Test): Teilung nach gerad und ungeradzahlig (odd-even Methode) bei speed tests: Teilung nach der Testzeit , dann miteinander korrelieren
  • Welches Problem entsteht bei der Testhalbierungsmethode und wie lässt es sich beheben? vorhandene Messgenauigkeit wird unterschätzt, da Messgenauigkeit eine Funktion der Testlänge ist Spearman-Brown-Formel  um die Messgenauigkeit für die volle Testlänge zu ermitteln
  • Was ist der Konsistenz bzw. Homogenitätskoeffizient? bündelt alle Itemvarianzen und ist sinnvoll wenn alle Items dieselbe faktorielle Struktur aufweisen (d.h. gleiche Fähigkeit messen) z.B: Cronbachs α ( Maß der inneren Konsistenz eines Tests) je größer alpha, desto höher die Korrelation zwischen verschiedenen Items aber: methodsche Aspekte beeinflussen den Koeffizienten wenig Items = kleines alpha weit gefächerter Antwordmodus = höheres alpha gleiches Antwortschema bei verschiedenen Items = hohes alpha    Kuder Richardson Koeffizienten KR 8 (berücksichtigt unterschiedliche Trennschärfen) und KR 20 (anwendbar unter Annahme gleicher Iteminterkorrelationen)  
  • Wie hoch soll die Reliabilität von einem Test sein? Hofstätter: > .85 Meili : >.94 Lienert: internere Konsistenz Reliabilität >.90 Retest-/paralleltest Reliabilität: >.80 Reliabilität für Gruppenunterschiede: > .50
  • Wozu dient die Profilreliabilität? um zu prüfen, ob die Subskalen eines Verfahrens getrennt interpretiert werden dürfen
  • Welche Möglichkeiten zur Reliabilitätsverbesserung gibt es? Maßnahmen zur Verbesserung der Objektivität - Anweisungen verbessern - Auswertungsmodalitäten optimieren Homogenisierung der Itemschwierigkeiten
  • Welche Schritte gibt es bei einer Aufgaben - und Testkonstruktion? Itemgenerierung Berechnung von Itemkennwerten Schwierigkeit Distraktorenanalyse Trennschärfen Differentielle Trennschärfen Empirische IC-Kurven Berechnung von Testkennwerten Reliabilität Verteilungskennwerte (aM, s, Schiefe, Exzess) Faktorenanalyse
  • Wie sollte die Aufgabenschwierigkeit sein? zwischen .20 und .80 streuen -> Test maximal diskriminiert zum Einstieg leichte Items p= .05 bei Powertests nach ansteigendem Schwierigkeitsgrad angeordnet (erhält Testmotivation, vermeidet Frustration) Aufgaben sollte sich dort häufen, wo eine maximale Differenzierung angestrebt wird
  • Was ist bei der Distraktorenanalyse zu beachten? Distraktor: z.B. falsche Antwortmöglichkeit bei Multiple Choice guter Distraktor für jmd. der das zu prüfende Wissen nicht hat, erweckt den Anschein richtig zu sein. Analyse der Wahlhäufigkeit: 10%,15% geeigneter Distraktor 25% zu häufig-> vielleicht fehlleitende Instruktion  
  • Was bedeutet der Trennschärfeindex? Wie hängt er mit der Aufgabenschwierigkeit zusammen? Der Trennschärfeindex einer Aufgabe ist die punktbiseriale Korrelation zwischen Aufgabenwert und Gesamttestwert. --> negative Trennschärfe: Item eher von Pbn mit niedriger Punktzahl gelöst Schwierigkeit und Trennschärfe sind voneinanderin parabolischer Weise abhängig (umgekehrt u-förmig!) wenn alle items hoch miteinander korrelieren -> Trennschärfe = 0
  • Wie lässt sich bei der Itemselektion Trennschärfe und Schwierigkeit gleichzeitig berücksichtigen? durch den Selektionskennwert hoher Selektionskennwert bleibt dabei Ziel: Items mit niedriger Trennschärfe raus, auch wenn mittlerer Schwierigkeit Items mit hoher Trennschärfe drin, auch extreme Schwierigkeiten
  • Was sind die Schwächen der Klassischen Testtheorie? Axiome sind empirisch nicht überprüfbar das postulierte Skalenniveau (Intervallskala) ist fragwürdig Die KTT-basiert berechnenbaren Item-, Test- und Personenstatistiken sind stichprobenabhängig die Annahme der Gleichheit des messfehlers über alle Merkmalsausprägungen ist empirisch nicht begründet die Reliabilität ist abhängig von der Testlänge die Annahme der intraindividuellen Invarianz der wahren Werte ist nur bedingt vertretbar die normbezogene Interpretation der Testwerte ist inhaltnicht wenig aussagekräftig