Grundlagen der Diagnostik II (Subject) / Gütekriterien (Lesson)

There are 44 cards in this lesson

Haupt- und Nebengütekriterien

This lesson was created by WhiteHeart.

Learn lesson

  • Hauptgütekriterien Objektivität (Unabhängigkeit) Reliabilität (Zuverlässigkeit) Validität (Gültigkeit)
  • Nebengütekriterien Normierung Vergleichbarkeit Ökonomie Zumutbarkeit Nützlichkeit nicht verfälschbarkeit Fairness Skalierung
  • Arten von Objektivität Durchführungsobjektivität (Testleiterunabhängigkeit) Auswertungsobjektivität (Verrechnungssicherheit) Interpretationsobjektivität (Interpretationseindeutigkeit)
  • maximale Durchführungsobjektivität Instruktion schriftlich und so genau wie möglich festlegen Untersuchungssituation so weit wie möglich standardisiert (soziale Interaktion auf ein Minimum reduzieren)
  • Testmanual Testmaterial Zeitbegrenzungen Instruktion ob und wie etwaige Fragen der Testperson zum Test behandelt werden soll
  • besonders durchführungsobjektiv sind ... Gruppentests (es kann nicht auf das Individuum eingegangen werden) PC-gestützte Tests Leistungstests (vs. projektive Tests)
  • Maßnahmen zur Erhöhung der Durchführungsobjektivität (Westhoff & Kluck) erklären der Ziele und des Ablaufs der Untersuchungen Offenheit (Grundlage für Vertrauen) unzutreffende Erwartungen korrigieren Schulung der Testleiter
  • Auswertungsobjektivität = numerische oder kategoriale Auswertung des registrierten Testverhaltens nach vorgegebenen Regeln hoch: Multiple Choice (Schlüsselrichtung festgelegt) geringer: offenes Antwortformat (detaillierte auswerteregeln müssen vorliegen) hoch: psychometrische Verfahren messbar durch Interrater-Reliabilität (Grad der Übereinstimmung der Beobachter)
  • Interrater-Reliabilität wird ermittelt durch... Nominalskalenniveau: Kappa-Kennzahlen (zwischen 0 und 1) Kendalls Konkordanzkoeffizient W. (zwischen 0 und 1) höhere Skalenniveaus (zwei Rater): Pearsonscher Maßkorrelationskoeffizient rangkorrelationskoeffizient nach Spearman Kendalls T
  • Reliabilität = Grad der Genauigkeit, mit dem ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (d.h. reliabel, wenn der Test ohne Messfehler misst) Stabilitätskonzept (Retestreliabilität) Paralleltestmethode ("item-sampling-concept") Homogenitätskonzept (interne Konsistenz) Varianz wahre Werte/ Varianz beobachtete Werte nur eine Schätzung ist möglich Voraussetzung: Äquivalenz (Gleichwertigkeit) von Messungen (Messunterschiede gehen auf den Test selbst zurück)
  • Retestreliabilität ein und dasselbe Verfahren zu zwei unterschiedlichen Zeitpunkten Korrelation zwischen beiden Testergebnissen (Reliabilitäts- oder Stabilitätskoeffizient) Länge des Zeitraums ist entscheidend (lang: niedrige Korrelation [Messobjektänderungen]; kurz: hohe Korrelation [Übungseffekte]) Speedtest: kurze Intervalle möglich Powertest: längeres Intervall
  • Frage nach der Dauer des Intervalls wird entschieden durch... Vergleich der Reliabilität verschiedener Retest-Intervalle faktorenanalytische Überprüfung der Itemstruktur der Testskala bei erster und zweiter Messung
  • absolute und relative Stabilität absolute Stabilität: identische Rangreihen in beiden Messungen und identischen Mittelwert des Merkmals bei beiden Messungen relative Stabilität: gibt an, ob bei einer Messwiederholung die untersuchten Personen dieselbe Rangreihe bezüglich des Merkmals aufweisen (sagt nihts über Verschlechterung/Verbesserung aus)
  • Paralleltestmethode = einer identischen Stichprobe von Probanden werden zwei miteinander streng  verlgeichbare äquivalente Tests mit Itemzwillingen vorgelegt, dessen Ergebnisse anschließend korreliert werden alternativ: Maximum-Likelihood-Schätzungen cross-over-Design zum vermeiden von Übungseffekten (Halbierung des Tests; Gruppe eins wird erst A dann B vorgelegt, Gruppe 2 andersherum) Problem: wirklich äquivalente Tests konstruieren parallel sind Testformen auch dann, wenn sie zu gleichen Mittelwerten und Varianzen und Interkorrelation der Items führen
  • interne Konsistenz Inter-Item-Korrelation Item-Total-Korrelation Split-Half-Reliabilität Kudar-Richardson Formeln Cronbachs Alpha
  • Testhalbierung (Split-Half) Test in zwei gleichwertige Hälften teilen (nach Bearbeitung) Testergebnis jedes Probanden für jede Hälfte gesondert ermittelt Korrelation beider Hälften unterschätzt die interne Konsistenz, da der wirkliche Test eigentlich doppelt so lang ist (Spearman-Brown-Formel: Reliabilitätshöhe in Abhängigkeit der Anzahl der verwendeten Items schätzen)
  • Konsistenzanalyse = Elemente eines Tests als multipel halbierte Testteile auffassen und Reliabilität über bestimmte Kennwerte dieser Testelemente auf direktem Weg ermitteln Homogenitätskoeffizienten bzw. Konsistenzkoeffizienten (homogene Tests) fallen immer höher aus als Koeffizienten der Retest- oder Paralleltestmethode (heterogene Tests)
  • Bewertung von Reliabilitätskoeffizienten Retest-Reliabilität (bei langem Zeitintervall gute Vorhersage möglich) Paralleltest-Reliabilität (Aufwand der Konstruktion; LPS/FPI, kein Einfluss durch Übungseffekte) Innere Konsistenz (Veränderungsfragen, kennzeichnet am besten Messgüte eines Tests)
  • Reliabilitätshöhen Leistungstests: .90 - .95 Persönlichkeitstests: .70 bei Einzelbetrachtung: keine Abstriche bei der Höhe Personengruppen: .50-.70 (Schätzung der Gruppenmittelwerte nicht betroffen) unter .50 nur zur Auslese von Extremfällen
  • Einsatzbedingungen von Testverfahren wenige Bewerber geeignet: messgenaue Verfahren; mehrere: ökonomischere ungenauere Tests erlaubt (Taylor-Russell-Tafeln) Screening-Tests: schnell und ökonomisch eine grobe Einschätzung liefern (mit geringerer Itemzahl nimmt Reliabilität ab vs. Demotivation bei längeren Tests durch wiederholte Items) adaptive Tests (Problem: Kosten) Testbatterien: auch unter .50 noch gültig
  • Arten von Validität Inhaltsvalidität Konstruktvalidität Kriteriumsvalidität
  • Inhaltsvalidität logische Validität, Augenscheinvalidität = Elemente des Tests repräsentieren das Persönlichkeitsmerkmal (Test selbst als das optimale Kriterium für das Merkmal) repräsentative Validität (z.B. Auswahl Inhalte des Unterrichts) vs. curriculare Validität (nicht im vollen Umfang inhaltsvalide) durch ein Rating von Experten aufgestellt (Ü-Koeffizient von Fricke)
  • Konstruktvalidität anhand von Erwägungen und empir. Untersuchungen entschieden zielt direkt ab auf die psychologische Analyse der einem Test zugrunde liegenden Eigenschaften z.B. Phobie-Test deduktiv gewonnenen Annahmen einer Theorie werden empirisch durch Testdaten überprüft Problem: nur wenige Theorien liefern überprüfbare Ableitungen keine Maßzahl für Entwicklungsstand
  • Kriteriumsvalidität = Korrelation mit einem Außenkriterium Formen der Kriteriumsvalidität: Konvergente Validität (hohe Korrelation alten mit einem neuen Tests) Diskriminante Validität (niedrige Korrelation mit anderen ähnlichen Tests) Konkurrente Validität (Testwert und Kriterium gleichzeitig erhoben) Vorhersage, Prognostische und Pädiktive Validität (Prädiktoren sollen Kriterium der Zukunft vorhersagen) Retrospektive Validität (Korrelation mit vorher erhobenen Messungen)
  • Beziehung Kriteriumsvalidität zur Reliabilität Validität kann nie größer sein als die Wurzel der Reliabilität Korrelation der wahren Scores ist immer größer als die der gemessenen (diese ist attenuiert bzw. verdünnt)
  • Methoden der Validitätsbestimmung Korrelation des Tests mit mehreren Außenkriterien Korrelation des Tests mit Tests ähnlichen Validitätsanspruches (konvergente Val.) Korrelationen mit Tests, die andere Merkmale erfassen (divergente Val.) Faktorenanalyse mit Außenkriterien
  • interne & externe Validität intern: innere Stimmigkeit und Konsistenz des Erhebungsinstruments extern: Korrelation mit Außekriterium
  • inkrementelle Validität = Ausmaß, in dem die Vorhersage eines externen Kriteriums verbessert werden kann, wenn zusätzliche Testaufgaben oder Subtests zu den bereits eingesetzten Verfahren hinzugenommen werden
  • ökologische Validität = Generalisierbarkeit von Untersuchungsergebnissen (auf ähnliche Settings/Umwelten)  
  • Validitätsgrenzen r=.70 und größer (statistisch) .60 in der Praxis Individuell: .70 und größer Testbatterien: .50 und kleiner Faustregel: ein Test muss in dem Umfang valide sein, dass durch seine Anwendung bessere Voraussage möglich ist als durch seine Unterlassung
  • Taylor-Russell-Tafeln Wert oder Nutzen eines Auswahlverfahrens hängt ab von Basisrate, Selektionsrate und Validitätskoeffizienten des Auswahlverfahrens Basisrate = Anteil geeigneten Bewerber an allen Bewerbern Selektionsrate = Anteil der zu selektierenden Bewerber von allen (oder offenen Stellen) Trefferquote = Anteil aller geeigneten Bewerber an allen ausgewählten Bewerbern Tafeln listen in präzisen Zahlenkolonnen Trefferquoten, sortiert nach Basisrate, Selektionsrate und Validität Trefferquote ist umso höher, je höher Basisrate und Validität sind, aber je niedriger Selektionsrate ist. nur Schätzung der Trefferquote! weniger Nutzenzuwachs durch das Auswahlverfahren bei Stellen mit hoher Basisrate auch Auswahlverfahren mit niedrigen Val.koeff. können den Prozentsatz an erfolgreichen unter den Ausgewählten erheblich erhöhen, falls Selektionsrate klein ist
  • Festlegung einer Eichstichprobe reine Zufallsstichprobe (Randomverfahren) Grundgesamtheit muss endlich und lückenlos bekannt sein Auswahl der elemente erfolgt nach Lotterieverfahren gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen Klumpenstichprobe Grundgesamtheit ist schon in mehrere Gruppen (Klumpen; Cluster) unterteilt Als Stichprobe dient einer der Klumpen Übertragung der Ergebnisse auf die anderen Gruppen oftmals nicht repräsentativ ökonomische Durchführung  
  • Ad-hoc-Stichprobe = Auswahlwahrscheinlichkeiten bezüglich der Grundgesamtheit sind unbekannt und unkontrolliert bei verzerrter Auswahl wiederholt sich der Fehler (hinsichtlich Stichprobengröße) keine anfallende Stichprobe (Probanden, die zu einem bestimmten Zeitpunkt an einem Ort sind; keine Repräsentativität)
  • Information zur Normierung im Testmanual Erstellungsdatum Größe der Normstichprobe Zusammensetzung und Erhebungsart Geltungsbereich der Normwerte
  • Vergleichbarkeit vergleichbar, wenn eine oder mehrere Paralleltestformen vorhanden sind bzw. wenn validitätsähnliche Tests vorhanden sind
  • Ökonomie kurze Durchführungszeit wenig Material nötig einfach zu handhaben als Gruppentest durchführbar schnell und bequem auswertbar durch zwei Faktoren beeinflussbar: finanzieller und zeitlicher Aufwand Validität eines Tests soll zu seiner Ökonomie umgekehrt proportional sein
  • Nützlichkeit = wenn der Test ein Persönlichkeitsmerkmal oder eine Verhaltensweise misst oder vorhersagt, für dessen Untersuchung ein praktisches Bedürfnis besteht hohe Nützlichkeit, wenn er in seiner Funktion durch einen anderen Test vertreten werden kann neu entwickelter Test sollte höhere Validität besitzen als ein bisher verwendeter Test für den gleichen Validitätsbereich (es sei denn der neue ist ökonomischer)
  • Zumutbarkeit = wenn der Test absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer und körperlicher Hinsicht nicht über Gebühr belastet
  • Unverfälschbarkeit = wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht oder nur unwesentlich steuern/verzerren kann durch hohe Augenscheinvalidität erkennt der Proband das Messprinzip und begünstigt damit die Verfälschbarkeit Persönlichkeitstests besonders anfällig für soziale Erwünschtheit
  • Fairness = wenn die Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen CFT 20 (weiterentwicklung des CFT2 von Cattell und Weiss) [Culture fair test] erfasst "general fluid ability" (g) besonders diskutiert vor dem Hintergrund von Intelligenztests
  • Skalierung = wenn laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden Relation der Leistungsfähigkeit muss sich auch in den Testwerten wiederspiegeln (leistungsfähigere Person muss besseren Testwert erhalten als weniger leistungsfähige Person) aus dem Bereich der probabilistischen Theorie Umsetzbarkeit hängt vom Skalenniveau ab
  • Scheinkorrelationen beide Variablen können von einer dritten gemeinsamen Ursache abhängen Methode der Partialkorrelation
  • Determinationskoeffizient = Anteil der Varianz einer Variablen, der durch die Varianz der anderen Variable aufgeklärt wird liefert im Gegensatz zu r intervallskalierte Werte darf als Prozentmaß interpretiert werden
  • einfache lineare Regression trifft Vorhersagen über die Ausprägung von Variablen Prädiktorvariable (unabhängige Variable) und Kriteriumswert (abhängige Variable) Voraussetzungen Kriterium muss intervallskaliert und normalverteilt sein Prädiktor entweder intervallskaliert und normalverteilt oder dichotom nominalisiert Einzelwerte versch. Versuchspersonen müssen voneinander unabhängig zustande gekommen sein Zusammenhang der Variable muss theoretisch linear sein (mutliple Regression = mehrere Prädiktoren)