Diagnostik (Fach) / Testen und Entscheiden (Lektion)

In dieser Lektion befinden sich 41 Karteikarten

Grundlagen der Mess- und Testtheorie

Diese Lektion wurde von pohlanni erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • Testtheorie Die Testtheorie ist eine Theorie über "psychologische Tests", die psychische Eigenschaften, Fähigkeiten oder Zustände von Personen (=psychologische Konstrukte) erfasst. Sie zieht statistische Schlüsse aufgrund der Stichprobenerhebungen.  Theorien sollen vorallem erklären und nicht beschreiben. So werden wichtige Zusammenhönge zwischen den Reaktionen der Personen auf Aufgaben durch latente Personenvariablen erklärt. Die Aufgaben stellen die manifesten (beobachtbaren) Variablen dar. Die Itemantworten hängen systematisch zusammen (Korrelationen). Die latenten Variablen sollen diese Zusammenhänge zwischen den Items und das Zustandekommen der Antworten erklären. 
  • Lokale Stochastische Unabhängigkeit Hält man die zu messende Eigenschaft oder Fähigkeit auf einer Stufe der latenten Variable konstant, weisen die Items unterinander keinen Zusammenhang mehr auf z.B. Betrachtung von Personen mit gleichem IQ von 100 
  • Ziel psychometrischer Tests Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbare Persönlichkeitsmerkamle mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. 
  • Aspekte zur Erkennung eines psychometrischen Tests Es gibt 4 Aspekte, die es möglich machen einen psychometrischen Test zu erkennen:  Normierung: Leistungsvergleich mit anderen Personen möglich  Objektivität: Leistungsbeurteilung unabhängig vom Testleiter/ standardisierte Auswertung und Interpretation  Strukturiertheit: eindeutige/klare Aufgabenstellungen (Itemstrukturiertheit), vorgegebene Antwortmöglichkeiten (Antwortstrukturiertheit) Zulänglichkeit: Grad an "Gemeinsamkeit" zwischen Test und bestimmten Außenkriterien (s. Validität) 
  • Klassische Testtheorie Die klassische Testtheorie beachtet, dass Testergebnisse einzelner Personen mit dem gleichen Test zwischen verschiedenen Messzeitpunkten variieren.  Gründe:  Aufbautraining (Übungs- & Trainingseffekte)  äußere Einflüsse (Regen, Wind)  unsystematische innere Einflüsse (Motivation) Daher ist keine Aussage darüber möglich, wie Items beantwortet werden oder wie die Leistung zustande kommt. Somit ist die klassische Testtheorie eine reine Messfehletheorie. 
  • Reliabilität DIe Reliabilität bezeichnet die Messgenauigkeit eines Tests. = Grad der Genauigkeit, mit dem ein Test ein Merkmal misst (unabhängig ob er das will)  Ein Test ist messgenau, wenn der Testwert von Personen bei wiederholter Messung immer gleich ist und die Rangreihe der Personen immer gleich ausfällt.  Es gibt drei Arten der Reliabilität:  innere Konsistenz/Halbierungsreliabilität  Retest-Reliabilität  Paralleltestreliabilität 
  • In der Praxis sind wiederholte Messungen (Reliabilität) nicht immer realisierbar. Aus diesem Grund werden neben der Testwiederholung noch andere Methoden eingesetzt, um die Reliabilität zu schätzen: Zusammenhang zwischen Items, die das gleiche Konstrukt messen sollen wird ermittelt zwei Tests mit unterschiedlichen Items, die das gleiche Konstrukt messen, werden in Zusammenhang zueinander gesetzt  ein einzelner Test kann in zwei Hälften aufgeteilt und der Zusammenhang zwischen beiden Hälften bestimmt werden ein Test wird mit einem gewissen Abstand zweimal vorgegeben und der Zusammenhang zwischen erster und zweiter Messung ermittelt 
  • Haupt- und Nebengütekriterien in der Testtheorie Hauptgütekriterien:  Objektivität Reliabilität  Validität Nebengütekriterien:  Normierung Vergleichbarkeit Ökonomie Nützlichkeit 
  • Objektivität Die Objektivität ist der Grad, indem Auswertung, Ergebnisse und Interpretation eines Tests unabhängig vom Untersucher sind.  Man unterscheidet in: Durchführungs-, Auswertungs- und Interpretationsobjektivität
  • 3 Arten der Reliabilität innere Konsistenz/Halbierungsreliabilität: Maß dafür, wie die Items einer Skala miteinander zusammenhängen Retest-Reliabilität: Korrelation zw. Testleistungen zweier verschiedener Messzeitpunkte  Paralleltest-Reliabilität: Korrelation zwischen zwei Tests mit parallen Items (messen das gleiche Merkmal) 
  • Validität Validität ist das Ausmaß, in dem ein Test misst, was er zu messen beansprucht. Es gibt 3 Arten der Validität: Inhaltsvalidität Kriteriumsvalidität  Konstruktvalidität 
  • 3 Arten der Validität Inhaltsvalidität: Verfahren zur Messung eines bestimmten Konstrukts oder Merkmals die bestmögliche Operationalisierung dieses Konstrukts ist (erfasst er das zu messende Merkmal wirklich) = beruht auf fachlichen/logischen Überlegungen Kriteriumsvalidität: Zusammenhang der Testleistung mit Außenkriterien, Unterhscheidung in: Vorhersage-, Übereinstimmungs-, retrospektive und inkrementelle Validität  Konstruktvalidität: a priori Formulierungen konkreter Erwartunge über Zusammenhänge zwischen Test und konstruktverwandeten (konvergenten) und konstruktfremden (diskriminanten) Tests 
  • Normierung Die Normierung macht Angaben zur Einordnung des individuellen Testergebnsses (=Vergleichbarmachung).  Das Ergebnis lässt sich dann einordnen als unter-/überdurschschnittlich im Vergleich zu anderen Personen.  Unter der Vergleichbarkeit versteht man , dass eine oder mehrere Parallelformen der Test mit gleichen Gültigkeitsbereichen vorliegen. 
  • Ökonomie Dieses Kriterium bezieht sich auf Kosten und Dauer der Datenerhebung. Im Optimalfall sollte ein Test einen hohen Erkenntnisgewinn mit geringen finanziellen und zeitlichen Ressourcen erzielen. kurze Durchführungszeiten  wenig Material  einfache Handhabung  schnelle/bequeme Auswertung 
  • Nützlichkeit Die Nützlichkeit eines Tests wird von vielen Forschern als wichtigstes Gütekriterium betrachtet. Es betrifft die praktische Relevanz des gemessenen Merkmals. Auf Basis des Tests sollte die Beantwortung der untersuchten Fragestellung ermöglicht werden. Zudem sollten die Entscheidungen, die aufgrund der Testergebnisse getroffen werden, mehr Nutzen als Schaden hervorbringen
  • Rasch-Modell Das Rasch-Modell ist eine Methode der probabilistischen Testtheorie, die bestimmte Nachteile der klassischen Testtheorie überwinden will. Es nimmt ein zugrundeliegendes Persönlichkeitsmerkmal („Latent Trait“) an, von dessen Ausprägung das manifeste Lösungsverhalten in probabilistischer Weise abhängt.  Der Gegestand der Untersuchungen sind dichotome Items (Antworten haben Wert 0 oder 1). Die Fähigkeitsausprägung (Theta) und die Schwierigkeit des Items (Sigma) bestimmten, ob ein Proband ein Item löst oder nicht.  p+ = exp (θ - σ) / 1+exp (θ - σ) Gilt das Modell, ist der Summenwert die erschöpfende Statistik für die Person. Der Summenwert einer Person liefert also alle Informationen über die Fähigkeitsausprägung. Das Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung bei diesem Item konokett auf die Fähigkeitsausprägung der latenten Variablen zurückzuführen ist. 
  • Vorgehensweise im dichotomen Rasch-Modell Zählen der Treffer für jeden Probanden über alle Items  Zählen der Treffer für jedes Item über alle Personen  Items, die von allen/keinem Probanden gelöst wurden, eliminieren  Personen, die alle/kein Item gelöst haben, nicht berücksichtigen  Berechnung der Itemschweirigkeit/des Itemparamters: Bildung des Quotienten aus Anteil nicht oder falsch beantworteter Items (1-p+) zum Anteil richtig beantworteter Items (p+) für jedes Item über alle Personen  Bestimmung des Personenparamters: Bildung des Quotienten aus Anteil richtig gelöster Items (p+) zu nicht oder falsch gelösten Items (1-p+) = "Wettquotient" (Wahrscheinlichkeit, mit der eine Person gegen ein Item gewinnt) Je weiter die Personenfähigkeit die Itemschwierigkeit übersteigt, desto höher ist die Wahrscheinlichkeit, dass die Person das Item löst. 
  • Berechnung der Itemschwierigkeit/Itemparamter Bildung des Quotienten aus Anteil nicht oder falsch beantworteter Items (1-p+) zum Anteil richtig beantworteter Items (p+) für jedes Item über alle Personen
  • Bestimmung des Personenparameters Bildung des Quotienten aus Anteil richtig gelöster Items (p+) zu nicht oder falsch gelösten Items (1-p+) = "Wettquotient" (Wahrscheinlichkeit, mit der eine Person gegen ein Item gewinnt)
  • Nachteile probabilistischer Testtheorie schwierige Generierung modellkonformer Items unzureichende Defition des Konstrukts hat Folgeprobleme Unklarheit über Reliabilität und Validität eines probabilistischen Tests  keine Berechnung der Personenparamter für einzelne Personen (Nur Schätzung) wünschenswert wäre eine große Stichprobe (macht aber Ablehnung des Modells wahrscheinlicher durch Anstieg der Teststärke) 
  • Stufen der Testentwicklung Anforderungsanalyse und Problemstellung  Planung und Literatursuche Eingrenzung des Markmals und Arbeitsdefinition Testentwurf  Überprüfung des Testentwurfs Verteilungsanalyse  Itemanalyse und Itemselektion  Kriterienkontrolle Revision des Tests Eichung/Cut-Off-Werte 
  • Gebundene Aufgabenbeantwortung Bei der gebundenen Aufgabenbeantwortung werden festgelegte Antwortkategorien vorgegeben. Es gibt kein Freiraum für eigene Antworten.  mehrstufige Ratinskala  richtig-falsch-Aufgaben  Mehrfach-Wahlaufgaben Zuordnungsaufgaben  Umordnungsaufgaben 
  • Probleme gebundener Aufgabenformate schwierige Anwednung für manche Konstrukte absichtliche Fälschungen (Simulation/Dissimulation) möglich  Raten Antworttendenzen  soziale Erwünschtheit Motivationsprobleme  Reihenfolgeeffekte 
  • Freie Aufgabenbeantwortung Für die Aufgabenbeantwortung werden keine festen Kategorien vorgegeben, sie sit frei oder teilstrukturiert Ergänzungsaufgabe Kurzaufstz 
  • Skalenniveau-Arten Nominalskalenniveau: lediglich Zuordnung in "wertfreie" Kategorien (Ja/Nein), nur Aussagen über Gleichheit/Ungleichheit möglich  Ordinalskalenniveau: Daten lassen vergleichende Aussagen zu (größer/kleiner, besser/schlechter) Intervallskalenniveau: Daten, die Differenzbildung, Relationen & Aussagen über Unterschiede zu lassen 
  • Itemrohwert Der Probandenrohwert ist der Wert eines Probanden bei der Beantwortung eines einzelnen Items. Den über alle Probanden summierten oder gemittelten Probandenrohwert nennt man Itemrohwert.  
  • Trennschärfe Eine Trennschärfe stellt die korrigierte Korrelationen  (Part-Whole-Korrektur) einer Aufgabe mit einer Skala dar. Inhaltlich drückt eine Trennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, wiederspiegelt.  Eigentrennschärfe: Korrelation Item mit Skala, Skala und Item messen das gleiche Kriterium  Fremdtrennschärfe: Korrelation Item mit Skalen oder Testwerden anderer Fragebögen/Kriterien 
  • Boden- & Deckeneffekte Reichen die Itemschwierigkeiten bei intervallskalierten Items an den Rand der Antwortskala, spricht man von Boden- oder Deckeneffekten. Beide Effekte haben zur Folge, dass zwischen Individuen mit verschiedenen Merkmalsausprägungen nicht mehr ausreichend differenziert werden kann. 
  • Wie normiert man einen Test? zunächst liegen die Ergebnisse eines Tests als Rohwerte vor  liegt eine Normalverteilung vor, können die Rohwerte in z-Werte umgerechnet (standardisiert) werden die z-Werte können wiederrum mittels einer lienaren Transformation in verschiedene andere Normskalen (z.B. IQ Wert) transformiert werden sind die Rohwerte nicht normalverteilt, können sie mit Hilfe einer so genannten Flächentransformation normalisiert, d.h. in eine Normalverteilung überführt werden  T- & SW-Werte werden häufig für die Normierung von Leistungstests genommen  Stanine-Werte für Persönlichkeitstests (Reduzierung der C-Skala auf 9 Werte)  Prozentränge eignen sich im Gegensatz zu den anderen Normen auch zur Beschreibung schief verteilter Testwerte, sie stellen keine lineare Transdormation der Itemrohwerte dar 
  • Wie normiert man einen Test? zunächst liegen die Ergebnisse eines Tests als Rohwerte vor  liegt eine Normalverteilung vor, können die Rohwerte in z-Werte umgerechnet (standardisiert) werden die z-Werte können wiederrum mittels einer lienaren Transformation in verschiedene andere Normskalen (z.B. IQ Wert) transformiert werden sind die Rohwerte nicht normalverteilt, können sie mit Hilfe einer so genannten Flächentransformation normalisiert, d.h. in eine Normalverteilung überführt werden  T- & SW-Werte werden häufig für die Normierung von Leistungstests genommen  Stanine-Werte für Persönlichkeitstests (Reduzierung der C-Skala auf 9 Werte)  Prozentränge eignen sich im Gegensatz zu den anderen Normen auch zur Beschreibung schief verteilter Testwerte, sie stellen keine lineare Transdormation der Itemrohwerte dar 
  • Wann gebe ich welche Norm an? Bei nicht-normalverteilten Kennwerten einer Stichprobe sollten nur Prozentränge und Stanine-Werte angegeben werden.  Ist der Testkennwert normalverteilt, ist es sinnvoll, die verwendete Norm dem Differenzierungsgrad des Tests anzupassen. 
  • Stichproben-Arten Zufallsstichprobe: Jedes Element kann mit gleicher Wahrscheinlichkeit aus der Grundgesamtheit gewählt werden Klumpenstichprobe: besteht aus Probanden einer zufällig ausgewählten vorgruppierten Teilmenge einer Grundgesamtheit  Ad-Hoc-Stichprobe: besteht aus Probanden einer bestimmten, ungruppierten Teilmenge einer Grundgesamtheit 
  • Arten der Äquivalenzen der Messungen streng parallel  im Wesentlichen parallel  tau-äquivalent im Wesentlichen tau-äquivalent  kongenerisch 
  • Testhalbierungs-Reliabilität: Aufteilungstechniken der Items in zwei Testhälften Odd-Even  zufällige Aufteilung  Itemzwillinge  Aufteilung der Aufgaben nach Testzeit 
  • Formeln zur Berechnung von Testhalbierungskoeffizienten Spearman-Brown-Formel  Formel von Kristof  Flanagan & Guttman Formel von Feldt 
  • Formeln zur Berechnung von Konsistenzkoeffizienten Cronbach-Alpha-Koeffizient Guttmans Lambda 
  • Faktoren, die die Reliabilität verbessern Homogenität & Heterogenität der Testitems Streuung der Testkennwerte  Unterschiedliche Arten von Messfehlern 
  • Response-Shift = die Veränderung des Bewertungshintergrundes für ein persönlich bedeutsames Konzept  Response-Shift tritt vor allem dann auf, wenn sich Menschen mit bedrohlichen oder kritischen Lebensereignissen auseinander setzen.  Einfluss auf Response-Shift: Persönlichkeitsmerkmale & Bewältigungsstrategien  3 Arten: Rekalibrierung, Reprioritisierung, Rekonzeptualisierung 
  • Rekalibrierung (Recalibration) Stellt eine Veränderung der internen subjektiven Metrik zur Beurteilung eines Konstrukts beziehungsweise von dessen Komponenten dar. Messer mit dem "Then-Test". 
  • Reprioritisation (Reprioritization) Reprioritization bedeutet eine quantitative Änderung der Relevanz einzelner Komponenten für ein Konstruk. Erfassbar ist sie mit Faktorenanalysen oder Strukturgleichungsmodellen. 
  • Rekonzeptualisierung (Reconeptualisation) Die Rekonzeptualisierung umfasst die qualitative Neudefinition eines Konstrukts. Erfassbar ist die mit Interviews oder individualisierten Messinstrumenten. "Was ist für ihre Lebensqualität wichtig?"