Testtheorie und Testkonstruktion (Fach) / 4 Raschmodell (Lektion)

In dieser Lektion befinden sich 31 Karteikarten

Raschmodell

Diese Lektion wurde von AnnaCy erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • Grundannahmen der IRT •Die jeweils gefragte Variable, auf der jedem Testobjekt ein Wert zugeordnet ist, ist eine ‚latente Variable‘  die nicht direkt zugänglich ist,  für die Indikatoren existieren  Latente Variable als Quelle für Zusammenhänge zwischen den Items Indikator 1, 2 , 3, 4 <- Latente Variable
  • Grundannahmen der IRT Lokale stochastische Unabhängigkeit Wie könnte man prinzipiell von mehreren manifesten Variablen auf eine dahinterliegende latente Variable schließen?  1.Die Items sind „homogen“ bezüglich der latenten Variablen  2.Die manifesten Variablen sind (inhaltlich) Indikatoren der latenten Variablen.  3.Die latente Variable ist als Ursachenfaktor verantwortlich für die Korrelation der manifesten Variablen untereinander. 
  • Grundannahmen der IRT Lokale stochastische Unabhängigkeit •Das Konzept der lokalen stochastischen Unabhängigkeit in einem Latent-Trait-Modell entspricht der KTT-Annahme unkorrelierter Messfehler.  •In IRT-Modellen ist diese Annahme ein expliziter Teil des Modells, die auch empirisch geprüft werden kann  •Lokale stochastische Unabhängigkeit liegt vor, wenn bei Herauspartialisierung des Einflusses von θ aus der Korrelation zwischen den manifesten Variablen keine Korrelation mehr zwischen diesen besteht.  → Ursache der Korrelation der manifesten Variablen ist dann einzig und allein die latente Variable. 
  • Grundannahmen der IRT Lokale stochastische Unabhängigkeit Items korrelieren substantiell miteinander -> Indikator 1 2 3 4 <-> Latente Variable -> Konstanthaltung eines Wertes der latenten Variablen -> Kein Zusammenhang zwischen den Items mehr 
  • Das dichotome Raschmodell Eigenschaften einer Raschmodellkonformen Skala •Angenommen ein Itemsatz (Skala) entspräche den Annahmen des Rasch-Modells.  •Dann ergeben sich bei der Anwendung dieser Skala 4 vorteilhafte Modelleigenschaften:  Itemhomogenität  Erschöpfende Statistiken  Spezifische Objektivität  Stichprobenunabhängigkeit der Parameterschätzungen 
  • Das dichotome Raschmodell Eigenschaften einer Raschmodellkonformen Skala I. Itemhomogenität: I. Itemhomogenität:  •Es werden nur ICCs zugelassen, die sich nicht schneiden,  d.h. alle Items zeigen den gleichen Verlauf der Lösungswahrscheinlichkeiten  •Die Items unterscheiden sich lediglich darin, dass sie an unterschiedlichen Stellen des Item-Personenparameter-Kontinuums stehen.  •Dabei gilt für jedes Item: die Wahrscheinlichkeit, dieses Item zu lösen, ist für „tüchtigere“ Personen immer größer als für weniger tüchtige.  •Items, die nicht homogen sind, werden bei der Testkonstruktion eliminiert. 
  • Das dichotome Raschmodell Eigenschaften einer Raschmodellkonformen Skala II. Erschöpfende Statistiken: II. Erschöpfende Statistiken:  Wenn Items lokal stochastisch unabhängig voneinander sind,  a)dann liefert allein die Anzahl der gelösten Items eine erschöpfende Statistik für die Fähigkeit einer Person.  D.h. unabhängig welche Items bearbeitet wurden  b)dann liefern die Anzahl der Versuchspersonen eine erschöpfende Statistik für den Itemparameter.  D.h. unabhängig welche VPn das Item bearbeiten 
  • Das dichotome Raschmodell Eigenschaften einer Raschmodellkonformen Skala III. Spezifische Objektivität (Teilgruppenkonstanz) III. Spezifische Objektivität (Teilgruppenkonstanz)  •Innerhalb einer Population, für die Modellkonformität festgestellt worden ist, fallen für einen Probanden sowohl Item- als auch Personenparameter immer gleich aus, gleichgültig, welche Merkmalsausprägung der Proband hat und unabhängig von den Items, die bearbeitet worden sind  •D.h. es besteht Unabhängigkeit beim Vergleich zweier Personen von dem Instrument, anhand dessen der Vergleich vorgenommen wurde!  Diese Eigenschaft steht im Gegensatz zur KTT, wo zwei Versuchspersonen ihre Rangplätze vertauschen können, wenn man ihre Leistung nach Teilmengen der Items beurteilt. 
  • Das dichotome Raschmodell Eigenschaften einer Raschmodellkonformen Skala IV. Stichprobenunabhängigkeit der Parameterschätzungen IV. Stichprobenunabhängigkeit der Parameterschätzungen  = Separierbarkeit der Parameter  •Itemparameter können geschätzt werden, ohne die Personenparameter zu kennen und ohne Annahmen über deren Verteilung treffen zu müssen. 
  • Rasch-Skalierung Schätzung der Modellparameter - Grundidee •Die Modellgleichung des Raschmodells definiert die Wahrscheinlichkeit einer positiven Antwort Ρ(Χ𝑣𝑖=1), wenn eine Person 𝜐 mit dem Fähigkeitsparameter 𝜃𝜐 ein Item i mit dem Schwierigkeitsparameter 𝛽𝑖 bearbeitet.  •Beide Parameter werden in der Gleichung subtrahiert; d.h. es kommt darauf an, welcher Wert größer ist  𝜃𝜐 > 𝛽𝑖 Person kann mehr, als es das Item erfordert  𝜃𝜐 < 𝛽𝑖 Item erfordert mehr Fähigkeit als die Person aufweist (dann ist die Lösungswahrscheinlichkeit < 0.5  Beispiel: fähige Person 𝜃𝜐 = 2 und 𝛽𝑖 = 1  •Lösungswahrscheinlichkeit:  •ΡΧ𝜐𝑖=1 𝜃𝜐=2,𝛽𝑖=1)=exp⁡(2−1)1+exp⁡(2−1)=2.71+2.7≅0.73  •Im Anwendungsfall: Vorhersage der Fähigkeit einer Person oder der Schwierigkeit der Items  •→ Schätzen der Parameter 
  • Rasch-Skalierung Schätzung der Modellparameter - Matrix •Eintrag der Lösungswahrscheinlichkeiten  diese kommen durch den zugehörigen Personenparameter 𝜃𝜐 und Itemparameter 𝛽𝑖 zustande:  •Ziel: aus den Randsummen 𝑟𝜐 und 𝑐𝑖 die benötigten Schätzwerte für 𝜃𝜐 und 𝛽𝑖 zu gewinnen.  Es gibt verschiedene Schätzmethoden 
  • Schätzung der Modellparameter Schätzmethoden: Likelihood Beispiel: Item i und Item j  •→ 4 mögliche Antwortkombinationen für Person v  Kein Item wird gelöst {00}  Nur das zweite Item wird gelöst {01}  Nur das erste Item wird gelöst {10}  Beide Items werden gelöst {11}  •Wahrscheinlichkeit für das Eintreffen zweier Ereignisse = Einzelwahrscheinlichkeiten multiplizieren  Beispiel 1: 2 Personen bearbeiten 3 Aufgaben  •Kenntnis der Personenparameter 𝜃𝐴 = 1,5; 𝜃𝐵 = 2,5 und  Itemschwierigkeit 𝛽1 = -1,5; 𝛽2⁡= 0; 𝛽3⁡= 2  •Berechnung der Einzelwahrscheinlichkeiten: Ρ=exp[𝑥𝑣𝑖𝜃𝜐,−𝛽𝑖]1+exp⁡(𝜃𝜐,−𝛽𝑖)  •Wahrscheinlich diese Daten zu beobachten: 0,95*0,82*0,62*0,98*0,08*0,62≈ 0,0235  Beispiel: 2 Personen bearbeiten 3 Aufgaben  •Person A: 1 | 0 | 1 Person B: 1 | 1 | 1  •Personenparameter 𝜃𝐴= 1,5; 𝜃𝐵= 2,5  •Itemparameter⁡𝛽1= -1,5; 𝛽2= 0; 𝛽3= 3  •Berechnen sie die Einzelwahrscheinlichkeiten:  ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡ΡΧ𝜐𝑖=𝑥𝜐𝑖 𝜃𝜐,𝛽𝑖)=exp[𝑥𝑣𝑖𝜃𝜐,−𝛽𝑖]1+exp⁡(𝜃𝜐,−𝛽𝑖)=𝑝𝜐𝑖  •Wie wahrscheinlich ist es diese Daten zu erhalten (Gesamtwahrscheinlichkeit)?  •Fazit: Kennt man die Parameter, kann man für beliebige Daten ausrechnen wie groß die Wahrscheinlichkeit ist, diese zu beobachten  •Ρ𝑥11,…,𝑥𝑛𝑘⁡𝜽𝟏,…,⁡𝜽𝒏,⁡𝜷𝟏,…,⁡𝜷𝒏)= ⁡𝑛𝜐=1 exp(𝑥𝜐𝑖∙𝜽𝝊−𝜷𝒊)1+exp𝜽𝝊−𝜷𝒊
  • Das dichotome Rasch-Modell Schritte bei der Rasch-Skalierung 1.Erstellung einer Matrix von Schwierigkeitsindizes  2.Transformation in eine Logit-Matrix  3.Schätzung von Item- und Personenparameter aus der Logit-Matrix  4.Reproduktion der Ausgangsmatrix als Modelltest  5.Standardisierung der ermittelten Personen- und Itemparameter 
  • Schritte bei der Rasch-Skalierung 1. Erstellung einer Matrix von Schwierigkeitsindizes Jedes P enthält eine Mischung aus Personen-parameter und Item-parameter! Ρ=exp(𝑑𝑖𝑓)1+exp⁡(𝑑𝑖𝑓)
  • Schritte bei der Rasch-Skalierung 2. Transformation in eine Logit-Matrix •Um die Differenz (dif) zur ermitteln, wird die Matrix I umgewandelt in eine Logit-Matrix (Matrix II)  •L(𝑥)−1⁡=ln𝑝1−𝑝=𝑑𝑖𝑓  Ρ=exp(𝑑𝑖𝑓)1+exp⁡(𝑑𝑖𝑓)
  • Schätzung der Modellparameter 3. Schätzung der Modellparameter •Die Daten sind bekannt sind, nicht aber die Parameter  •Berechnen der Wahrscheinlichkeit = Likelihood (L)  Daten werden fix gehalten, Parameterwerte werden variiert  •Ρ𝒙𝟏𝟏,…,𝒙𝒏𝒌⁡𝜃1,…,⁡𝜃𝑛,⁡𝛽1,…,⁡𝛽𝑛)= ⁡𝑛𝜐=1 exp(𝒙𝝊𝒊∙𝜃𝜐−𝛽𝑖)1+exp𝜃𝜐−𝛽𝑖𝑘𝑖=1  •Maximum-Likelihood Methode: Es werden jene Werte gesucht, bei denen die Likelihood für den beobachteten Datensatz möglichst groß (maximal) ist.  •Schätzwerte: 𝜃𝜐 und⁡𝛽𝑖 
  • Schätzung der Modellparameter Schätzmethoden Likelihood Joint ML-Schätzung •Ziel: bestmögliche 𝜃𝜐 und⁡𝛽𝑖 für den Datensatz zu finden  •Joint ML-Schätzung: Personen- u. Itemparameter werden simultan geschätzt  •Suchalgorithmus:  1.Einsetzen von Startwerten (häufig 0)  2.Bestimmung aller Einzelwahrscheinlichkeiten und Multiplikation (Likelihood)  3.Modifikation der Startwerte; Iteration mit neuen Parameterkandidaten  4.Anstieg der Likelihoods  5.Abbruch am Maximum 
  • Schätzung der Modellparameter Schätzmethoden Likelihood Incidental parameter problem •Problem: Asymmetrie der Parameterarten  •Prinzip: Schätzgenauigkeit erhöht sich mit Stichprobengröße und Itempool  •Fakt kann aber nur die Stichprobengröße erhöht werden  •Daher: Schätzung der Itemparameter ist grundsätzlich genauer als die der Personenparameter.  •Jede Person bringt ihr eigenes zu schätzendendes 𝜃𝜐 ohne die Möglichkeit deren Schätzgenauigkeit durch mehr Items zu erhöhen.  Itemparameter = strukturelle Parameter  Personenparameter = inzidentelle Parameter 
  • Schätzung der Modellparameter Schätzmethoden Likelihood Conditional ML-Schätzung (CML) - Das bedingte Schätzprinzip •Verhältnis der Wurfweiten sind indirekt Ausdruck von Gewicht 𝛽𝑖 und Personenfähigkeit⁡𝜃𝑛⁡⁡  •Verhältnisse unter der Bedingung, dass sie von derselben Person geworfen wurde („gegeben die Person“ = conditional on the person)  •Grundidee: Verknüpfung von sich nicht gegenseitig beeinflussenden Faktoren Durch die Konstanthaltung eines Faktors kann der andere bestimmt werden  d.h. durch Konstanthaltung von ⁡𝛽𝑖⁡ wird ⁡𝜃𝑛⁡anhand der Verhältnisse der Lösungswahrscheinlichkeit ermittelt 
  • Schätzung der Modellparameter Schätzmethoden Likelihood Vorteil der CML gegenüber der JML Methode •CML erlaubt Vergleiche der Schwierigkeiten zweier Items unabhängig von den antwortenden Personen („spezifische Objektivität“)  •Das Problem der inzidentellen Parameter tritt nicht auf, da sie in der Likelihood nicht mehr vorkommen.  ABER: beiden Methoden gemeinsam ist, dass nicht alle Parameter geschätzt werden können.  Gründe:  •Ein Item wird von allen Personen (oder niemandem) gelöst (dann ist nicht bekannt, wie das Item im Vergleich zu den anderen ist)  •Eine Person löst alle (oder kein) Item 
  • Modellprüfung Grundprinzip: •Aus der Modellgleichung lassen sich bestimmte Erwartungen hinsichtlich der Antwortmuster und -häufigkeiten ableiten.  •Treffen diese Annahmen für einen vorliegenden Datensatz nicht zu, kann für ihn das Rasch-Modell nicht gelten.  Man spricht von Modellverletzung!  •Bei Gültigkeit des Rasch-Modells unterscheiden sich die geschätzten Itemparameter nur zufällig zwischen beliebigen Subgruppen.  = SUBGRUPPENINVARIANZ  Diese wird zur Modellprüfung herangezogen!  •Wahl des Teilungskriteriums  Einfluss, welche spezifischen Modellverletzungen aufgedeckt werden können 
  • Modellprüfung Treffen die Annahmen des Modells auch für die Daten zu? 1.Eindimensionalität: Ist für alle Aufgaben dieselbe Fähigkeit zur Lösung erforderlich oder spielen bei einigen Aufgaben weitere Fähigkeiten eine Rolle?  2.Parallele ICCs: Sind die IC-Funktionen auch tatsächlich für alle Aufgaben parallel oder unterscheiden sich einzelne Items hinsichtlich ihrer Trennschärfen?  3.Differential Item functioning (DIF): Funktionieren die Items in allen Subgruppen gleich?  4.Lokale stochastische Unabhängigkeit: Ist die Annahme der lokalen stochastischen Unabhängigkeit erfüllt?  5.Itemhomogenität: Alle Aufgaben erfassen dieselbe Fähigkeit. 
  • Modellprüfung – Subgruppeninvarianz 1. Eindimensionalität und 2. Parallele ICCs Möglichkeit 1 der Wahl des Teilungskriteriums :  •k-1 Gruppen („internes Teilungskriterium“), wobei Gruppen sich in ihren Fähigkeiten unterscheiden  •Schätzung der Itemparameter  •signifikanter Unterschied zwischen den Gruppen → Annahme, dass die Items für die Personen der einzelnen Gruppen unterschiedlich schwierig sind  Keine Parallelität!  •Mögliche Gründe: effizientere Lösungsstrategien in einer Gruppe  D.h. zusätzliche Fähigkeiten wurden mit erfasst  Möglichkeit 2 der Wahl des Teilungskriteriums :  •Zweigruppenteilung (z.B. Median-Split) 
  • Modellprüfung – Subgruppeninvarianz 3. Differential Item Functioning •Externes Teilungskriterium!  •Unterschiede werden vermutet/sind bekannt; z.B. Geschlecht, Behandlungsgruppen, Institutionen, Länder  •DIF = funktionieren (bestimmte) Items in anderen Gruppen anders?  •→ Test des Unterschieds der Itemparameter  •Häufig: Unterscheidung zwischen Referenz- und Zielgruppe  d.h. Standardgruppe und Gruppe mit möglichen systematischen Abweichungen 
  • Modellprüfung – Subgruppeninvarianz 4. lokale stochastische Unabhängigkeit •Sind 2 (o. mehr) Items voneinander abhängig? (z.B. bei hoher Ähnlichkeit)  •Gruppenteilung anhand eines dieser Items in Löser/Nicht-Löser  •Unterschied im Itemparameter des Schwesteritems zwischen den Gruppen?  D.h. Itemschwierigkeit  •Unterschied in der Schätzung des Schwierigkeitsparameters → keine lokale stochastische Unabhängigkeit  Die Lösung des Schwesteritems ist abhängig von der Lösung des Trennungsitems 
  • Modellprüfung – Subgruppeninvarianz 5. Itemhomogenität •Teilung anhand bestimmter Items in 2 Gruppen:  Personen, die diese Item gelöst haben und welche, die es nicht gelöst haben  •Erwartung:  Wenn das Item genau das gleiche misst wie die übrigen, dann ist zu erwarten, dass alle Personen, die dieses Item gelöst haben fähiger sind.  •Unterschied der mittleren Personenfähigkeit → Itemhomogenität  Beispiel für heterogene Items:  •Textaufgabe vs. Rechenaufgaben (Fach Mathe)  •Unterschiedliche (zugrundliegende) Fähigkeiten? = keine Itemhomogenität  •Subgruppentrennung nach Textitemxy in Löser/Nicht-Löser  Kein Unterschied in Rechenaufgaben zwischen den Gruppen (bzgl. Fähigkeit) = keine Itemhomogenität  Unterschied in den Rechenaufgaben zwischen den Gruppen (bzgl. Fähigkeit) = Itemhomogenität 
  • Modellprüfung •Andersen-Likelihood Test (Likelihood-Quotienten Test)  •Wald-Test  •Graphische Modellkontrolle  •Martin-Löf-Test  •Nicht-parametrische Überprüfung der Modellgültigkeit (quasi-exakte Tests) 
  • Modellprüfung Andersen-Likelihood Test (Likelihood-Quotienten Test) •LRT ist ein globaler Test; d.h. es werden alle Items simultan geprüft  •Nullhypothese: Die Gültigkeit des Rasch-Modells wird angenommen (d.h. signifikantes Ergebnis deutet darauf hin, dass das Modell nicht gilt)  •Grundidee  Berechnung der Likelihood für den gesamten Datensatz  Berechnung der Likelihood getrennt für 2 o. mehr Gruppen  Wenn die Parameterschätzungen gleich sind, dann dürfen sich die Likelihoods nicht unterscheiden  •Folgende Fälle können eintreten  Itemschwierigkeiten sind in den Gruppen gleich (H0: Modell gilt)  Itemschwierigkeiten sind in den Gruppen ungleich (H1: Modell gilt nicht) 
  • Modellprüfung Der Wald-Test •Test auf Itemebene  Bei Teilung in 2 Gruppen: 𝐻0:⁡𝛽𝑖(1)=𝛽𝑖(2)=𝛽𝑖  •Problem in der Praxis: besonders wenn man zu viele Items prüft → Alpha-Fehler Kumulierung 
  • Modellprüfung Graphische Modellkontrolle •Streudiagramm der Itemparameter (bei Teilung in 2 Gruppen)  •Geschätzte Schwierigkeitsparameter für beide Gruppen  •Passt das Modell perfekt, liegen alle Punkte auf der Geraden  •Vorteil: abweichende Items können leicht identifiziert werden  •Nachteil: Entscheidung, ab wann ein Datensatz nicht mehr modellkonform ist. 
  • Standardisierung der Parameter Normierung der Itemparameter •Relative Messung ohne natürlichen Nullpunkt  •Bezugspunkt wählen  •Möglichkeit: Summe-Null-Normierung  Schwierigkeit wird so bestimmt, dass die Summe und somit der Mittelwert 0 ist.  Alle Items, die leichter als der Mittelwert der untersuchten Items waren, wird ein negativer Wert zugeordnet etc.  So könne die geschätzten Parameter auch ohne Kenntnis des Referenzitems interpretiert werden.