Psychologie (Fach) / Differentielle Psychologie (Lektion)
In dieser Lektion befinden sich 443 Karteikarten
WS 16/17
Diese Lektion wurde von LauraFichti erstellt.
- Was versucht die KTT und die IRT durch ihre Methoden zu erreichen und wie erreichen sie das? Sie versuchen latente Eigenschaften oder psychologische Konstrukte quatifizierbar zu machen, indem sie dem Testkonstrukteur Prüfkriterien (sog. Testgütekriterien z.B. Validität, Realiabilität..) an die Hand gibt, die eine Qualitätsprüfung von Tests bzw. Testaufgaben ermöglichen.
- Worin besteht das Problem der Klassischen Testtheorie (KTT) heute? Darin, dass diese Prüfkriterien aus heutiger Sicht nicht weit genug reichen.
- Was besitzen psychologische Konstrukte unbestrittener Weise nicht? Sie besitzen keine natürliche Metrik (keine Skala, keinen natürlichen Nullpunkt).
- Was muss vor einer Messung z.B. von Personenfähigkeiten, erfolgen? Und was ist dafür notwendig? Es muss eine Skala - wie in der Physik - etabliert werden; um eine Skala zu etablieren, ist eine formalisierte mathematische Theorie (sog. Messmodell) notwendig. -> Erst wenn dieses Messmodell nachweislich für empirische Daten gilt, kann auch von Messung im eigentlichen Sinn gesprochen werden.
- Wie misst die KTT eine latente Dimension? Sie misst sie - ohne das näher zu prüfen - ganz einfach mit dem Auszählen korrekter Antworten in einem x-beliebigen Test.
- Was ist der Vorteil der Item Response Theorie gegenüber der KTT und wie wird die IRT noch genannt? Die IRT kann gute, d.h. mathematische begründete Antworten liefern., durch ihre Messmodelle/ PrüfkriterienSie nennt sich auch noch -> probabilistische Testtheorie
- Wann ist eine faire Messung von z.B. Personenfähigkeiten möglich? Erst wenn Messmodelle durch die Testtheorie empirisch erfolgreich geprüft worden sind, und damit nachweislich für eine Population gelten, ist eine Skala etabliert und eine faire Messung möglich.
- Welche Forderungen sind an "objektives Messen" in den Soz.wissenschaften zu stellen? Testunabhängige Fähigkeitsmaße (Personenparameter) Stichprobenunabhängige Itemschwierigkeitsmaße (Itemparameter)
- Was ist mit "Testunabhängige Fähigkeitsmaße (Personenparameter)" gemeint? Die Messwerte (Fähigkeitsmaße) sollten nicht von dem im Test (zufällig) verwendeten Items abhängen; Aussage über vergleich zweier Personen sollte unabhängig davon sein, welche und wie viele Items dafür verwendet wurden, und zudem unabhängig davon welche Personen sonst noch getestet wurden.
- Was ist mit der Forderung "Stichprobenunabhängige Itemschwierigkeitsmaße (Itemparameter)" gemeint? Die Schwierigkeit von Testaufgaben sollte unabhängig von konkreten Stichproben (mit best. Fähigkeitsverteilungen) quantifiziert werden können. -> Eine Aussage über den Vergleich zweier Items sollte unabhägig davon sein, welche und wie viele Personen dafür verwendet wurden, und welche Items sonst noch vorgelegt wurden. z.B. ein leichteres Item A und ein schwierigeres Item B sollen die Rangfolge A < B auch in etwas weniger begabten Stichproben aufweisen.
- Welche Forderung formulierte G. Rasch, die der Forderung "objektives Messen" entsprechen? Die Forderung nach spezifischer Objektivität von Vergleichen.
- Welches Prinzip beinhaltet G. Rasch's Forderung nach spezifischer Objektivität? Das Prinzip der sogenannten Stichprobenunabhägigkeit.
- Welches Modell empfiehlt sich in besonderer Weise für die Konstruktion von Fähigkeitstests im Rahmen der IRT? Das "dichotome logistische Modell " von Rasch (1960), kurz: Rasch Modell oder RM
- Das besondere bei Rasch Modell (RM) ist, dass nicht vom Rohwert (Testwert; Score) ausgegangen wird, wie das bei der KTT der Fall ist, sondern... ... es setzt beim einzelnen Item an.
- Was wird beim RM durch, das ansetzten beim einzelnen Item, überhaupt erst möglich? Eine Prüfung, ob alle Items dieselbe latente Dimension messen.
- Nenne die 3 Komponenten von denen jede beobachtete Antwort (=Reaktion) einer Vp abhängig ist! a) Eigenschaften der Person (z.B. Fähigkeiten)b) Eigenschaften des Items (z.B. Schwierigkeit)c) Zufall: Alle unkontrollierbaren, fluktuierenden Einflüsse, die beim "Messen" in den Sozialwissenschaften immer zu erwarten sind.
-
- Welche Bedeutung kommt den manifesten Variablen (Antworten der Personen auf die Items) im RM zu? Die manifesten Variablen (Antworten der Personen auf die Items) sind Indikatoren (Messinstrumente) einer postulierten latenten (Fähigkeits- od. Eigenschafts-) Dimension [sprich: Xi] ->mit Hilfe der manifesten Variablen wird auf die latente Dimension rückgeschlossen!
- Wie ist der Zusammenhang zwischen manifester Variable und latenter Dimension aufgebaut? Und wie wird er hergestellt? Er ist systematisch und wird für jedes einzelne Item i durch die Itemcharaktersitik (= Funktion) hergestellt.
- Warum wird die Item Response Theory auch probabilistische Theorie genannt? Da jeder Person v, in Abhägigkeit ihrer Fähigkeiten ξv eine bestimmte Wahrscheinlichkeit ein Item zu lösen zugeordnet wird.
- Personen mit gleichen Fähigkeitsgraden haben auch dieselbe ... Chance fi, die Aufgabe i zu lösen.
- Was sollte die Item-Lösungswahrscheinlichkeit nie erreichen und warum? Sie sollte nie 0 oder 1 erreichen, weil der Scwächste einmal Glück haben kann bzw. dem Besten ein Fehler unterlaufen kann.
- Zusammenhänge zwischen den manifesten Variablen (z.B. zwischen zwei Antworten auf verschiedene Items) sind im RM nicht Ausdruck direkter Abhängigkeit zwischen den einzelnen Verhaltensweisen (= Antworten, Reaktionen), sondern? Ausdruck ihrer Abhängigkeit von einer, allen manifesten Variablen gemeinsam zugrunde liegenden latenten Dimension.
- Wenn im RM die Betrachtung eines Zusammenhangs richtig ist (lässt sich empirisch prüfen) und somit eine latente Dimension existiert, was könnte man mit dieser latenten Dimension dann tun? Was ergibt sich dann in der Folge? Man könnte die latente Dimension (statistisch) konstant halten (vgl. "Herauspartialisieren" bei Korr.), daraus folgt, dass nach der Konstanthaltung die Zusammenhänge zwischen den manifesten Variablen verschwinden (-> "lokale stochastische Unabhägigkeit")
- Was folgt aus der lokalen stochastischen Unabhängigkeit im RM? Dass die Antwort einer Person, auf ein Item nicht von den Antworten auf andere Items abhängen darf.
- Im Rasch Modell (RM) wird angenommen, dass die Antworten ........ ........ voneinander stochastisch unabhängig sind. verschiedener Personen (d.h. Schummeln verboten!)
- Jede Person v ist im RM ...? Durch ihre Position ξv auf der latenten Dimension charakterisiert.
- ξv ist ? der ... werden muss! ξv = "Personen(fähigkeits)parameter", der - wie andere statistische Parameter auch - erst geschätzt werden muss.
- σi ist? der erst ... werden muss? (Im RM) σi ist ein "Item(schwierigkeits)parameter" der erst geschätzt werden muss.Jedes Item ist durch seine Lage auf der latenten Dimension charakterisiert.
- Messen einer psychischen Eigenschaft im RM = ...? Schätzen unbekannter Parameter, aufgrund von Beobachtungen (manifesten Variablen --> 0/ 1 Antworten der Personen auf die Items, wobei 0 = ungelöst 1 = gelöst)
- Wann können die Parameter im RM geschätzt werden? Wenn die Funktion der Itemcharaktersitik-Kurven (Itemcharaktersitiken) bekannt sind und dadurch auch die Form. = Festlegung der Struktur eines probabilistischen Testmodells, durch Spezifikation der Funktionen fi (ξ)
- Welche mathematische Funktion entspricht den im RM genannten Forderungen und Grundannahmen? Die sogennante logistische Funktion. -> Im RM wird also die Lösungswahrscheinlichkeit als logistische Funktion der Differenz d von Personenfähigkeiten und Itemschwiergkeiten (ξv - σi) beschrieben.
- Das Rasch-Modell benötigt .... Testaufgaben! dichotome
-
- p (+) [= Wahrsch. ein Item zu lösen] hängt nicht davon ab, wie groß ... und wie groß ... ist, sondern lediglich von der ...... ......! 1. ξv = Personenparameter2. σi = Itemparameter 3. Differenz ξv - σi
- p (+) = 0.5 wenn ....; das ist auch inhaltlich sinnvoll, weil Person v dann gleich .... ist wie das Item i .... ist --> Lösungswahrscheinlichkeit 1/2 1. ξv = σi2. fähig 3. schwierig
- Das RM ist das einzige probabilistische Testmodell, das .... ...... ...... ermöglicht und dadurch "Stichprobenunabhägigkeit" der Messungen realisiert! spezifisch objektive Vergleiche
- Was bedeutet Eindimensionalität im Rasch-Modell? Für alle Items hängt die Lösungswahrscheinlichkeit nur über den Parameter ξv von der jeweiligen Testperson ab --> Alle "lantenten" Personenmerkmale, die (neben den Itemeigenscnaften) die Reaktionen einer Testperson bestimmen, sind vollständig in diesem einen Parameter "zusammengefasst".
- Was bedeutet erschöpfende Statistik im Rasch-Modell? Die Anzahl von einer Person gelöster Items (Personenrandsumme rv) stellt eine erschöpfende (ausreichende) Statistik für die Parameterschätzung der latenten Variable dar.-> d.h. für die Schätzung eines Parameters, sind alle relevanten Informationen in rv (= Personenrandsumme) enthalten.
- Was muss gelten, wenn man wünscht, dass bei einem Test die Testrohwerte (rv) interpretierbar sind? Das Rasch-Modell (RM) muss empririsch gelten - und das ist mathematisch beweisbar!
- Nenne die Vorzüge des Rasch-Modells! (7 Punkte) Misst für ALLE dieselbe latente Fähigkeitsdimension (= Tests sind eindimensional + fair) Personenparameter (Fähigkeitsp.) = Fähigkeitsgrade der Personen, auf Intervallskala + unabhägig davon welche und wie viele Items im Test vorgegeben wurde Itemparameter (Aufgabenschwierigkeitsparameter) = auf gleicher Intervallskala wie Personenparameter --> kennzeichnen Schwierigkeitsgrade von Items und sind unabhägig von den getesteten Personengruppen. Personenfähigkeit = Anzahl gelöster Items; welche Items spielen keine Rolle! Reihenfolge der Items = unwichtig für Testergebnis Optional: Fähigkeitsangepasstest Testen (sog. Adaptives Testen) = optional möglich, wenn Aufgabenpool ausreichend groß ist! Veränderungen können gemessen werden. (In der KTT ist dies zum scheitern verurteilt) --> Testkonstruktion mit RM weitaus größer als KTT, daher heute noch oft KTT bevorzugt..
- Wie unterscheidet die neuere Psychometrie das Problem des Item- und Test-Bias? Heutzutage wird es differenzierter gesehen nämlich, ist zu unterscheiden, ob der Test (oder Teile des Tests) tatsächlich eine Gruppe spezifisch benachteiligt, oder ob lediglich ein Unterschied in den ξ-Verteilungen (Fähigkeitsverteilungen) besteht, ohne dass der Test als Messinstrument Schuld hat.
- Wann galt früher ein Test als unfair? Wenn bestimmte Gruppen systematisch schlechter abschnitten.Eine solche Sicht ist aber nur dann sinnvoll, wenn die Verteilung der ξ (Traitvariable) in den verglichenen Teilpopulationen übereinstimmt (= gleiche mittlere Fähigkeit), was vielfach nicht zu erwarten ist.
- Rasch MODELL : Wie lautet die Definition des Item-Bias? Ein Item ist als verzerrt/ unfair anzusehen, wenn seine IC-Kurve (Itemcharakteristik = Item-Funktion) in zwei unabhägig von diesem Item definierten Gruppen verschieden ist.Test = unfair, wenn zumindest ein Item "biased" ist.
- Wie sah früher eine Aufgabe aus, die als Culture Fair eingestuft wurde? Nonverbal-bildhaft dargebotene Testaufgaben, zu deren Lösung keine speziellen Kulturtechniken wie Lesen oder Mathematik nötig waren.
- Wann ist heute, aus Sicht der modernen Psychometrie, eine faire Messung innerhalb einer Kultur (Zielkultur) möglich? Es muss empirisch nachgewiesen werden, dass das Rasch Modell in dieser Zielkultur gilt. --> Bei eindimensionalem Messen über beide Kulturen (Ausgangs- und Zielkultur) hinweg, sind Modelltests in den aus beiden Kulturen zusammengesetzten Daten durchzuführen.
- Worum handelt es sich bei dem CAT (Computerized Adaptive Testing) Verfahren? Basierend auf dem RM, werden nicht allen Personen dieselben Items vorgegeben, sondern individuell unterschiedlich schwierige Aufgaben, die dem Fähigkeitsniveau der jeweiligen Person entsprechen; d.h. es werden nacheinander aus einem Itempool diejenigen Aufgaben vorgegeben, die der jeweils aktuellen Fähigkeitsparameterschätzung (vorgenommen während der Testung am Computer) entsprechen.
- Was ist die Idee der CAT? Jede Vp erhält aus einem Pool von Aufgaben genau diejenigen, die ihrem Fähigkeitsgrad am besten entspricht.
- Was ist die Voraussetzung für das CAT? Ein Pool von Aufgaben, die im Schwierigkeitsgrad über das gesamte Kontinuum streuen. Alle Poolaufgaben müssen gemeinsam Rasch-homogen sein, so dass es möglich ist, die Vpn auf einer gemeinsamen Skala zu verrechnen, obwohl sie verschiedene Aufgaben bearbeiteten.
- Wie sieht der Ablauf eines CAT aus? Mittelschwierige Startaufgabe Je nach Erfolg, zweites Item leichter/ schwerer (-> Auswahl aus Pool durch PC) Paramterschätzung ξv nach jeder Beantwortung neu Wieder Itemauswahl (= informativste Item mit σi ≈ ξv) u. Vorgabe... Bis Testabbruchkriterium (z.B. ξv = ausreichend genau geschätzt) in Kraft tritt.
- Positive Konsequenzen des CAT? (7 Punkte) wenige unnütze Items im Test (zu leicht/ zu schwierig fällt weg) Höhere Messgenauigkeit bei ev. weniger Items (Kürzere Testdauer) Auch in Extrembereichen kann (wenn Pool gut ist) präziser gemessen werden Testabbruch kann auf diagnostische Anforderungen eingestellt werden (z.B. nur grobes Screening/ sehr präzise Messung) Testsicherheit und Testfairness erhöht, weil "Testknackermethoden" weitgehend unwirksam (z.B. Auswendiglernen nicht möglich, weil immer neue Items) Abschauen bzw. Schummeln bei Gruppentestung unterbunden Bekanntgabe des Itemtyps der im Pool enthaltenen Aufgaben (nicht Aufgaben selbst) zur Testvorbereitung möglich (Reduktion von Testangst).
- Was sind die Nachteile des CAT? Eigentlich nur für Testkonstrukteur, der durch die Entwicklung eines Rasch-homogenen Itempools einen massiv erhöhten Testkonstruktionsaufwand hat.
-