Diagnostik II (Subject) / Adaptives Testen (Lesson)
There are 13 cards in this lesson
Tailored testing, branched testing, IRT
This lesson was created by Macholocke.
- Welche Vorteile hat das adaptive Testen gegenüber konventionellem Testen? 1. Höhere Messgenauigkeit [dieselbe Messgenauigkeit mit kürzerer Testlänge (~ 1/2 Testlänge genau so hohe Messgenauigkeit)]2. In allen Fähigkeitsbereichen wird gleich genau gemessen3. keine Motivationsbeeinträchtigungen zu erwarten4. aufgrund höherer Messgenauigkeit/Untertest => bessere Interpretation des Leistungsprofils möglich5. keine mehrkategorielle Verrechnung nötig, weil höchst informative Items verwendet
- Welche Nachteile hat das adaptive Testen gegenüber konventionellem Testen? 1. größere Itempools notwendig im Vergleich zum konventionellem Testen2. tailored testing ist an Computervorgabe gebunden3. Ausschluss von Itempositionseffekten notwendig
- Was kennzeichnet "tailored testing"? = die optimale Strategie, maßgeschneiderte Items werden ausgewähltSchritte:1. Es wird mit durchschnittlich schwerem Item begonnen. Je nach Lösung wird leichtestes oder schwerstes Item vorgegeben.2. Item wird vorgegeben von dem erwartet wird, dass es von der Testperson gelöst werden könnte und eine Schätzung des Personenparameters ermöglicht. Voraussetzung: Je eine Aufgabe gelöst und nicht gelöst3. Nach einer ersten Schätzung wird immer diejenige Aufgabe gewählt, die der Fähigkeit der Testperson am ehesten entspricht und zur Informationsfunktion den maximalen Beitrag leistet 4. Dieser Prozess dauert solange bis geschätzter Personenparameter vom wahren Personenparameter immer weniger abweicht
- Wann wird die Testvorgabe abgebrochen? Die Testvorgabe wird beendet, wenn die Differenz der Personenparameterschätzungen bei zwei aufeinander folgenden Aufgaben nicht größer wird als ein zuvor festgelegter Betrag. So ein Kriterium kann nur bei einem großen Itempool realisiert werden, weil es sein kann, dass nicht genügend informative Items mehr vorhanden sind. (normalerweise reichen 60-70 Items aus). Meistens ist Personenparameter bereits nach 15 Items genau genug geschätzt
- Wie kann man zwischen Tp denen man unterschiedliche Items vorgegeben hat faire Vergleiche ziehen? Stichprobenunabhängigkeit: Mittels des Raschmodells können Items konstruiert werden, die unabhängig von den Personen die sie bearbeiten eine stabile Itemschwierigkeit haben, das heißt Stichproben unabhängig sind Verrechnete Antworten bilden durch die Verrechnungssicherheit des Raschmodells empirische Verhaltensrelationen adäquat ab Spezifische Objektivität:Egal welche Items von zwei Personen bearbeitet wurden, können Vergleiche zwischen ihnen gezogen werden, da für jede Person der Personenparameter neu geschätzt wird und unterschiedliche Items über den selben Personenparameter verfügen können. Da die Items raschhomogen sind bedeutet das, dass sie alle eindimensional messen auch wenn der Inhalt des Items unterschiedliche sein mag.Genau so ist es egal welcher Personenstichprobe die Items vorgegeben wurden. Aufgrund der Parameterschätzung wird der Fähigkeitsbereich der Person genau geschätzt
- Was kennzeichnet das "branched testing"? Anders als beim tailored testing werden der Tp Itemgruppen (5 Items) vorgegeben und je nach Lösungsmenge der sich in den Gruppen befindenden Items, wird die Testperson in fest verzweigter Weise zu einer schwierigeren oder leichteren Gruppe zugewiesen Löst die Tp ungefähr die Hälfte der Aufgaben in einer Gruppe, entspricht diese Gruppe dem Leistungsniveau der Tp. Es wird dann eine ähnlich schwierige Itemgruppe vorgegeben. Normalerweise werden einer Tp zusätzlich zur Startgruppe weitere zwei Itemgruppen vorgegeben.=> Bsp. AID2: Tp beginnt mit einer ihrer Altersgruppe entsprechenden Aufgabengruppe(Bestehend aus 5 Aufgaben) Löst diese höchstens 1 (Aufgabengruppe zu schwierig) leichtere Aufgabengruppe. Löst diese mind. 4 (Aufgabengruppe zu leicht) schwierigere Aufgabengruppe. Löst diese 2/3 (Aufgabengruppe entspricht dem Leistungsniveau) gleich schwierige Aufgabengruppe Testvorgabe beendet wenn Tp 3 Aufgabengruppen bearbeitet (15 Aufg.)
- Wieviele Startgruppen braucht man beim branched testing? - 3 Gruppen für befriedigende Messgenauigkeit ausreichend.
- Was ist beim branched testing in Bezug auf die Messgenauigkeit zielführender? Einer größeren Anzahl an Startgruppen ist bald eine Grenze gesetzt. Meistens reichen 3 Startgruppen. In Bezug auf die Messgenauigkeit ist eine größere Anzahl an Verzweigungsmöglichkeiten einer größeren Anzahl an Verzweigungsschritten vorzuziehen. (Z.B.: Dreifachverzweigung mit weniger Verzweigungsschritten > Zweifachverzweigung mit mehr Verzweigungschritten). Eine größere Anzahl an Verzweigungsschritten ist im Gegensatz zu einer größeren Anzahl von Items wirkungsvoller.
- Weshalb stellt adaptives Testen eine ernst zu nehmende Alternative gegenüber konventionellem Testen dar? trotz großer Testlänge gibt es nur wenige informative Items in extremen Fähigkeitsbereichen Bei Extrembereichen: Interpretation des Leistungsprofils (keine klaren Hochs & Tiefs) aufgrund des großen Standardmessfehlers (geringe Testlänge in diesem Bereich) kaum möglich => trotz großer Testlänge stehen nur geringe Anzahl von Items zu Verfügung, die in extremen Bereich messen.). Mögliche Motivationsbeeinträchtigung wenn Aufgaben in der Reihenfolge ihrer Schwierigkeit dargeboten werden (von leicht zu schwer). Leistungsmotivation beeinträchtigt wenn vorausgehende Subtest negativ abgeschlossen. Keine Fähigkeitsentsprechenden Testeinstiege (WICHTIG, weil zu leichte Items demotivierend und zu schwierige frustrierend). Probleme der Skalierung: resultierende Testwerte stellen empirische Verhaltensrelationen nicht adäquat dar.
- Nach welchen Kriterien werden die Items beim adaptiven Testen vorgegeben? - Beim adaptiven Testen erfolgt die Vorgabe der Items in Abhängigkeit des Leistungsgrades der Person. - Die Idee ist es Testpersonen nur informative Items vorzugeben, d.h., dass sie dem ungefähren Leistungsniveau der Tp angepasst sein sollten. => Item mit 50%iger Lösungswahrscheinlichkeit am informativsten. Itemschwierigkeit ist ident mit der Personenfähigkeit
- Welche Unterschiede bestehen zwischen Klassischer Testtheorie und der IRT? KTT: Schwierigkeit ist Stichprobenabhängig, Personenvergleich mittels Rohwerten, Maß für die Fähigkeit einer Person ist der Rohwert, Modell ist nicht prüfbar("nur" goodness of fit möglich), Gütekriterium der Fairness nicht gegeben, extreme Fähigkeitsbereiche sind nicht zu differenzieren, IRT: Itemschwierigkeit ist nicht stichprobenabhängig, passendstes Item wird mittels LLM geschätzt, Modell prüfbar, Fairness und Skalierung sind gegeben
- Unvereinbarkeit von KTT und adaptivem Testen .Es ergeben sich 3 grundlegende testtheoretische Fragen: 1. Messwertskala: Wie können zwei Pbn miteinander verglichen werden, wenn beide unterschiedliche Itemmengen mit unterschiedlichen Schwierigkeiten beantwortet haben? 2. Itemauswahl: Welches Item soll als jeweils nächstes vorgelegt werden? 3. Abbruchkriterium: Wann ist das Leistungsniveau des Pb hinlänglich genau bestimmt, so dass die Testung beendet werden kann? Diese sind mit der KTT nicht zufriedenstellend beantwortbar:1. Die KTT setzt Testergebnisse und latente Dimensionen de facto gleich, also erzeugen unterschiedliche Itemmengen neue Skalen, die nicht ohne Weiteres ineinander überführbar sind• es fehlen Kriterien, wann Items als homogen anzusehen sind. 2. Die Definition der Reliabilität als Verhältnis der Varianz der wahren Werte zur Gesamtvarianz des Tests bezieht sich auf eine Referenzpopulation 3. Die Reliabilität impliziert, dass ein Test bei allen Personen gleich misst • tatsächlich aber bei sehr leistungsstarken und – schwachen ungenauer als bei durchschnittlich Pbn
- Was ist adaptives Testen? Bezeichnet eine spezielle Anwendungsvariante der IRT, bei der nur jene Aufgaben (Aufgabengruppen) vorgegeben werden, die dem Fähigkeitsniveau/Leistungsgrad der Tp entsprechen. Dabei ist die Grundidee, dass nur solche Aufgaben vorgegeben werden, die am meisten Info darüber liefern, wie stark das untersuchte Merkmal bei einer Tpn ausgeprägt ist. Damit wird das Problem umgangen zu leichte od. zu schwierige Items vorzugeben, weil sie wenig Info über die Merkmalsausprägung liefern (unökonomisch)