Testtheoretische Grundlagen - Diagnostik II learn

Diagnostik II (Subject) / Testtheoretische Grundlagen (Lesson)

There are 17 cards in this lesson

Objektivität, Validität, Reliabilität, kriterium-, und normorientierte Diagnostik

This lesson was created by Macholocke.

Learn lesson

Beschreiben Sie mir das Gütekriterium der Objektivität Objektivität = die gewonnenen Ergebnisse eines Tests sind unabhängig vom Untersucher - ein Test ist dann objektiv, wenn verschiedene Testleiter (TL) bei derselben Testperson (Tp) auf das gleiche Ergebnis kommen (eher theoretisch zu betrachten, da Messwiederholungen sehr selten der Fall sind, Stichwort: Übungseffekt) - beinhaltet sowohl die numerischen Ergebnisse als auch die Interpretation des Testwerts Testleiterunabhängigkeit (auch: Durchführungsobjektivität) = das Testverhalten der TP und ihr Ergebnis sind unabhängig von zufälligen oder systematischen Verhaltensvariationen aller TL - eine hohe Durchführungsobjektivität wird z.B. erreicht durch eine schriftlich genau festgelegte Instruktion sowie eine möglichst standardisierte Durchführung; die Interaktion wird dabei auf ein Minimum reduziert Halo – Effekt = ein Erwartungseffekt von Seiten des TL. Von einem hervorstechenden Merkmal wird auf andere Merkmale einer Person geschlossen => kann negative als auch positive Valenz gehen. Damit kommt es zu einer unwissentlichen Verzerrung gegenüber der TP, meist durch non – verbale Kommunikation wie Körperbewegungen, paralinguistisches Verhalten (Laute) und „Proxemics“ (der Abstand zwischen einander) - vor allem während der Instruktion und aufgrund der Reaktion auf verbales Verhalten der TP ist mit TL – Effekten zu rechnen - sehr anfällig sind Individualverfahren (Gruppenverfahren erlauben weniger Kommunikation), weil TL und TP automatisch in engen Kontakt kommen und miteinander kommunizieren, das situationsabhängige Eingehen auf die TP ist unausweichlich (kann aber auch gewollt sein, z.B. beim AID 2 soll eine Situation ohne Druck geschaffen werden, anders als in der Schule also) - will man jede Interaktion ausschalten, dann Computerdiagnostik (hier entsteht dann aber eventuell ein TL – Effekt darin, mit welchen Worten und mit welchem Verhalten die TP an die Aufgabe herangeführt wird) Verrechnungssicherheit (auch: Auswertungsobjektivität) = die Verrechnung der numerischen und kategorialen Testwerte ist in der Manual genau festgelegt, so dass jeder Auswerter zu denselben Ergebnissen kommt - hohe Verrechnungssicherheit, wenn die Auswertung nur nach „richtig“ und „falsch“ zu bewerten ist. Dichotome Items - bei freiem Antwortformat oft sehr uneindeutig und schwierig zu verrechnen (Antworten sind oft teilrichtig, müssen aber nach richtig oder falsch kategorisiert werden – dann z. B. Nachfragen nach Oberbegriffen oder Funktionen) - bei der Verrechnung von auch teilrichtigen Antworten kommt oft noch die Unsicherheit des TL bzgl. der zu vergebenden Testwerte hinzu (Entscheidungsschwierigkeiten) - bei multiple choice – Format ist eine Verrechnungssicherheit gegeben – keinerlei Ermessensfreiheit seitens des TL, die Antworten klar und eindeutig - Gruppenverfahren sind meist nach dem MC – Format gestaltet und gelten somit als eher verrechnungssicher, während Einzelverfahren meist das freie Antwortformat nutzen und somit weniger verrechnungssicher sind Interpretationseindeutigkeit (auch: Interpretationsobjektivität) = wenn verschiedene Auswerter zu ein und demselben Schluss (Interpretation) kommen - bei geeichten Tests über die Prozentränge immer erfüllt (PR von 95 = nur 5% der Referenzpopulation (Vergleichspopulation) erzielen bessere Leistungen) - projektive Verfahren so gut wie nicht interpretationseindeutig – es obliegt dem TL, aufgrund des Kontextes auf eine Interpretation zu schließen
Beschreiben Sie mir das Gütekriterium der Reliabilität! = Grad der Genauigkeit, mit dem ein Test ein bestimmtes psychisches Merkmal misst; dabei ist egal, ob er dieses Merkmal auch zu messen beansprucht# es geht vorrangig um die formale Exaktheit der Merkmalserfassung („sich das auf das Ergebnis verlassen können“); auch: Messgenauigkeit eines Tests - unter gleichen Bedingungen sollten die Ergebnisse einer TP bei einer Wiederholung gleich sein (aufgrund von Übungs- und Erinnerungseffekten aber schwer umsetzbar) – kurzfristige Testwiederholung meist nicht sinnvoll und vertretbar Drei Arten von Reliabilität: 1. Paralleltest – Reliabilität: = eine Testwiederholung mit dem gleichen Test ist zwar nicht möglich, aber mit einer völlig gleichwertigen Nachahmung des Tests („Paralleltest“) Korrelation zwischen den Test und Paralleltest beschreibt dann das Ausmaß, in dem die Relationen der Testwerte der TP zueinander konstant bleibt (Übungseffekte gehen in die Korrelation nicht mit ein) - Einwand: Erstellung von Paralleltest sehr unüblich in der klassischen Testtheorie (die Korrelation misst eigentlich das Gelingen des Paralleltests und nicht die Exaktheit selbst 2. Retest – Reliabilität: = kurzfristige Wiederholung eines Tests (unrealistisch, wird trotzdem immer als Methode der Reliabilitätsbestimmung genannt) über einen längeren Zeitraum hinweg liefert die Korrelation aber gute Informationen (eher: Stabilität) 3. Innere Konsistenz:= wie sehr messen einzelne Items des Tests dasselbe eine Homogenität der Items muss immer gegeben sein – passen die Items nicht zueinander, dann spielt der Zufall eine große Rolle, was wiederum die Exaktheit des Tests beeinträchtigt und reduziert Split – Half – Methode = Testhalbierungsmethode bekannteste Methode zur Bestimmung der inneren Konsistenz Items eines Tests werden in zwei Teile geteilt, meist in gerade und ungerade Itemnummer („odd – even – Methode“), und die resultierenden Testwerte beider Testteile werden dann korreliert Cronbach - alpha = untere Grenze der ReliabilitätKonsistenzanalyse = der Test wird in so viele Teile zerlegt wie er Items besitzt
Beschreiben Sie mir das Gütekriterium Validität! = der Test misst tatsächlich jenes psychische Merkmal, welches er zu messen behauptet wichtigstes Gütekriterium und am schwierigsten prüfbar 1. Inhaltliche Gültigkeit = der Test selbst stellt das optimale Kriterium des interessierenden Merkmals dar. Kein Vergleich mit anderen Tests etc.=> logische Validität = Schulleistungstest=> triviale Validität = Arbeitsprobe (Text nach Ansage oder Vorlage abtippen) am leichtesten erreicht man inhaltliche Gültigkeit durch ein Experten – Rating (jedes Item wird dahingehend geprüft, ob es in Bezug auf die gegebene operationale Definition dessen, was der Test messen soll, passt) – Gefahr: Der Tradierung von Gepflogenheiten und Auffassungen Augenscheinvalidität (ist nicht gleich inhaltliche Gültigkeit) = der TP ist augenscheinlich klar, was der Test messen soll; die Messintention wird durchschaut 2. Konstruktvalidität= Test wird dahingehend analysiert ob er das zugrundeliegende latente aus der Theorie hergeleitete Konstrukt auch tatsächlich misst. Das heißt, ob die Itemgruppen das Konstrukt auch tatsächlich messenKonstrukt = Merkmale, Zustände oder Instanzen, die latent sind, und aufgrund von Verhaltensbeobachtungen erschlossen werden (z.B. Intelligenz, Angst oder Stress) Konvergenzvalidität = Tests, die das gleiche Konstrukt messen sollten hoch korrelierenDiskriminationsvalidität = Tests, die unterschiedliche Konstrukte messen sollten niedrig korrelieren Der klassische Ansatz über die FaktorenanalyseFaktoren werden über die Hauptkomponentenanalyse bestimmt. Sollten einen Eigenwert größer 1 haben. Jene Items die hohe Ladungen bei einem Faktor haben werden als zu diesem Faktor gehörend angesehen Der Ansatz von Campbell und Fiskees sollen nicht nur konstruktnahe und konstruktferne Tests untersucht werden, sondern auch alle Tests unter verschiedenen Bedingungen/Methoden. Die daraus bestimmbaren Korrelationskoeffizienten bilden dann die „Multi – Trait – Multi – Method“ (MTMM) Matrix – hierbei ist zwischen hetero- und monomethodischen Korrelationen und zwischen hetero- und monotrait Korrelationen zu unterscheiden- Bedingungen eines validen Tests=> heteromethodische – monotrait Korrelationskoeffizienten müssen bedeutend größer als 0 sein (wenn nicht, werden verschiedene Konstrukte gemessen) => heteromethodische – monotrait Korrelationskoeffizienten sollten größer sein als die monomethodischen – heterotrait – Korrelationskoeffizienten zwischen konstruktfernen Tests=> heteromethodische – monotrait Korrelationskoeffizienten sollten größer sein als sämtliche heteromethodische – heterotrait Korrelationskoeffizienten zwischen konstruktfernen Tests (sonst diskriminante Validität nicht gegeben)=> die obigen Punkte müssen gelten, sofern heteromethodische – monotrait Korrelationskoeffizienten durch mono- bzw. heteromethodische – heterotrait – Korrelationen zwischen konstruktnahen Tests ersetzt wird (dann ist konvergente Validität erfüllt) Die nicht korrelativen Ansätze zB Extremgruppenv. 3. Kriteriumsvalidität Zusammenhang zwischen den Ergebnissen des Messinstruments und einem empirischen Kriterium z. B. Forscher untersucht den Zusammenhang seines neuen Intelligenztests mit den Schulnoten der Probanden, um die Gültigkeit seines Tests zu prüfen bisher genannte Validierungen haben den Nachteil, dass sie keine statistische Kennzahl liefern, die das Ausmaß der Validität absolut zu bestimmen erlauben daher: eine bestimmte als relevant angesehene Variable („Außenkriterium“) wird mit dem interessierenden Teil korreliert; Problem: finden eines geeigneten Außenkriteriums mögliche Außenkriterien können gruppiert werden nach: 1. Übereinstimmungsvalidität = bezieht sich auf Korrelation mit einem anderen Test, der dasselbe Konstrukt erfasst2. Prognostische Validität= bestimmt sich aus der Korrelation des fraglichen Tests mit einem Außenkriterium, das in der Zukunft liegt. Z. B. Ergebnis in einem Assessment Center und dem späteren Berufserfolg Taylor – Russel – Tafeln verbessern die prognostische Validität (Entscheidungen, basierend auf einem Test mit einer Validität von 0.35, sind nicht validen, zufälligen Entscheidungen dann überlegen, wenn die Selektionsrate niedrig ist => Grundrate = Anteil der potentiell Geeigneten in der unausgelesenen Bewerberpopulation=> Selektionsrate = Anteil der aufzunehmenden Bewerber im Verhältnis zur Bewerberzahl insgesamt
Was ist Eichung? = wenn für sein Bezugssystem zur Relativierung des individuellen Testergebnisses (Eichtabellen) folgende Bedingungen erfüllt sind: Eichtabellen sind gültig (nicht veraltet) definierte Population herangezogene Stichprobe ist repräsentativ:1) Problematisch repräsentative Stichproben zu realisieren, weil Zugang zu geeigneten Personen sehr schwierig2) Problem der Veränderbarkeit von Merkmalen siehe Flynn-Effekt - die Brauchbarkeit des Nebenkriteriums Eichung fragwürdig, wenn die Hauptgütekriterien und das Kriterium Skalierung entsprechen- oft ist es gar nicht zielführend, das Ergebnis einer TP an einem bestimmten Bezugssystem zu messen (norm- vs. kriteriumsorientierte Diagnostik) Eichen im Sinne von Relativieren:Testwerte werden in Bezug zu einer Referenzpopulation gesetzt. Die Eichmaßstäbe erhält man über unterschiedliche Kennzahlen Eichen im Sinne von Repräsentativerhebung:Tabellen müssen alle 8 Jahre aktualisiert werden Können Eichtabellen auch auf andere Populationen generalisiert werden? (innerhalb deutschsprachiger Länder?) Anteil der Altersstufen in Referenzstichprobe sollten entsprechend ihrer relativen Verteilung in der Population gewählt werdenEichtabellen sollten immer aktuell sein, aufgrund der Veränderung bestimmter Merkmale über die Zeit siehe Flynn-Effekt => Intelligenz steigt und fällt
Welches Problem gibt es bei der Eichung im Sinne von Repräsentativerhebung kritischer Punkt der Testentwicklung – auch große Stichproben sind keine Garantie für Repräsentativität (heutzutage aufgrund von stimmungsmäßigen oder rechtlichen Probleme nahezu unmöglich) Aktualität der Eichtabellen ein Problem (Bsp: Flynn – Effekt: IQ – Punkte sind in den letzten 20 Jahren um 25 Punkte angestiegen, somit eigentlich keine Vergleichbarkeit mehr gegeben) daher: prüfen der Eichtabellen alle 8 Jahre (DIN 33430) – bei nicht zutreffender Repräsentativität muss eine Neunormierung vorgenommen werden auch problematisch: die Vergleichbarkeit von einem Land mit anderen deutschsprachigen Ländern (Deutschland, Österreich, Schweiz)
Was versteht man unter Kriteriumsorientierter und normorientierter Diagnostik? = zur Interpretation des Testwerts werden andere Vergleichsmaßstäbe als die Testwertverteilung in der Referenzpopulation herangezogen möglicher Vergleichsmaßstab: ein absolut festgelegter oder ein individuumsbezogener, relativ gewählter Ziel – Testwert abzielen auf ein bestimmtes Kriterium (Lern- oder Therapieerfolg) – man bezieht sich auf ein früheres Testergebnis und vergleicht die beiden Werte miteinander die Normorientierte Diagnostik bezieht sich auf eine Referenzstichprobe kriteriumsorientiert z.B.: das schnelle Abtippen einer Schreibkraft im Vergleich zu früher; normorientiert: förderungsorientierte Diagnostik (z.B.Teilleistungsstörungen) - anhand einer Referenzpopulation ausfindig zu machen (Leistungsprofil)
Was charakterisiert das Gütekriterium Skalierung? = wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden die Angemessenheit darüber, wie die einzelnen Testleistungen bzw. –reaktionen einer TP zu einem numerischen Testwert zu verrechnen sind Testwerte spiegeln nicht immer die Verrechnungsvorschriften gut wider (Bsp: Person A aus Ö löst 19 Aufgaben, Person B aus D 19; A löst auch die Fragen zum Thema Deutschland (Bundesländer usw.), B aber nicht; die Nationalität wird somit in gewissen Maße mitgemessen, was aber nicht der Fall sein darf) (siehe Buch S. 83) die Methoden der klassischen Testtheorie sind eigentlich ungeeignet für das Kriterium Skalierung, dessen ungeachtet finden sich aber auch innerhalb dieser gewisse Richtlinien für die Testkonstruktion, die mit Skalierung zu tun haben es geht darum, wie Items zusammengefasst werden sollen – Methoden dafür => innere Konsistenz: soll möglichst groß sein=> Faktorenanalyse: Items ein und desselben Tests sollen gemeinsam auf einem Faktor laden=> Interkorrelationen: sollen bei allen Items nahezu 1 betragen
Welche Methoden der Skalierung gibt es? einfachster Verrechungsmodus: die Anzahl gelöster Aufgaben (es zählen nur die „Treffer“) das Rasch – Modell muss gelten, damit dieser Verrechungsmodus fair ist,=> weil bei KTT nicht sicher wer besser ist: jene Person die 10 einfache Items gelöst hat oder jene die nur die 10 schwersten gelöst hat? Eindimensionalität muss gegeben sein: Leistung darf nur von der Fähigkeit und der Schwierigkeit abhängen lokale stochastische Unabhängigkeit = Leistung hängt nicht von der Menge der gelösten Items ab sondern von der Fähigkeit der Person und der Itemschwierigkeit. Unabhängig davon wieviele sie davor schon gelöst hat oder lösen wird das Rasch – Modell beschreibt die Wahrscheinlichkeit, dass TP v Item i löst („+“), in Abhängigkeit des Personenparameters (die „wahre“ Fähigkeit von v) und des Itemparameters (die „wahre“ Schwierigkeit von i)=>stichprobenunabhängig; muss nie ungeprüft vorausgesetzt werden umso strenger die Voraussetzungen an die Items, desto komplizierter der Verrechungsmodus
Was hat es mit Ökonomie auf sich? = wenn, gemessen am diagnostischen Informationsgewinn, relativ wenig Ressourcen (Zeit und Geld) beansprucht werden Aufwandsminimierung und Wirtschaftlichkeit adaptives Testen Sachlichkeit vorrangig, Aufwandsminimierung nachrangig bei Testauszwahl
Nützlichkeit = wenn für das von einem Test gemessene psychische Merkmal praktische Relevanz besteht= wenn die auf seiner Grundlage getroffenen psychologischen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen Nutzen = inwieweit ein Test beim Diagnostizieren von Nutzen ist bzw. einen Gewinn bringt der Gewinn bzw. die Kosten sind aber nicht immer monetär zu sehen, auch gesellschaftlicher Nutzen bzw. Gewinn oder der gesellschaftliche Schaden bzw. Verlust spielen eine Rolle Unterschied, ob die angestrebte Diagnose im Interesse der Person oder im Interesse einer Institution steht, wie viele Interventionsalternativen es gibt und ob ein einziges Testergebnis oder mehrere verfügbar sind Fehler = entweder ein Faktum nicht (positiv) zu befunden oder trotz Fehlens des Faktums es doch (positiv) zu befunden=> im Interesse der TP bestünde nur die Wahl zwischen Interventionen ja oder nein=> im Interesse einer Institution müssen auch Effizienzbetrachtungen mit einbezogen werden
Zumutbarkeit = wenn ein Test die TP absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer sowie physischer Hinsicht schont Reflektion darüber, was genau einer TP mit einem Verfahren zuzumuten ist Appell an die fachliche Erfahrung bzw. Kompetenz des Psychologen („Es liegt in der Verantwortung des jeweiligen Gutachters, welche Verfahren er aufgrund des aktuellen Forschungsstandes in der wissenschaftlichen Psychologie auswählt, welchen Umfang der Datenerhebung er angemessen hält,…“)Beispiele: Gemessen am Gemeinwohl ist hohe Belastung bei Pilotenauswahl zumutbar Ist die hohe Augenscheinvalidität von Persönlichkeitsfragebögen für die Person zumutbar? ("Für wie dumm halten die mich eigentlich?") Projektive Verfahren: Gar keine Augenscheinvalidität inwieweit zumutbar? Objektive Persönlichkeitstests: Hohe Frustration bei AHA zum Beispiel, niedrige Augenscheinvalidität Computertestung bei alten Menschen
Katalog von Fragen (Kubinger) zur Zumutbarkeit welche Testdauer ist regelmäßig, welche in Ausnahmefällen zumutbar? (abhängig von der Population – Kinder, Erwachsene, Ältere) Testdauer für Leistungs- und Persönlichkeitstests gleichzusetzen? Intelligenztestung zumutbar? wie schwierige Aufgabenstellungen sind zumutbar? wie weit in die „Tiefe“ gehende Fragen zum persönlichen Intimbereich sind zumutbar? inwieweit sind Leistungstests im MC – Format zumutbar? inwieweit ist bei Persönlichkeitstests dichotomes Antwortformat zumutbar? (neutrale Antwortmöglichkeit nicht vorhanden) inwieweit sind Persönlichkeitstests wegen ihrer Durchschaubarkeit zumutbar? (Augenscheinvalidität) inwieweit sind Projektive Verfahren ohne jede Augenscheinvalidität zumutbar? (bzw. für welche Fragestellungen) inwieweit sind Objektive Persönlichkeitstests zumutbar? (persönliche Merkmale aus beobachtbarem Verhalten schließen) inwieweit ist Computerdiagnostik bzw. in welchen Ausnahmefällen zumutbar? (abhängig von der Population) welcher psychologische Untersuchungsablauf ist zumutbar, welcher nicht? Welche Pausengestaltung? => schon bei kurzen Pausen von 5 Minuten während einer Testung tritt ein Erholungseffekt ein (weniger müde, leistungsfähiger) – Motivation nimmt allerdings immer weiter ab und kann auch durch Pausen nicht erhöht werden
Unverfälschbarkeit = wenn die getestete Person ihr Ergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann faking good und faking bad:Bei Fragebögen oft faking good (soziale Erwünschtheit)faking bad z. B. bei der Stellung; generell wenn es im eigenen Interesse ist sich schlechter zu verkaufen. Bei objektiven Persönlichkeitstests nicht wirklich möglich bei Persönlichkeitstests kaum erfüllt, bei Leistungstests zwar möglich, aber eher unwahrscheinlich, dass eine TP absichtlich schlechte Leistungen erzielt in der Regel ist es sehr wahrscheinlich, dass eine TP versucht ihre Ergebnisse zu verfälschen (bei Persönlichkeitstests) Objektive Persönlichkeitstests versuchen dem entgegen zu wirken (Messintention nicht so leicht zu durchschauen) (z.B. Arbeitshaltungen) => hoher Ressourcenaufwand bei der Entwicklung nötig Bei Persönlichkeitsfragenbögen gibt es Lügenskalen => funktionieren nicht so richtig.
Fairness = Test ist fair, wenn die Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen, z.B. aufgrund ihrer ethischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit, führenmangelnde Fairness = ein Test benachteiligt oder bevorzugt bestimmte Personen gegenüber anderen mit exakt derselben (wahren) Eigenschaft mögliche Benachteiligungen durch: => Instruktion (sprachliche Verständlichkeit)=> technische Handhabung (Testreaktionen via Computer)=> inhaltliche Details des Testmaterials (Bezug auf religiöse Maßstäbe) Unterscheidung zwischen Benachteiligung durch einzelne Items (Item – Bias) oder ob der Test insgesamt benachteiligt Entwicklung von Culture – Fair – Tests sollen soziokulturellen Benachteiligungen vorbeugen (Matrizentest – eher sprachunabhängig, daher culture – fair,aber nicht kulturunabhängig, weil Milieu und unterschiedliche Kulturen unterschiedlich abschneiden, auch wenn sie sprachfrei vorgegeben werden können) – Umsetzung von Tests in eine sprachfreie Instruktion meist keine Beachtung von verschiedenen Wahrnehmungstypen (optisch besser als akustisch; akustisch besser als optisch) – Gruppen- oder Computerverfahren stellen allerdings meist nur visuelle Anforderungen dar, aber keine akustischen (fragwürdige Fairness diesbzgl.) besonderer Aspekt der Fairness bezieht sich auf den Einfluss der Testerfahrung einer Person: manche Tests bevorzugen sogenannte Testroutinees bzw. benachteiligen viele Tests Personen, welche noch keine Erfahrungen mit Tests gemacht haben (Gewöhnung und Vertrautheit mit psychologischen Items)
Wie kann man eine hohe Durchführungsobjekivität gewährleisten? eine hohe Durchführungsobjektivität wird z.B. erreicht durch eine schriftlich genau festgelegte Instruktion sowie eine möglichst standardisierte Durchführung; die Interaktion wird dabei auf ein Minimum reduziert Halo – Effekt = ein Erwartungseffekt von Seiten des TL. Von einem hervorstechenden Merkmal wird auf andere Merkmale einer Person geschlossen => kann negative als auch positive Valenz gehen. Damit kommt es zu einer unwissentlichen Verzerrung gegenüber der TP, meist durch non – verbale Kommunikation wie Körperbewegungen, paralinguistisches Verhalten (Laute) und „Proxemics“ (der Abstand zwischen einander)
Was ist kriteriumsorientierte Diagnostik? - wird dann verwendet wenn man einen anderen Vergleichsmaßstab als die Testwertverteilung in der Referenzpopulation zur Interpretation eines Testwerts heranzieht Unterscheidung zwischen:1. soziale Bezugsnorm (Referenzpopulation) 2. individuelle Bezugsnorm (ein früherer Testwert der Tp) 3. sachliche oder „kriteriumsorientierte“ Bezugsnorm = wenn der Testwert auf ein bestimmtes Kriterium (Lern- oder Therapieziel) bezogen wird. Zuerst legt man sachlich begründetes Kriterium fest (z.B.: ein Lern oder Therapieziel) Die individuellen Testergebnisse werden an diesem Kriterium relativiert Kategoriale Einordnung der Testleistung => Kriterium erreicht/ nicht erreicht manchmal kann aber auch die soziale Bezugsnorm als Kriterium herangezogen werden (z. B. Nach Altersgruppe, nach sozialer Schicht)
Was ist normorientierte Diagnostik? - Als Ausgangslage dient eine Eichstichprobe aus einer Referenzpopulation zur Erstellung einer Normentabelle = soziale Bezugsnorm - Bei dieser Strategie werden die individuellen Testwerte an den Ergebnissen einer Referenzpopulation relativiert = soziale Bezugsnorm - Prozentränge geben eine dimensionale Einordnung der Testleistung - Voraussetzung für sinnvolle normorientierte Diagnostik = Eichung nicht veraltet, als Normstichproben sollten gültig sein

Learn online - when and where you want!

Diagnostik II (Subject) / Testtheoretische Grundlagen (Lesson)