Diagnostik (Fach) / LMU (Lektion)
In dieser Lektion befinden sich 59 Karteikarten
Vorlesungsfolien
Diese Lektion wurde von Lisa0411 erstellt.
Diese Lektion ist leider nicht zum lernen freigegeben.
- Was ist ein Test? wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.
- Was ist test (2)? systematisches Verfahren, Proband reagiert auf konstruierte Stimuli, aufgrund dieser Reaktion kann Testanwender den Probanden Zahlen zuordnen von denen er auf das Vorhandensein und die relative Merkmalsausprägung schließt
- Abgrenzung Test gegenüber Experiment? Bei Exp wird mind eine UV manipuliert, bei Tests nicht, Testitems somit keine UVs. Rost sieht aber Test als spezielels Exp mit Ziel vergleichende Aussagen über Personen abzuleiten
- Items bestehen aus Stimulusteil/Itemstamm und Antwortformat/Reaktionsteil
- Testskala = Satz von Items (mehrere Items eines Tests) die spezfischen mit jeweiligen Testskala verbundenen Skalierungseigenschaften genügen
- empirische und numerische Abbildung? Abbildung eines empirischen Relativs in ein numerisches Relativ Beziehung zwischen emp R und num R soll homomorph (gleichförmig) seib
- Was ist Testtheorie`? Testtheorien befassen sich mit der Frage wie die empirischen Testwerte und die zu messenden (tatsächlichen) Merkmalsausprägungen zusammenhängen - Zsh Testverhalten und dem zu erfassenden Merkmal oder: DIe Frage nach den Anforderungen denen ein Test genügen muss um aufgrund eines Testergebnisses auf die tatsächl Ausprägung des getesteten Merkmals schließen zu können. Aus Testtheorien können die Gütekriterien und deren Berechnung abgeleitet werden.
- Potentielle Fehlerquellen tatsächliches Merkmal eines Menschen -> Messung -> Abbilödung des Merkmals im Messergebnis - Proband: Tagesform, Motivation ... - Diagnostiker: Durchführung, Auswertung, Interpretation - Messinstrument: Reliabilität, Validität
- Standardisierung? Grundvoraussetzung für Erfassung und Interpretation von interindividuellen Unterschieden? Standardisierung: Messwerte aus tests können inter und intraindividuell nur dann sinnvoll miteinander verglichen werden, wenn die jeweilige Untersuchungsbedingungen (z.B. Material, Instruktionen, Sitbedingungen) konstant gehalten werden bzw identisch sind.
- Welche Grundvoraussetzungen für die Erfassung und Interpretation von individuellen Unterschieden? - Standardisierung - Differenzierung - Objektivität - Reliabilität - Validität
- Differenzierung Test und Durchführungsbedingungen sollten so gestaltet sein dass sich die Merkmalsträger im interessierenden Vh maximal voneinander unterschieden (und gleichzeitig geringe Unterschiede hinsichtlich irrelevanter Variablen bestehen)
- Objektivität die zwischen Merkmalsträgern auftretende Varianz muss UNabhängigvon der Person des Versuchsleiters registrierbar sein, z.B. feste Durchführungs, Auswertungsvorschriften...
- Reliabilität Messpräzision Merkmalsausprägungen müssen z.B. zeitlich stabil sein (Retestreliabilität) d.h bei einer Messwh bei gleichen Personen und unter gleichen Bedingungen zu ähnl Ergebnissen führen - > dort wo inhaltlich sinnvoll
- Validität messt der Test was er messen soll - belegen dass der Test das misst was zu missen vorgibt - Validieren mit einem Außenkriterium oder einem Indikator für ein solches Außenkriterium (z.B. ein anderer Test)
- standardisierte Tests? geeicht wenn Tests wissenschaftlich entwickelt wurden, hinsichtlich wichtigsten Gütekritierien untersucht, unter Standardbedingungen durchführbar und normiert
- Leistungstests? wenn Aufgaben entweder richtig oder falsch zu beantworten sind , also ein verbindlicher Beurteilungsmaßstab vorliegt, maximales Vh Arten: IQ Tests, Entwicklungstests, Schultests... bei Persönlichkeitsfragebögen spielen objektive Beurteilungsmaßstäbe keine Rolle, typisches Vh
-
- Speed Tests vs Powertests (Niveau) Speed: enthalten rel leichte Aufgaben, in Anzahl die von praktisch keinem Probanden innerhalb knapp bemessenen Zeit alle beantwortet werden können. Differenzierung zw Vpn wird nur durch die Begrenzung der Bearbeitungszeit erreicht. Je schneller die Aufgaben (richtig) gelöst werden, desto höher der Testwert. Niveau: Aufgaben die in Schwierigkeitsgrad kontinuierlich ansteigen, so dass letzten Aufg trotz fehlender Zeitbegrenzung nur von sehr wenigen Pbn gelöst werden (z.B. Matrizentest) -> Denkkraft (power) oder intellektuelle Niveau Meisten Tests sind Mischformen: Aufgschwierigkeiten streuen und Zeitbegrenzung
- ein vs mehrdimensionale Tests? eindim: wenn ein Test nur ein Merkmal bzw Konstrukt erfasst mehrdim: wenn ein Test mehr als ein Merkmal erfasst KTT befasst sich nur mit eindimens Tests, so dass die einzelnen Dimensionen mehrdim Tests separat (in Subtests) zu analysieren sind Dimensionalitätsprüfung: ob Test wirklich eine best (intendierte) Anzahl von Konstrukten erdasst lässt sich mittels Faktorenanalyse prüfen.
- Sprachliche Gestaltung von Items? - zu allgemeine (vieldeutige) Formulierung vermeiden - Generalisierungen vermeiden - möglichst an konkretes Vh orientieren - unklarer Antwortbezug - Fremdwörter - mehrere Gedanken in einem Satz - Negationen (Mehrfachverneinungen) Vermeide: mehrdeutige Begriffe (oft), Begriffe die nicht alle kennen, keine "und" Gedanken, positive Formulierung, Eindeutigkeit der Frage an kleinen Test sp überprüfen
- Validität einer Aufgabe? valide wenn sie von Pbn mit starker Merkmalsausprägung häufiger richtig beantwortet wird als on Pbn mit geringer Merkmalsausprägun (Trennschärfe) Rel: gleiche Antworten bei kurzzeitiger Messwdh Objektivität: von verschiedenen Ausweerter gleichermaßen als richtog oder falsch beurteilt
- Trennschärfe und Itemschwiergkeit umgekehrte U Form Zu leichte Items werden von allen gelöst, zu schwere von keinem Item trennt am besten (schärfsten) bei mittlerer Schwierigkeit
- Konzept des Messfehlers Messfehler umfassen die Gesamtheit aller UNsystematischen und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflussgrößen auf das Messergebnis Bsp. IQ Testergebnis einer Person setzt sich zusammen aus ihrer "wahren" Intelligenz und Messfehlereffekten (z.B. Müdigkeit)
- 2. Axiom der KTT Der bei häufiger Messwd erwartete Mittelwert der Messfehler ist 0, d.h. das es bei wdh Testanwendungen unter identischen Bedingungen zu einem Fehlerausgleich (Ausmittelung der Fehlerschwankungen) kommt und der gemittelte Testwert bei einer Person über alle Messungen dem wahren Wert nahezu entspricht
- 3. Axiom Höhe des Messfehlers E ist unabhängig vom (wahren) Ausprägungsgrad T des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert Bsp. : Fehlereinflüsse durch Tagesform sind bei Personen mit hoher und niedriger Intelligenz in gleicher Weise wirksam
- 4. Axiom Die Höhe des Messfehlers E ist UNabhängig vom Ausprägungsgrad der wahren Werte anderer Tests Bsp. Messfehler eines IQ Tests sollten z.B. nicht mit Testangst oder Konzentrationsfähigkeit (mit anderen tests gemessene persönlmerkmale etc) korrelieren.
- 4. Axiom Die Höhe des Messfehlers E ist UNabhängig vom Ausprägungsgrad der wahren Werte anderer TestsBsp. Messfehler eines IQ Tests sollten z.B. nicht mit Testangst oder Konzentrationsfähigkeit (mit anderen tests gemessene persönlmerkmale etc) korrelieren.
- 5. Axiom Messfehler verschiedener Testanwendungen (zB E1 und E2) sind voneinander unabhängig d.h. ihre Messwerte sind unkorreliert Bsp.: Personen die bei einer Testanwendung besonders müde sind oder hohe Testangst haben sollten bei einer Testwdh keine analogen Effekte zeigen
- Reliabilität (und Varianz) R gibt Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an!! -> wichtigste und zentrale Ableitung aus den Axiomen der KTT
- Bsp R =.80 beobachtete Varianz der Testwerte zu 80% auf wahre Unterschiede zwischen Testpersonen und zu 20% auf Fehlervarianz zurückzuführen
- hohe Rel wozu? hohe R und kleiner Standardmessfehler in Praxis sehr wichtig, da dies die Breite der zu bestimmenden Konfidenzintervalle wesentlich mitbestimmt
- Standardmessfehler? - gibt die Streuung der beobachteten Werte um die entsprechenden wahren Werte bei Messwdhn einer Person an (Normalverteilung mit wahrem Wert in der Mitte) - Maß für den Anteil dewr Fehlerstreuung an der Streuung von Messwertern - derjenige Anteil an der Streuung eines Tests der zu Lasten seiner Rel geht!
- Standardmessfehler Berechnung se = s * Wurzel aus 1-R abhängig von Streuung und Reliabilitätskoeffizient R bei perfekter Rel beträgt er 0, bei fehlender Rel entspricht er der Streuung der beobachteten Werte, welche dann ausschließlich auf Fehlereinflüssen beruhen -> je reliabler ein Messinstrument desto kleiner der Standardmessfehler - je geringer der Standardmessfehler desto schmaler der Bereich in dem der wahre Wert mit best Wahrscheinl liegt z.B. 110 - (1,96*2) <w< 110 + (1,96*2) se= 2 -> untere und obere Grenze des Konfidenzintervalls
-
- Kritische Differenz Skalenwertdifferenz ist dann signfikant wenn sie größer oder gleich der krit Diff ist - Unterscheiden sich Testwerte eines Pbn auf 2 Skalen signifikant (intraindiv) - Unterscheiden sich die Skalenwerte von 2 Pbn auf derselben Skala signifikant (Interind) -> unterscheiden sich Testwerte 2er Probanden in einem test überzufällig voneinander oder durch Zufallseinflüsse Standardfehler: seDiff = s* Wurzel aus 2*(1-r) z Wert * Sediff z.B. 8*1,96 = 15,7
- Stichprobenabhängigkeit: durch Wahl homogener oder heterogener Spn die Rel künstlich heben oder senken Je homogener eine Sp desto geringer fallen jeweil. Korrelationen aus -> Varianz der Relkoeffizienten die allein auf Auswahl der Sp zurückzuführen ist Rel schwer zu generalisieren
- Probabilistische Testtheorie Item-Response-Theorie Testergebnis soll indikativ fpr best Merkmal der getest Person sein -> kein unfehlbares numerisches Äquivalent KTT: geht davon aus dass das testergebnis direkt, wenn auch mit Messfehlern behaftet dem Ausprägungsgrad des gemessenen tatsächlichen wahren Merkmals entspricht. Zsh zwischen Personmerkmal und Testergebnis wird als a priori deterministisch angenommen (und keine Überprüfung mögl) -> Testwert = wahrer Wert + Messfehler Probabibilistische TT: legt nicht im vorhinein fest WIE der Zsh zwischen Merkmalsausprägung und Testergebnis zu sein hat, vielmehr unterscheidet sie explizit zwischen Merkmalsebene (latente Variablen) und testebene (manifeste Variablen) und betrachtet das Testergebnis lediglich als Indikator für das entsprech Merkmal
- IRT und KTT Beziehung zw Merkmal und Indikator meist als Funktion ausgedrückt, probabilistische Bezihung Hauptunterschied zur KTT: bei IRT wird hypothetisch festgelegte Funktionsform empirisch darauf geprüft ob sie auch tascählich vorliegt KTT siedelt Testwerte und wahre Wert auf gleichem Kontinuum an Prob TT: betrachtet 2 verschiedene Arten von Variablen zwischen denen ein prob Zsh besteht Fähigkeitsparameter (Personenparameter, ability beta, Merkmalsausprägung des latenten Traits): Fähigkeit einer Person best Testitem zu lösen Schwierigkeitsparameter (Itemparamater, Anforderungsparameter, difficulty): Anforderung welche ein Item stellt an die Fähigkeit der Person von Auspägung beider Parameter soll probabilistisch abhängen ob Item gelöst wird oder nicht, d.h. jeder Parameterkonstellation wird ein best Wahrscheinlwert zugeordnert mit dem Item gelöst wird
- Kriteriumsorientierte Leistungsmessung/Tests Leistungen der Pbn werden mit inhaltlich definierten Zielen verglichen (z.B. Lerh- oder Therapieziele) Bsp. Hat Schüler best Rechenleistung erreicht? Best Therapiezile erreicht? NICHT mit Normwerten einer Eichstichprobe Kriterium: Lehrziel, das man erreichen kann, Leistungskontinuum auf dem man unterschiedl Positionen einnehmen kann
- Realnoem vs Idealnorm Real: Kennwerte einer Bezugsgruppe wie in KTT Ideal: repräsentativer Kanon von Anforderungen -> Kriteriumsorient Tests sind IDEALnormiert
- Inhaltsvalidität höchstes Ziel, da die Aufgaben Stichproeben des Ziel- dh. Kriteriumsverhaltens sein sollen -> Sicherung der Inhaltsvalidität pber diverse Methoden wie z.B. Expertenbefragungen und theoret Ableitungen
- Inhaltsvalide Itemmengen wenn sie... - Gesamtheit der Kriteriumsleistungen umfassen (z.B. alle Vokabeln die abgefragt werden sollen), dann ist Inhaltsvalidität maximal, - repräsentative Auswahl (am besten per Zufallsauswahl) umfassen
- Setzung angemessener Normen: Idealnormen sachgerecht (z.B. Vorfahrtsregeln bei Führerscheinprüfung, nachweislich notwendig) realitätsangemessen - Bestimmung eines kritischesn Punktwerts (cut off)
- Wie kommt man zur Auswahl von Items für Prüfung nach KTT? - Rational (deduktiv) - Induktiv (Faktorenanalytisch) - External (kriteriumsbezogen) - prototypisch
- Itemsauswahl: Rational Skalenkonstruktion erfolgt rational wenn Items aufgrund eines theoretisch fundierten und explizierten Konstrukts deduktiv abgeleitet werden - Vorliegen einer Theorie darüber wie sich Personen hinsichtlich best Merkmale beschreiben lassen und unterscheiden - nähere Spezifizierung und Definiton des Konstukts z.B. Subkategorien, sowie von Vhindikatoren anhand derer sich diese hypothetischen Konstrukte im Vh erkennen lassen (z.B. Lösen best Aufgaben) - für jeden Bereich dann Items in Form von Fragen/Aufgaben nach mögl Vhweisen zu Skalen oder Subtests zusammenstellen - Validierung der Skala an einem Kriterium
- Skalenkonstruktion: external (kriteriumsbezogen) wenn Items aufgrund ihrer Diskriminationsfähigkeit zw Mitgliedern verschied Gruppen (und nicht aufgrund inhaltl Bedeutung) zusammengestellt werden - Vorliegen mind 3 gruppen, zwischen denen Test diskrimieren soll: z.B. Depressive vs Gesunde inhaltlich breit gefächerte große Auswahl Items vorgelegt, einige die zwischen Gruppen empirisch diskriminieren also unterschiedl Lösungsmöglichkeiten zeigen
- Skalenkonstruktion: Induktiv wenn Items blind-analytisch mittels einer Faktorenanalyse zu Skalen gruppiert werden die hoch miteinander und möglichst gering mit Items anderer Skalen (Einfachstruktur) korrelieren und damit gemeinsam eine Dimension konstituieren - möglichst umfangreicher und für Zielkonstrukte repräsentat itempool wird eine rmöglichst umfangreichen reprä Personen-Sp zur Beantwortung vorgelegt - mittels FA werden die Items zu Gruppen hoch interkorrelierende Skalen zusgefasst (Ziel Einfachstruktur) - einzelnen Faktoren oder Skalen werden interpretiert indem man nach einer Gemeinsamkeit aller Items einer Skala gesucht wird
- Skalenkonstruktion: Prototypisch wenn überwiegend solche Items zu Skalen zusgefasst werden die für eine Dimension (zB aggressiv) besonders prototypisch oder zentral sind z.B.an Person denken ans Umfeld bei der besonders ausgeprägt, konkrete Vhweisen nennen die indikativ sind -> Act Frequency Approach: Häufigkeitsansatz
- Kombination verschiedener Skalenkonstruktionsmögl z.B Items rational und prototypisch erdacht, mittels der Ergebnisse einer FA bereinigen und dann an Extremgruppen überprüfen - da rational und induktiv entwickelte Skalen inhaltlich homogener sind (Items korrelieren höher miteinander) als external konstruierte Skalen weisen sie auch höhere interne Konsistenz auf und idR höhere INTERNE Reliabilität bei gleicher Testlänge - Stichprobenanfälligkeit, besonders bei induktiv konstruierten Tests
- Bausteine Test Itemschwierigkeit, Trennschärfe und Homogenität
- Gütekriterien Test im Ganzen charakterisieren im Rahmen der KTT sog Häuptgütekriterien: grundlegende Frage: Wie gut wird durch den Test das empirische Relativ (zB erfasste Intelligenz) im numerischen Relativ (zB IQ, zugeordneten Zahl) abgebildet?
- Hauptgütekriterien (unter allen Umständen verbindlich) Haupt: - Objektivität (Durchführung, Interpretation, Asuwertung) - Reliabilität (innere Konsistenz, Stabilität) - Validität (Inhaltsvalidität, Konstruktvalidität, Kriteriumsvalidität)
-