Grundlagen psychologischer Testverfahren

Eignungsdiagnostik und Personalentwicklung (Subject) / Grundlagen psychologischer Testverfahren (Lesson)

There are 26 cards in this lesson

Heft 2

This lesson was created by Aglae.

Learn lesson

This lesson is not released for learning.

Was ist Diagnostik? - 2 Definitionen - Zusammenfassung, Basics - Fokus, Merkmalstraeger (5), Finalität - Ursprünge: Biebel, China - Alpha-Fehler, Beta-Fehler - Neure Zeit: Staffelprinzip, dann explosionsartig entwickelt - Partnerdisziplin? Fokus Diagnostik (altgriechisch) = gruendlich kennenlernen, beurteilen, entscheiden Defintion 1:Bestimmung der individuellen Eigenart durch exakte Beobachtung und Messung interindividueller Differenzen in psychologischen Merkmalen interindividuell = zwischen verschiedenen Personen intraindividuell = innerhalb einer Person Definition 2:- angewandte Psychologie- interindividuelle Unterschiede im Verhalten und Erleben- intraindividuelle Merkmale und Veraenderungen + Bedingungen=> praezise Vorhersagen kuenftigen Verhaltens Zusammenfassung:- interindivudelle Unterschiede im Fokus, die durch Methoden erkennbar werden- Merkmalstraeger: Einzelpersonen(zB zwei Bewerber) Personengruppen (zB zwei Produktionsabteilungen) Institutionen (zB Unternehmen) Situationen (verschiedene Unterrichtsformen oder Vergütungssysteme) Gegenstaende (unterschiedlich gestaltete Büroräume)- Veränderung ueber die Zeit- präzise Vorhersagen ueber Erleben und Verhalten angestrebt Potenzial erfassen, obwohl noch nicht vorhanden => Einsatz festgelegter Untersuchungsverfahren zur Messung von Kompetenzen, Erlebensqualitaeten, VerhaltenstendenzenZiel: Sinnvolle Massnahmen ableiten (ZB, Fuehrerschein zurück, Therapieform, Studienplatz) Finalität: Psychodiagnostik hat immer ein ZielEvaluation: Geplanter Sollzustand erreicht? Urspruenge psychologischer Diagnostik: - Biebel: Altes Testament, Große Schlacht, nur die wie Hunde aus dem Fluss tranken kamen mit Schlacht gewonnen- 1100 v.Chr. chinesische Regierungsangestellte, jaehrlich erneuter Test 7JH China, Standardisierung von Testverfahren: landesweite schriftliche Tests => objektive Auswahl: Viele kommen zu gleichem Ergebnis Selektionsrate <1% Alpha-Fehler sehr klein (keine falsche Entscheidung) dadurch aber auch Beta-Fehler (viele gute abgelehnt) funktionierender Staatsapparat beide funktionierten, Erfolg => valide Tests Neuere Zeit:- konkrete Platzierungen immer wichtiger- erster Intelligenztest Frankreich: Sonderschule? 1905 Staffelprinzip: Aufgaben koennen mit bestimmter Wahrscheinlichkeit von einer Altersgruppe geloest werden Merkmale: Achtsamkeit Gedaechtnis Verstaendnis motorische Faehigkeiten moralische Haltung hält heutigen Gütekriterien nicht stand: Items können nicht ausreichend gut differenzieren sehr sprachabhängig: kultur- und bildungsabhängig- dann explosionsartige Entwicklung von tests a) Anwendugsdisziplinen gerecht werden b) Grundlagenforschung Psychologische Diagnostik = Parnterdisziplin der Differenziellen Psychologie = Intelligenz und Persönlichkeit quantifizieren quantifizieren = beschreiben, strukturieren, messbar machen
Diagnostische Aufgabenbereiche: - Diagnostisches Dreieck zeichnen und alle Disziplinen erklären - 3 Extradisziplinen diagnostisches Dreieck: wechselseitige WirkungsbeziehungenzB müssen sich die Methoden an neusten Erkenntnissen aus Grundlagendisziplin orienterien und veränderte Anforderungen der Anwendugsdisziplinen einstellen innen: Psychologische Diagnostik Aussen: Rahmenbedingungen:- soziale- Kultur: Akzeptanz?- Wirtschaft: Ökonomisch?- Technik: Am Computer? linke Seite: Methoden- Exploration- Interview- Befragung- Fragebogen- Testverfahren- Verhaltensbeobachtungen=> spezifische Vor und Nachteile je nach Fragestellung rechte Seite: Grundlagen- Differenyielle Psychologie- Sozial-psychologie- Motivations-psychologie- Kognitions-psychologie- Sprach-psychologie- Entwicklungs-psychologie untere Seite: Anwendungen- Arbeits-psychologie = Ausbildungs und Berufswahl, Berufseignungsdiagnostik, Weiterqualifizierung- Organisation-psychologie = Umstrukturierungsmassnahmen (Institution): Arbeitsgruppen (Personengruppen), Mitarbeiter (Personen) in neue Aufgabenbereiche (Situation) mit neuen Produktionsmaschinen (Gegenstaende)- Forensische-psychologie = Schuldfähigkeit, Selbststeuerungsfaehig?, Reifebeurteilung, Glaubwürdigkeit, Erinnerungsfähigkeit Bezieht sich auf viele Grundlagendisziplinen- Pädagogische-psychologie = Erziehung und Bildung, Schulfaehigkeit, Schullaufbahn, Studienberatung,- Klinische-psychologie = psychische Störungen differenzialdiagnostisch identifizierenm Interventionsstrategien, evaluieren - Verkehrs-psychologie = Eignung für Strassenverkehr, Sicherheit, Platzieren von Schildern, Massnahmen- Werbepsychologie = Produkt, Verpackung, Markauftritt- Marktpsychologie = Hat Zielgruppe den Fernseher zur richtigen Zeit eingeschaltet- Pharmakopsyhchologie, Gesundheitspsychologie..
Diagnostik: Rechtliche Grundlagen ethische Aspekte Rechtliche Grundlagen: - keine spezifischen Gesetze: allgemeine Gesetze- Grundrechte! Die Würde des Menschen und freie Entfaltung der Persönlichkeit ist unantastbar- Präambel deutsche Gesellschaft für Psychologie Würde und Integrität des Individuums achten, Entfaltung und Schutz = fundamenta Besondere Verantwortung!- Freiwilligkeit! Informationelle Selbstbestimmung (Ausnahmen: richterliche Anordnung) ausreichende Infos über Untersuchungsmethoden und Ziele und mögliche Konsequenzen- Paragraf 203 Strafgesetzbuch: Verletzung von Geheimnissen anderer Ärzte, Apotheker, Sozialarbeiter, Psychologen Hohe Strafen da Berührung mit GG Schweigepflicht schützt auch Psychologen selsbt Farhlässigkeit schützt vor Strafe nicht Ergebnisse nur anonymisiert- Datenschutzgesetz: Anonymisierung- Zeugnisverweigerungsrecht: hat Psychologe nicht! Nur einzelne Berufsgruppen (u.a. psychologischer Psychotherapeut usw)- gutachterliche Tätigkeiten: besindere Vorsicht, Privatgutachten = Vertrag (Auftrag): Darf keine Fehler haben, sonst Schadensersatz gerichtlich beauftragt: Haftet nur wenn Vorsatz, Fahrlaessig- Betriebsverfassungsgesetz und Personalvertretungsgesetz Betriebsrat muss über Personalmassnahmen informiert werden, hat ggf Mitbestimmungsrecht Persönlichkeitstests nur wenn von entscheidender Bedeutung
Grundlagen diagnostischer Verfahren: Diagnostische Modi - Selektionsdiagnostik (zB, zentral) - Modifikationsdiagnostik (zB, zentral) - Unterschied - trait, latent, Konstukt, manifest, Diagnostische Modi: Strategien und Modellannahmen a) Selektionsdiagnostik - zB Auswahl Studenten, Mitarbeiter (eher institutionell)- zentral: trait (Eigenschaft) - zeitlich stabile, situativ konsistente Dispositionen bestimmtes Verhalten zu zeigen - nicht direkt beobachtbar hypothetische (latente) Konstukte lassen sich nur aus beobachtarem (manifestem) Verhalten schließen = Indikatoren (Validierungsstudien) - zB Intelligenz, Persönlichkeit- eignungsrelevante Eigenschaften von Bewerbern werden verglichen- ausgehen von stabilität und situativer Konsistenz lässt sich Verhalten prognostizieren b) Modifikationsdiagnostik- Veränderungen, zB klinisch- zentral: Verhalten stabiles und konsistentes Eigenschaftsmodell wäre hinderlich => Verhaltensdiagnostik nicht Eigenschaftsdiagnostik- Verhalten wird ohne Umweg aus vergangenem Verhalten geschlossen kein Umweg über Eigenschaften- Tests = stichproben des Verhaltens zB Führerscheinprüfung- auch situationsabhängig, also auch kontextbezogene Interventionen (zB arbeitsabläufe) => Grundverschieden in Art der Finalität und Annahmen über Gegenstand der Diagnostik
Grundlagen diagnostischer Verfahren: Bezugsrahmen der Entscheidung - 2 Möglichkeiten nennen und erklären Woran orientiert sich die Entscheidung (Diagnose): 1. Normorientierte Diagnostik - Bezugsrahmen = Bezugsgruppe statistische Bezugswerte = Normen- Ergebnis wird in Bezug zur Eichstichprobe ausgedrückt und interpretiert- zB Mittelwert der Gedächtnisleistung, IQ Standardabeichung,- Perfomance = Verhältnis zur Zielgruppe- Annehmen/Ablehnen? Viel viel % der Bezugsgruppe dürfen besser sein?- Selektionsdiagnistik ist häufig Normorientiert 2. Kriteriumsorientierte Diagnostik - Bezugsrahmen = extern festgelegtes Kriterium vollständig unabhängig von der Performance anderer- zB wird vorher festgelegt was der Bewerber können muss es kann auch niemand eingestellt werden- im klinischen Bereich selbstverständlich Kriterienkataloge für Diagnosen
Grundlagen diagnostischer Verfahren: Testtheorie - Klassische Testtheorie: Grundlagen, 3 Axiome, Zusatzannahmen, Reliabilität, Praktische Implikationen - Kritik an Axiomen - Probabilistische Testtheorie Testtheorie = Basis der Testkonstruktion - Anforderungen an die Eigenschaften von Test- Fahrplan für Konstuktion- 2 wichtige Ansätze 1. Klassische Testtheorie (KKT) - (noch) deutlich verbreiteter- Schwerpunkt = Genauigkeit der Messung daher auch Messfehlertheorie genannt Objektivität = von allen Beobachtern gleich Reliabel = genau, fehlerfrei, zuverlässig Valide = das gemessen was er soll- Grundfrage: Mit welcher Sicherheit kann von beobachtetem Wert auf wahren Wert geschlossen werden?- Theorie basiert auf Axiomen (gesetzten Grunannahmen die nicht hinterfragt werden können) Axiom 1: Existenzaxiom Es gibt einen wahren Wert (Messung ohen Messfehler) und er entspricht bei unendlich vielen Messungen am selben Objekt dem Erwartungswert (Mittelwert) Axiom 2: Verknüpfungsaxiom Beobachter Wert = Wahrer Wert + Fehlerwert x = w + e Fehlerwert- zufällig, unsystematisch, nicht kontrollierbar- Summe aller Einflussgrößen und deren Wechselwirkungen- zB Stimmung, Raumtemperatur, Lautstärke Axiom 1 + Axiom 2:- Erwartungswert von e ist also Null, da sich zufällige Schwankungen ausmitteln- Reine Theorie, man kann einen Test nicht unendlich oft wiederholen (zB Lerneffekte) Axiom 3: Unabhängigkeitsaxiom Wenn der Erwartungswert des Messfehlers Null ist, können wir davon ausgehen, dass er unabhängig vom wahren Wert ist:r(e1, w1) = 0 - zB intelligenz korreliert nicht mit Raumtemperatur Ableitung von 2 Zusatzannahmen: 1. Messfehler auch vom wahren Wert andere tests unabhängig - zB von einem späteren Persönlichkeitstest 2. Messfehler zweier Tests sind unabhängig von einander => Alle Axiome haben große Relevanz für Gütekriterien und Testkonstruktion Reliabilität berechnet sich direkt aus Axiom 2: Varianz der Messwerte = Varianz Wahrer Wert + Varianz Fehlerwertsx2 = sw2 + se2 Reliabilität (rtt) also Messgenauigkeit:Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte Reliabilität = Varianz wahrer Wert / Varianz Testwert rtt = sw2 / sx2 => Werte zwischen 0 und 1rtt = 1: Varianz wahrer Wert = Varianz Testwertrtt = .85: 85% wahre Unterschiede = gut! Praktische Implikationen: - 5 Pax motorischen Leistungstest- Testmanual: rtt = .90- Personen unter Populationsmittelwert 100 sollen ausgeschlossen werden- Kandidat S. = 99 Punkte, was nun??- Vertrauensintervall je kleiner Reliabilität desto größer ist das Intervall Kritik an Axiomen: - Axiom 1: Messfehler kann wohl mit wahrem Wert korrelieren zB Prüfungsangst ist kleiner umso mehr Wissen- Axiom 2: Messfehler zweier Tests können korrelieren zB Prüfungsangst ist auch in anderen Tests vorhanden also Fehlerhafte Messung - Axiom 3: Wahrer Wert verändert sich mit der Zeit keine bedingungslose Invarianz gegebene Reliabilität ist also gar nicht oder nur kurzfristig gegeben 2. Probabilistische Testtheorie - will Nachteile der KKT überwinden- geht von Zusammenhang zwischen Testergebnis und Messfehlern aus- höhere Anforderungen, mindestens 60-70 Items pro Eigenschaft- Vorteil: Adaptiv testen: Folgefrage ist von antwort abhängig (zB nach falschen Antworten leichtere) allerdings PC nötitg nach kurzer testung (ca 15 Items pro Eigenschaft) hinreichend exakt- hohe Konstruktionskosten, noch anspruchsvollere Methoden
Rund um den Test: Einführung - Basics - Vorteile - Test definition - wissenschaftlich? - Fragebogen vs Test? Basics: - "Testphobie" Zurückhaltung vor Tests- v.a. USA: große Debatte Testfairness und Intelligenz (Intelligenztests: diskriminierend und unfair)- Tests und Persönlichkeitsfragebögen sind für Einstellung nicht beliebt- wenig Akzeptanz.. angeführter Grund ist Mangel an unmittelbarem Bezug zum Beruf- aktuell wieder aufwärtstrend von Intelligentests und Persönlichkeitstests- sehr viele unwissenschaftliche Pseudotests auf dem Markt Aber Vorteile!- Intelligenztests sagen Berufs- und Studienerfolg am besten vorher! berufsuebergreifende gültige Vorhersagen- zeit und kostengünstig- standardisiert und objektiv Test =- wissenschaftliches Routineverfahren- erfasst empirisch abgrenzbare Merkmale- quantitative Aussage ueber Grad der Merkmalsausprägung - nur sinnvoll wenn Fragestellung objektiv, zuverlässig und gültig beantwortet- nicht generell, immer bezogen auf Personen, Fragestellung, Anwendugskontext- wissenschaftlich überprüft: Objektiv Zuverlässigkeit Gültigkeit (zB Eignung für einen bestimmten Beruf)- Ausprägung: Rohwert = genauer Zahlenwert für eine Person (15 = 15 Aufgaben richtig gelöst) wird üblicher Weise zu Referenzgruppe in Beziehung gesetzt- auch bei Fragebogen! Fragebogen sind aber != Tests weil es keine richtigen oder falschen Antworten gibt
Rund um den Test: Klassifikationen von Tests: 3 Arten von Tests - 1: was getestet? 7 Arten - Intelligenzmodell von Horn und Cattell? - akademische Intelligenz - Investment Theorie - 2: was getestet? Beispiele, Schwierigkeit? Unterschied zu 1? - 3: was wird getestet? A. Arten von Tests: 3 Bereiche 1. Leistungstests - maximal mögliches Verhalten- besondere Anstrengung != typische, alltaegliche Leistung- kann nur zum schlechteren Verfaelscht sein a) Intelligenztests - sehr viele Tests, Vorstellungen, Theorien, Modelle..- häufige Definition von Intelligenz: Weise handeln vernünftig denken effektiv mit Umwelt umgehen Anpassung an neue Aufgaben abstraktes und konkretes Denken (sprachlich, figural, numerisch, räumlich)- mögliche Tests spezifische Intelligenztests: eine Komponente der Intelligenz Gesamtwert: akademische Intelligenz sprachlichm vs. nicht-sprachlich Speed- oder Powertest Einzel- oder Gruppentest bestimmte Personengruppe (Kinder) oder Allgemeinbevölkerung Intelligenzmodelle: meist hierarchisch Horn und Cattell: zwei übergeornete Intelligenyzfaktoren a) Fluide Intelligenz (erblich bedingt)=> Lernen, Schlussfolgern, Problemlösen, Mustererkennung b) Kristallisierte (kristalline) Intelligenz=> erworbenes Wissen akademische Intelligenz: (auch allgemeine Intelligenz)- Kerndimensionen: schlussfolgerndes Denken (numerisch, figural-räumlich, verbal) oft auch Merkfaehigkeit, Bearbeitungsgeschwindigkeit manchmal Kreativität- gehören nicht dazu: auditive Intelligenz (Tonreihen fortestzen usw) soziale Intelligenz (Gedaechtnis für soziale Strukturen, Personenmerkmale, Wahrnehmung und Verständnis von Emotionen) b) Wissenstests - manche Bestandteile von Intelligenztest, aber != fluide Intelligenz- Wissen, stärker Umweltabhängig- Investment Theorie: Personen mit hoher fluider Intelligenz ++ kristalline Intelligenz c) Kreativitätstests - manchmal Bestandteil von Intelligenztests- sehr schwierig zu bewerten daher sehr selten zB ganz viele Verwendugnsmöglichkeiten für einen Backstein d) Aufmerksamkeits- und Konzentrationstests - kein Konsens über Definitionen- Aufmerksamkeitn = selektive Wahrnehmung relevanter Reize- Konzentration = Fähigkeit unter erschwerten Bedingungen schnell und genau zu arbeiten alle Stufen der Informationsverarbeitung: (selekive Wahrnehmung, Aufmerksamkeit, Kombination, Speicherrung, Handlungsplanung)- typische Tests: Rechentests und Durchstreichtests einfache, klare, eindeutige Reize und Regeln mit Absicht ausgeführt Geschwindigkeit und Fehlerrate abbilden e) Entwicklungstests - Leistungsstand eines Kindes, Vergleich mit Normwerten- allgemeine Entwicklungstests vs spezielle Entwicklungstests f) Schultests - Schuleingangstests: Anforderungen gewachsen? nicht überfordert?- Schulübertrittstests: Weiterführende Schule- Schulleistungstests: objektives Ergebnis unabhängig vom Lehrer (zB Pisa) g) auch- Gedächtnistests- Bürptests- Lerntests 2. Persönlichkeitsverfahren - nicht maximales sondern typisches Verhalten- Selbsteinschätzung oder Fremdeinschätzung testen also nicht Eigenschaft sonder persönliche Einschätzung- häufig: Gewissenhaftigkeit, Extraversion/Introversion, emotionale Stabilität auch stabile Motive: Leistungsmotiv besondere Bedeutung: Leistungsmotivationsinventar (LMI)- objektive Persönlichkeitstests: verbergen Messabsicht zB Leistungsmotiv durch zurücklegen eines Weges am PC- möglichs wenig verzerrt: gute Selbsteinsicht, korrekte Wahrnehmung, Erinnerungsvermögen, Ehrlichkeit, Motivation- schwierig, wie häufigkeit/schwere bestimmen? Worte wie häufig, oft werden unterschiedlich definiert- Rating Skala- keine optimale Ausprägung, also kein richtig oder falsch- leicht verfälschbar 3. apparative Verfahren - sensorische und motorische Merkmale aber auch kognitive Fähigkeiten- zB sensumotorische Koordinationstests, Muskelkraft, Montage- und Hantiertests, Finger Labyinth-Tests 4. Weitere Tests: - Interessenstests (Berufsberatung und -wahl)- Projektive Verfahren & Integritätstests (Kontraproduktives Verhalten)
Rund um den Test: Klassifikationen von Tests: Weitere Unterscheidungen von Tests: - Sprachunabhängige vs sprachabhängige Tests - Gruppen vs. Individualstests - Speed- vs. Powertests - Paper-Pencil-Tests vs computergestützte Tests - Adaptive vs. klassische Tests - Exkurs: Stabile Motive (3) Sprachunabhängige vs sprachabhängige Tests: - Verzerrung durch sprachliche Fähigkeiten besonders beim offenen Antwortformat- sprachunabhängige Lesitungs- und Persönlichkeitstests: kulturübergreifend nutzen Bilder, Figuren (Bilderordnen, Figurenlegen, Bilder, soziale Situationen) Gruppen vs. Individualstests: - Einzeltests: ganze Aufmerksamkeit Testdaten, Verhaltensdaten, Fehler vermieden- Gruppentests: Ökonomischer aber auch Fehleranfälliger.. Speed- vs. Powertests: - Speed- oder Geschwindigkeitstests: wie viele Items in wie viel Zeit gelöst? einfach aber nicht ausreichend Zeit- Power- oder Niveautests: ansteigende Schwierigkeit, können Aufgaben gelöst werden? ausreichend Zeit komplexe kognitive Fähigkeiten- fast alle Tests: Mischformen, da Zeit aus ökonomsichen Gründen begrenzt Paper-Pencil-Tests vs computergestützte Tests: - Papier-und-Bleistift: günstiger, unabhängig von technischen Problemen- PC: ökonomischer, direkte Auswertung, weniger Fehler, exakte Reakionszeitmessung, dynamische Reize, höhere Akzeptanz, hoch standardisierte Durchführung- beide kommen zu vergleichbaren Ergebnissen (Ausnahme: Speedtests) Adaptive vs. klassische Tests: - klassisch: Festgelegte Menge identischer Items in festgelegter Reihenfolge- adaptiv: Auswahl der Items orientiert sich an Antworten in möglichst kurzer Zeit maximale diagnostische Info vermeidet Über- und Unterforderung Anhand probabilistische Testtheorie (Item Response Theorie) Nachteil: sehr viele Items benötigt, hohe Standards Exkurs: Stabile Motive: - Motive sind veränderbar (zB heute motiviert für Sport?)- Stabile Motive: überdauern und bestimmen Verhalten teilweise a) Lesitungsmotiv Personen versuchen bei Arbeit, Sport, Privatleben Aufgaben möglichst gut zu lösenb) Anschlussmotiv Beziehungen pflegen und Kontakte knüpfenc) Machtmotiv
Ansätze der Testkonstruktion: - 4 Strategien - von was abhängig? - deduktiv? induktiv? - Prototypizität - Strategie ist abhängig von Merkmal, Personengruppe, Kontextbedingungen- meist werden diese Strategien gemischt 1. Rationale Konstruktionsstrategie = Inhalt steht im Vordergrund - deduktiv: Schlussfolgerung gegebener Prämissen auf die logisch zwingenden Konsequenzen 1. Konstrukt wird definiert und Subkategorien identifiziert 2. aus Theorie werden abgeleitet wie sich eine hohe/niedrige Ausprägung zeigt 3. es werden Verhaltensindikatoren gesammelt => Fragen, Aussagen, Testaufgaben- zB Verhaltensindikator Extraversion: Knüpft schnell Kontakte- zB Intelligenztest: Faktor Auffassungsgeschwindigkeit: Zählen von Nullen und Vergleichen => schnelles und genaues Arbeiten 2. Externe Konstruktionsstrategie = Nutzen steht im Vordergrund - welche Items unterscheiden 2 Gruppen am besten? 1. sehr viele Aufgaben werden 2 Gruppen die sich auf das Merkmal bezogen stark unterscheiden (warum interessiert nicht) 2. Ergebnis wird an anderen Stichproben getestet um situative Effekte zu vermeiden- zB Perslnlichkeitstest: 1000 Items auf 566 Items reduziert 3. Induktive/faktorenanalytische Konstruktionsstrategie - induktiv = abstrahierenden Schluss aus beobachteten Phänomenen auf eine allgemeinere Erkenntnis- 1. Itempool an großen reprösentativen Stichoriben analysiert Items die hoch korrelieren = laden auf gemeinsamen Faktor werden zu Skalen gruppiert 2. Skalen werden mit Bedeutung versehen - zB Intelligenz-Strukturtsest 4. Konstruktion nach dem Prototypenansatz - Prototyp: zB Hammer für Werkzeug Theorie: Andere Objekte werden auf Ihre ähnlichkeit eingeschätzt je unähnlicher, desto größer überlappung mit anderer Kategorie (zB Korkenzieher)- Prototypizität auf Eigenschaften übertragen: zB Prototyp einer gewssenhaften Person Personen werden Verhaltensweisen vorgelegt und gefragt wie gut sie passen daraus wird Fragebogen konstruiert- Erweiterung: Act Frequency Approach 1. prototypische Verhaltensweisen generieren 2. an eine bekannte Person denken die so ist und konkrete Verhaltensweisen angeben 3. andere Gruppe schätzt Protozypität ein und nehemen Stellung wie sehr sie selber so sind => besonders gut bei schwer zu erfassenden Konstrukten wie Intelligenz
Rund um den Test: Testmaterial (5) Testmaterial = Testkoffer a) Testmanual - Entwicklung- Durchführung- Auswertung- Interpretation- Gütewerte- Normwerte b) Testheft/Fragebogen/Antwortheft - manche, extra Antwortbogen ökonomisch, aber größere Fehlerwahrscheinlichkeit c) Auswertungsschablonen/Auswertungsprogramm - PC: wengier fehler d) Profilbögen/Interpretationshilfen - graphische Darstellung- überblick individuelle Ausprägung- Vergleich mit Normgruppe- vereinfachte Interpretation e) Zusätzlich benötigtes Material - Schreibzeug- Filzstifte zum Markieren- Stoppuhren
Anforderungen an Testitems: - Sprachliche Verständlichkeit (4) - Eindeutigkeit des Items (7) - Itemschwierigkeit - Itemtrennschärfe - Weitere Anforderungen an Items (3) - homogene und heterogene Items Sprachliche Verständlichkeit: keine Fehlinterpretationene und Motivationseinbußen - positiv formuliert (besonders keine doppelte Verneinung)- einfach formuliert (keine verschachtelten Sätze)- nicht abgekürzt (zB, usw..)- nicht mit Fachbegriffen gesprickt, an Zielgruppe angepasst Eindeutigkeit des Items: In gleicher Weise verstanden => vergleichbar - Universalausdrücke (immer, nie, alle) vermeiden- konkrete Angaben zu Häufigkeit und Intensität (einmal wöchentlich)- Definitionen im Vorfeld- keine uneindeutigen Formulierungen (mein Freund fährt schnell Auto)- nur eine Aussage (nicht: ich bin offen UND ehrlich)- Zeit eindeutig (nich in letzter Zeit)- Antwortrichtung muss eindeutig sein (Zustimmung = hohe oder niedrige Ausprägung) Itemschwierigkeit: - soll mittel sein extrem leich und extrem schwer vermeiden: zeigen keine Unterschiede- Schwierigkeit einer Aufgabe = Anteil richtiger Aufgaben / Anteil aller Aufgaben Pi = NR / N 0 = schwer (keine richtig gelöst 1 = leicht (alle richtig gelöst) .5 = mittel (hälfte richtig gelöst- Persönlichkeitsfragebogen: stimmen viele zu: Hohe Ausprägung Itemtrennschärfe: - Korrelationskoeffizient des einzelnen Items und dem Testergebnis => wie gut kann ein Item zwischen Personen mit hohen/niedrigen Testwerten differenzieren- Voraussetzung: Homogene Items (messen ähnliches)- Werte zwischen -1 und +1 nahe +1: nur von Probanden mit hohem Testwert gelöst nahe 0: kann ncht zwischen Probandem mit hohem/niedrigen Testergebnis differenzieren misst also was anderes nahe -1: Nur Probandem mit niedrigem Testwert lösen dieses Item Korrelation mit hohem Testergebnis ist negativ- Items die große Varianz erzeugen => hohe Trennschärfe Weitere Anforderungen an Items: - aktuell (keine DM, politische Parteien, "Schreibmaschine")- wertungsfrei- nicht suggestiv (völlig wertlos) homogene Items: Messen Ähnliches heterogene Items: Messen unterschiedliche Aspekte, korrelieren nicht hoch
Testgüte: - Problem - Praxis der Personaldiagnostik (wissenschaft & praxis): Schaubild malen, Problem? - DIN-Norm-Eignungsdiagnostik, was ist das, Ziel, Qualitätskriterien und Standards zu 4 Dingen, Forderungen (4) Testgütekriterien: Eignungskriterien sehr oft von nicht-Psychologen angewendet=> Gefahr, dass : - wissenschaftlich unzureichende Testverfahren angewendet - nicht den Anweisungen entsprechen angewendet mangelnde Zusammenarbeit zwischen Wissenschaft und Praxis - Wissenschaftler tuen sich schwer allgemeinverständlich vermarkten - Praktiver wenig Nachfrage nach wissenschaftlichen Tests "wir haben das immer schon so gemacht" Ansicht selbst schon genug Psychologie zu verstehen Praxis der Personaldiagnostik: a) Wissenschaft = Kommunikationsprobleme - methodische Prinzipien- mathematische Verfahren- Gütekriterien- Messinstrumente- diagnostische Verfahren- Evaluationsmethodik- Forschungsergebnisse- Theorie b) Unternehmen (Praxis) = mangelnde Nachrage - Zeitdruck- materielle Ressourcen- Traditionen- Routine- Alltagspsychologie- Selbstvertrauen- learning by doing- Machtinteressen Zusammenverarbeit verbessern: DIN-Norm Eignungsdiagnostik - Basis System zur Beurteilung diagnostischer Verfahren Richtlinie für gesamten Prozess der Eignungsdiagnostikseparate (Richtlinien und Qualifizierungsansätze vereinen) Basis System zur Beurteilung diagnostischer Verfahren- Ziel: Qualitätssteigerung- Wissenschaftler und Praktiver haben mitgewirkt Qualitätskriterien und Standards: a) zur Planung berufsbezogener Eignungsdiagnostik b) zur Auswahl, Zusammenstellung, Durchführung, Urteilsbildung c) zur Interpretation der Verfahrensergebnisse und zur Urteilsbildung d) zu Anforderungen an die Qualifikation der Personen die beteiligt sind Forderungen: - diagnistische Verfahren sollen in der Praxis erprobt und wissenschaftlich abgesichert sein- unter vergleichbaren Bedingungen, nach festgelgten Regeln ausgewertet- nur Eingesetzt wenn Einsatz gerechtfertigt- sollen Hauptgütekriterien erfüllen Objektivität Reliabilität (Zuverlässigkeit) Validität (Gültigkeit)
Hauptgütekriterien: - jedes knapp erklären - Aggregationsprinzip - 19 JH Francis Galton versucht Intelligenz durch Geschwindigkeit Infoverarbeitung zu erfassen zu wenige Testdurchgänge pro Person: Messfehler mittelte sich nicht aus Methodischer Mangel: Zusammenhang nicht entdeckt => Reliabilität nicht berücksichtigt - bei Personen kann aber zB Angst nicht weggemittelt werden indem viele Personen gemitteln Mittelung (Aggregationsprinzip) geht also nur bei Individualdiagnise (Innerhalb Person) => durch mehrere Items im Test (pro Untertest) Reliabilität = wie sehr spiegeln die Werte die wahren Werte wieder = Zuverlässig, Messgenauigkeit = wie genau miss der Test Validität = misst der Test was er messen soll? Objektivität = Ergebnisse unabhängig vim Untersucher und der Situation?
Testgütekriterien: Objektivität: - Objektivität: Definition - 3 Phase => 3 Objektitiväten: Je Definition? und Beschreibung. 1: 2, Quantifizieren? - Kompetenz-Performance-Problem - Versuchsleitereffekte Objektivität = Ergebnis ist unabhängig vom Untersucher und der übrigen Testsituation dh verschiedene Untersucher kommen zm gleichen Ergebnis - nicht Art der erhobenen Infos (Selbst-/Fremdeinschätzung ist ja subjektiv)- Objektivität bezieht sich auf Testsituation (Untuersucher beudeutenster Teil) Objektivität ist in 3 Phasen gefährdet: - Durchführung- Auswertung- Interpretation Durchführungsobjektivität:=> hoch: Diagnostische Erhebung läuft bei allen gleich ab 1. Äußere Bedinungen - Beleuchtung, Raumtemperatur etc- realtiv leicht zu erfüllen 2. Testleiterunabhängigkeit - vielfältige Interaktionen.. besonder schwer, selten vollständig standardisiert- soziale Interaktion auf ein minimum Reduziern und möglichst Wortlaut vorschreiben- Perfekt nur wenn Versuchsleiter nicht mehr in Erscheinung tritt - Es gibt aber immer Personal.. - Auch Computer lösen differenzielle Reaktionen aus.. (positiv, negativ) - Außerdem können Versuchsleiter Kompetenz-Performance-Problem analysieren Wirkliche Leistung oder andere (psychologische) Probleme Versuchsleiter sorgt außerdem für lockere Stimmung - Hinreichende Quali und Schulung nötig- Durchführungsobjektivität quantifizieren? Test bei gleicher Person mehrmals durchführen: Korrelation => nicht zumutbar & Übungseffekte geht nicht!- Praxis: Durchführungsobjektivität ist okay wenn Testmanual mit Richtlinien- Störanfälligkeit = Nebengütekriterium Ausmaß in dem ein Test (habitueller Merkmalsunterschiede, also nicht aktueller Gefühle) unabhängig gegenüber aktureller Zustände der Person und situativen Faktoren ist zB inwiefernState-Trait-Angstinventar unterscheidet zwischen aktueller Zustandsangst und Ängstlichkeit als Trait Versuchsleitereffekte: - Halo-Effekt (durch bestimmte Erwartungen): => nonverbale Kommunikation: Verstärkung und Bestrafung zB Versuchsleiter hält attraktive Person für intelligent lächeln bei richtiger Antwort Person strengt sich noch mehr an = Rosenthal-Effekt (oder Pygmalion-Effekt) positive Einstellung => positives Ergebnis- Testleitereffekte ohne Interaktion durch Geschlecht! Intelligenztests mit 465 Kindern: Leistungsschwache Mädchen mit männlichen Testleitern schnitten bedeutsam besser ab Auswertungsobjektivität:=> hoch: jeder Auswerter kommt zum gleichen Ergebnis - Auswertung = Verrechnungs der Testleistung zu Testwerten (Kodierung) auch Verrechnungssicherheit genannt- je genauer im Manual spezifiziert desto besser- zB Intelligenztest K-TIM, Untertest auditives Verständnis: "wovor wurden die Kinder geretten" offenes Antwortformat, 9 Beispielantworten = zu wenig! Einschätzung ob Antwort einer richtigen Lösung entspricht ist also vom Auswerter abhängig mangelnde Auswertungsobjektivität- besodners problematisch: Projektive Verfahren zB Thematische Apperzeptionstests: Ganze Geschichte als Antwort 20 ausdrucksvolle, dramatische Szenen, Person bringt eigene Konflikte zum Ausdruck- gebundene Antwortformate (zB Multipli-choice-tests) verrechnungssicherer- Papier-Bleistift-Test: Problem Fehler beim Verrechnen- Auswertungsobjektivität kann quantifiziert werden gleiche Tests verschiedenen Auswertern vorgelegt: Gleiches Ergebnis? Korrelation Interpretationsobjektivität:=> hoch: Schlussfolgerungen aus Testergebnissen unabhängig von interpretierender Person - Interpretationseindeutigkeit?- normierte/geeichte Tests: Interpretation (nur): Einordnung des Ergebnis zur Referenzpopulation zB Rohwert 25 = Prozentrang 75 => 75% der Referenzpopulation schlechtere Ergebnisse- wenn Normstichprobe ausreichend groß und genügend fein abgestuft: Interpretationsobjektivität gegeben- Testmanual manchmal aus ökonomischen Gründen nicht mit allen Tabellen gespickt dann muss Auswerter interpolieren passiert nicht bei PC-Auswertung- bei eigener Einschätzung ohne Normstichprobe (zB klinische Diagnose oder so) reichen einzelne Interpretationsbeispiele nicht!!! => standardisierte, sprachlich formulierte Interpretationen nötig!- Projektive Verfahren sind nie interpretaionsobjektiv Erfahrung und Intuition des Testleiters
Testguete: Reliabilitaet: - Reliabilitaet - Retest-Reliabilitaet - Paralleltest-Reliabilitaet - Split-Half-Reliabilitaet - Interne Konsistenz - Cronbachs Alpha (Formel) Reliabilitaet:- Zuverlaessigkeit- Messgenauigkeit- wie Wenig ist der Testwert von Messfehlern verzerrt, wie wahrscheinlich ist es also bei Messwiederholung das selbe zu messen Retest-Reliabilitaet:- Korrelation von 2 Messungen an der selben Person- Abstand idR mehrere Wochen Paralleltest-Reliabilitaet:- Paralleltest: Test der das gleiche Merkmal erfasst, zB 2 Intelligenztests- korreliert das Ergebnis von zwei Paralleltests? - Spearman-Brown-Formel => hoehere Reliabilitaet beider Tests Split-Half-Reliabilitaet:- ein Test wird einfach geteilt => 2 Tests Spearman-Brown-Formel- siehe Paralleltest-Reliabilitaet- wenn Items ausreichend homogen (das selbe messen)- Nachteil: Ergebnis haengt auch davon ab welche Items welcher Haelfte zugeordnet werden Loesung ↓ interne Konsistenz:- Test wird in so viele Teile geteilt wie Items- mittlere Inter-Itemkorrelation mittels Spearman-Brown-Formel => vereinfachte Formel: Cronbachs Alpha α = m / m -1 * (1 - (Σ si2 / sx2)) sx2 = Varianz der Testwerte si2 = Varianz eines der m Items eines Tests
Testguete: Validitaet - Validitaet - Kriteriumsvaliditaet (echtes Aussenkriterium, Quasikriterium, Vorhersagevaliditaet, Uebereinstimmungsvaliditeat) - Konstruktvaliditaet (konvergente Validitaet, diskriminante Validitaet, faktorielle Validitaet, Extremgruppenvalidierung) Validitaet:= Gueltigkeit- Genauigkeit mit der dasjenige Merkmal gemessen wird, das gemessen werden soll Kriteriumsvaliditaet: - die Messungen korrelieren mit einer anderen konstruktvaliden Messung (dem Kriterium)- auch "empirische Validitaet"- wenn moeglich "echtes" Aussenkriterium = hoeherrangig, robuster, als der zu validierende Test zB Ausbildungs- oder Berufserfolg (erfasst durch: Zeugnisnoten, Vorgesetztenurteile etc)- "Quasikriterium" = nicht hoeherrangig als der Test zB andere psychologische Tests die das selbe Konstrukt erfassen muss seinerseits an einem echten Kriterium validiert werden behelfsweise verwendet weil leichter verfuegbar und erhebbar- Vorhersagevaliditaet (prognostische Validitaet): = Kriterium liegt in der Zukunft zB Ausbildungserfolg- Uebereinstimmungsvaliditaet (konkurrente Validitaet) = Kriterium liegt in Gegenwart zB Diagnose einer psychischen Stoerung Konstruktvaliditaet: - tatsaechlich das Konstrukt gemessen das gemessen werden soll? erwartungsgemaesse Ergebnisse (Zirkelschluss)- konvergente Validitaet Vergleich mit Konstruktnahen Merkmalen (hohe Korrelation?)- diskriminante Validitaet Vergleich mit Konstruktfernen Merkmalen (niedrige Korrelation?) zB Intelligenz und Gewissenhaftigkeit (unterschiedliche Konstrukte) schlechter Tests: Punktabzuege fuer unsaubere Ausfuehrung- faktorielle Validitaet (Faktorenanalyse) ganze Gefuege von Konstrukten und Variablen: erwartete Zusammenhaenge? Skalen die das selbe Konstrukt erfassen sollen auf den gleichen Faktor laden - Extremgruppenvalidierung: Unterschiedshypothesen wie zB Altersunterschiede Unterscheiden sich zwei Extremgruppen in ihrem Ergebnis? zB Leistungsmotivationstest bei Spitzensprotlern vs nicht Spitzensportlern => Nachweis Konstruktvaliditaet = Prozess: Nie Abgeschlossen, es werden immer mehr Indizien gesammelt Internetlexikon sagt Kriteriumsvaliditaet ist ein spezieller Aspekt der Konstruktvaliditaet
Nebenguetekriterien: - Normierung/Eichung was ist das? - Normstichprobe erheben (Faustregel, Repraesentativitaet, Anfallstichproben) - Normierung Eignugsdiagnostische Verfahren: Problem? - Aufspaltung Eichstichprobe - regelmaessiges Aktualisieren der Normdaten - einzelne Daten in Relation setzen zu Referenzpopulation a) Normalverteile Rohwerte Formel(n), Konventionen in Europa vs. Wechsler b) nicht Normalverteilte Rohwerte was tun? was bedeutet Prozentrang 88? c) nicht normalverteilte Rohwerte auf Standardskala ausdruecken - Stichprobenfehler Normierung (Eichung) => Basis der normorientierten Diagnostik (!= kriteriumsorientierte Diagnostik) Normstichprobe (Eichstichprobe) erheben:- hinreichend gross, sodass Stichprobenfehler gering- Faustregel 300 - 1000 - Repraesentativ: Kann kaum fuer alle reprasentativ sein fuer welche Merkmale (Geschlecht, Bundesland) soll die Stichprobe also repraesentativ sein? wenn ein Merkmal unabhaengig vom Test ist, braucht die Stichprobe in der Hinsicht nicht repraesentativ zu sein (zB Missverhaeltnis von Frauen und Maennern dann akzeptabel)- praktisches Problem: Grosser Aufwand (Zeitlich, Organisatorisch, Finanziell- schwer bestimmte Bevoelkerungsgruppen repraesentativ abzubilden deshalb manchmal garnicht versucht, sondern Anfallsstichproben = Personen im Umfeld (zB Klinikpersonal) oder Selbstnormierung (melden auf Anzeige)- Kinder sehr gut erreichbar (Schule) Normierung Eignugsdiagnostische Verfahren:- Problem (wie bei alles Freiwilligen): Test hat keine Konsequenzen, wahrscheinlich unterscheidet sich ihr Verhalten also von echten Testpersonen Aufspaltung Eichstichprobe:- nach Altersgruppen, Bildungsgruppe etc damit jeder hinreichend genau in seine Normgruppe eingeordnet werden kann- Stichprobenumfang muss fpr jede Gruppennorm gegeben sein! regelmaessiges Aktualisieren von Normdaten:- Merkmalsveraenderungen in der Bevoelkerung (zB Flynn-Effekt)- nach DIN 33430 nach spaetestens 8 Jahren einzelne Daten zu Referenzgruppe in Relation setzen:- frueher Aequivalenznorm (Mittelwert)- heute: Variablilitaetsnorm (Mittelwert und Streuung) a) Rohwerte unseres Tests sind Normalverteilt - Gesamte Verteilung ist anhand Mittelwert und Standardabweichung beschreibbar => lineare Transformationen! :)- relative Position des Testswerts: Wie viele Standardabweichungen unter/ober Mittelwert Rohwert => Z-Wert z-Wert = (Testwert - Mittelwert) / Standardabweichung z = (x - xquer) / sx- negative Z- Werte und z-Werte mit Nachkommastellen.. deshalb Multiplikation mit Faktor und Addition einer Konstanten zB Wechsler-Intelligenztest: Konstante = 100, Faktor = 15 z * 15 + 100 = IQ Problme hoher Messwert vermittelt hohe Messgenauigkeit, daher meist kleinere Werte - Z-Skala: Mittelwert = 0, Standardabweichuhng = 1 daher Mittelwert = Konstante, Standardabweichung = Faktor- alle Standardskalen und Prozentrangskala koennen ineinander ueberfuehrt werden- Konvention in Europa: alle Werte +/- 1 SD = durchschnittlich das sind ca. 68% der Referenzpopulation (ca 2/3)- Wechsler IQ Konvention: durchschnittlich sind nur 50% also Grenzwerte 90 und 110- beide Konventionen werden weiter parallel angewendet und sorgen fuer Verwirrung b) Rohwerte unseres Tests sind nicht Normalverteilt - lineare Transformationen nicht moeglich- statt dessen: Prozentrangskala (aufsummierte Haeufigkeiten) jeder Rohwert wird einem Prozentrang zugeordnet gibt an wie viele Personen diesen oder einen hoeheren Testwert aufweisen zB Prozentrang 90: 10% der Referenzpopulation haben einen hoeheren Wert- da Prozentrangskala sehr anschaulich auch bei normalverteilten mit angegeben- Nachteil: nicht intervallskaliert duerfen also zB nicht addiert werden gleiche Differenzen an verschiedenen Stellen bedeuten nicht das gleiche Unterschiede im mittleren Bereich treten besonders hervor 0 10 30 50 70 90 100 c) nicht normalverteilte Testwerte auf einer Standardskala ausdruecken - zB zur vereinheitlichung normalverteilter und nicht-normalverteilter Subtests- 1. Berechnung der Prozentraenge 2. in Standardwerte umwandeln (als ob Normalverteilung vorlaege) => Standardwertaequivalente Mittelwert 50 und Standardabweichung 10 "T-Skala" (Quasi-Normalverteilung) Stichprobenfehler:- Abweichung des Geschaetzten Wertes (zB Mittelwert) vom Populationsparameter
Nebenguetekriterien: Fairness - Definition - a) Testimmanente Bedingungen, b) inhaltliche Details, c) Verrechnung - Cattell: culture free intelligence test - Aequivalenzpruefung keine systematische Benachteiligung von Personengruppen aufgrund:- soziokultureller Zugehoerigkeit- ethnischer Zugehoerigkeit- geschlechterspezifischer Zugehoerigkeit a) Testimmanente Bedingungen (im Test selbst)- zB Instruktionen so kompliziert formuliert nur von akademikern verstanden- zB aeltere Menschen am PC- Umstellung Papier-Bleistift-Test Neunormierung? Aequivalenzpruefungb) inhaltliche Details:- zB Items mit religioesen Details werden unterschielich beantwortet auf solche Items verzichten c) Berechnung- Vorsicht: nicht immer auf Items die Unterschiede hervorrufen verzichten- zB Geschlechterspezifische Unteschiede in Raumvorstellung und verbalen Faehigkeiten Beispiel: Potenzial eines maennlichen Schuelers fuer Gymnasium nicht auf sprachliche Faehigkeiten verzichten sondern einfach mit Jungs vergleichen => Prognose frei von geschlechterspezifischer Diskriminierung Zitat: Es gibt nicht DEN fairen Test oder DAS faire Selektionsverfahren, | sondern nur Fairness im Hinblick auf Handlungs- und Entscheidungsaspekte Raymond B. Cattell 1940: culture free intelligence test- ohne sprache- kulturelle Einfluesse dennoch nicht zu verhindern- aus culture free wurde culture fair aus culture fair wurde culture reduced (Kultureinfluss liess sich nicht verhindern) Aequivalenzpruefung:- Gleichwertigkeit zweier Versionen eines pszchologsich-diagnostischen Verfahrens- zB Parallelformen, verscheidene Testbedingungen, interkulturelle Aequivalenz
Nebenguetekriterien: Unverfaelschbarkeit - wodurch entsteht Kontrolle (2) - projektive Verfahren - Intelligenz und Leistungstests (Simulationsdiagnostik) - Persoenlichkeitsfrageboegen: Problem? Luegenskalen, Objektive Persoenlichkeitsfrageboegen unverfaelschbarer Test = minimales Ausmass an Kontrolle ueber Art und Inhalt der Infos - Probanden versuchen regelmaessig Testwerte gezielt zu beeinflussen - zB um Eindruck erzeugen sie verfuegen ueber sozial erwuenschte Eigenschaften- Kontrolle entsteht durch Vermutung was der Test erfasst Augenscheinvaliditaet Durchschaubarkeit des Messprinzips (wie steht das gezeigte Verhalten in Beziehung) Projektive Verfahren:- geringe Augenscheinvaliditaet- auch wenn erkannst schwer abschaetzbar wie das Verhalten zu veraendern Intelligenz- und Leistungstests:- klar, moeglichst richtig und schnell- durch begrenzte eigene Faehigkeiten sehr enge Grenzen fuer Manipulation- gelegentlich geringere Faehigkeiten vortaeuschen (faking bad) zB Versicherungsansprueche (Berufsunfaehigkeitsansprueche) Neuropsychologisches Gutachten: Gedaechtnisleistung Simulationsdiagnostik: Laien koennen meist nicht abschaetzen wie schwer die Schaeden sind und Muster Simulanten schneiden in betimmten Aufgaben dann unterdurchschnittlich ab Persoenlichkeitsfrageboegen:- hohe Augenscheinvaliditaet und erkennbares Muster zB Gewissenhaftigkeit bei Bewerbung als Bueroleiter- Studenten konnten 68-93% der Items des NEO-Fuenf-Faktoren-Inventars richtig zuordnen- Meaanalyse zeigt dass faking good ein Problem ist 2 Ansaetze Verfaelschungen entgegenzuwirken (Persoenlichkeitsfrageboegen) a) Luegenskalen- kleine aber haeufige (unerwuenschte) Regelverletzungen zB ich habe schonmal von einer anderen Person schlecht gesprochen- wenn verneint offensichtliche Neigung zu sozial erwuenschten Antworten- bei hohem Luegenwert wird davon abgeraten andere Skalen auszuwerten- Problematisch - selbst leicht zu durchschauen - fragliche Validitaet: korrelieren untereinander eher gering- Kubinger und Jaeger: "Warnung" man koenne durch komplizierte Verfahren pruefen hat keine Zweck b) objektive Persoenlichkeitstests- zunehmend als PC Verfahren- messen bestimmte Persoenlichkeitseigenschaften direkt aus Verhalten zB "Arbeitshaltungen" - Personen sollen Flaechengroessen am PC vergleichen + entscheiden welche groesser ist - schwer, verleitet zu Raten und Fehlern - auch Moeglichkeit keine Entscheidung zu treffen - Testwert => eher impulsives oder reflexivem Verhalten Ausserdem: neuere Forschungsergebnisse:- durchschaubarkeit von Verfahren kann trotzdem valide Berufserfolgs-Ergebnisse liefern- wenn "ability to identify criteria" im angestrebten Beruf relevant
Nebenguetekriterien: Zumutbarkeit - Definition? - was heisst das konkret? Zumutbarkeit Definition: - Testperson wird absolut und relativ zum resultierenden Nutzen - in zeitlicher, pszchischer und koerperlicher Hinsicht geschont absolut und relativ zum resultierenden Nutzen:- zB Piloten werden an 3 aufeinander folgenden Tagen geprueft und bewertet- hohe koerperliche und emotionale Belastung- aber Piloten haben eine grosse Sicherheitsverantwortung und muessen auch unter Belastung sehr gut performen Was heisst das konkret?- steht nicht fest- 5 min Pausen sorgen schon fuer viel Erholgung, Motivation sinkt aber dennoch- Kubinger: Manches was psychologischer Standard ist koennte schon nicht zumutbar sein
Nebenguetekriterien: Skalierung - wann erfuellt? - Problematik - Beispiel Test leistungsschwache Kinder Gutekriterium Skalierung ist erfuellt wenn:=> Testwerte (laut Verrechnungsvorschriften) empirische Verhaltensrelationen abbilden wie viele Punkte je Frage? - da mehrheit der Tests auf klassischer Testtheorie basiert: fast ueberall einfachster Verrechnungsmodus Testwert = Anzahl richtiger Aufgaben- empirisch nur mithilfe probabilistischer Modelle ueberpruefbar spezielle Mathematische Modelle zur ueberpruefung- wird deshalb von manchen ignoriert von anderen mehr Platz als Validitaet (!) Kubinger: Untertest "allgemeines Wissen" fuer leistungsschwache Kinder- Frage: Was musst du tun damit das Wasser kocht? richtig: Auf den Herd stellen- lesitungsstarke Kinder "unter ihrem Niveau" aber physikalische Erklaerung nicht moeglich => 0 Punkte- ungeeignete Verrechnungsvorschrif!
Nebenguetekriterien: Testoekonomie - Definition - finanzielle Kosten (5), zeitlicher Aufwand (5) - Konkurrenz zu anderen Guetekriterien (4) = beansprucht im Verhaeltnis zum Erkenntnisgewinn wenige Ressourcen finanzielle Kosten:- Anschaffung- Verbrauchsmaterial- Antwort- und Auswertungsboegen- Lizenzgebuehren (PC)- kosten fuer psychodiagnostisch gut qualifiziertes Personal zeitlicher Aufwand (oft noch bedeutender):- Vorbereitung- Durchfuerung- Auswertung- Ergebnisrueckmeldung Konkurrenz zu anderen Guetekriterien:- kuerzerer Test weniger reliabel- nur ein Verfahren: kleinere Kriteriumsvaliditaet- nicht sehr qualifiziertes Personal: schlechte Objektivitaet (Durchfuehrung, Auswertung, Interpretation) wirkt auch negativ auf Reliabilitaet und Validitaet- Testpersonen ohne Pause testen um alles an einem Nachmittag zu schaffen kaum zumutbar => es handelt sich also auch um eine ethische Entscheidung
Nebenguetekriterien: Nuetzlichkeit (2) misst fuer psychologische Entscheidungen RELEVANTE Eigenschaft Eigenschaft nicht bereits durch anderes Verfahren erfasst das ebenso alle Guetekriterien erfuellt
Uebersicht 1. Ausgangspunkte der Diagnostik - Definition- Urspruenge- Aufgabenbereiche- Rechtliche Grundlagen und ethische Aspekte 2. Grundlagen diagnostischer Verfahren - Selektionsdiagnostik und Modifikationsdiagnostik- normorientierte und kriteriumsorientierte Diagnostik- klassische Testtheorie (3 Axiome, Kritik)- probabilistische Testtheorie 3. Rund um den Test a) Klassifikation von Tests - Arten von Tests - Leistungstests - Persoenlichkeitsfrageboegen und -tests - apparative Tests- sprachabhaengige und sprachunabhaengige Tests- Gruppen vs Individualtests- Speed vs Powertests- Paper-Pencil vs Computer- adaptive vs klassische Tests b) Wege der Testkonstruktion - rationale Konstruktionsstrategie- externatle Konstruktionsstrategie- induktive/faktorenanalytische Konstruktionsstrategie- Kosntruktion nach dem Prototypenansatz c) Testmaterial d) Anforderungen an Testitems- sprachlich- eindeutigkeit- Itemschwierigkeit- Itemtrennschaerfe- weitere Anforderungen e) Testguete - Din Norm- Hauptguetekriterien Objektivitaet Reliabilitaet Validitaet- Nebenguetekriterien Normierung Fairness Unverfaelschbarkeit Zumutbarkeit Skalierung Testoekonomie Nutzlichkeit
alle Guetekriterien aufzaehlen (10) Hauptguetekriterien: 1. Objektivitaet- Durchfuehrungsobjektivitaet- Auswertungsobjektivitaet- Interpreationsobjektivitaet 2. Reliabilitaet- Paralleltest-Reliabilitaet- Retest-Reliabilitaet- Split-Half-Reliabiliaet- Interne Konsistenz 3. Validitaet- Kriteriumsvaliditaet- Kosntruktvaliditaet Nebenguetekriterien: 4. Normierung 5. Fairness 6. Unverfaelschbarkeit 7. Zumutbarkeit 8. Skalierung 9. Testoekonomie 10. Nutzlichkeit

Learn online - when and where you want!

Eignungsdiagnostik und Personalentwicklung (Subject) / Grundlagen psychologischer Testverfahren (Lesson)