Eignungsdiagnostik und Personalentwicklung (Subject) / Grundlagen psychologischer Testverfahren (Lesson)

There are 26 cards in this lesson

Heft 2

This lesson was created by Aglae.

Learn lesson

This lesson is not released for learning.

  • Was ist Diagnostik? - 2 Definitionen - Zusammenfassung, Basics - Fokus, Merkmalstraeger (5), Finalität - Ursprünge: Biebel, China - Alpha-Fehler, Beta-Fehler - Neure Zeit: Staffelprinzip, dann explosionsartig entwickelt - Partnerdisziplin? Fokus Diagnostik (altgriechisch) = gruendlich kennenlernen, beurteilen, entscheiden Defintion 1:Bestimmung der individuellen Eigenart durch exakte Beobachtung und Messung interindividueller Differenzen  in psychologischen Merkmalen interindividuell = zwischen verschiedenen Personen intraindividuell = innerhalb einer Person Definition 2:- angewandte Psychologie- interindividuelle Unterschiede im Verhalten und Erleben- intraindividuelle Merkmale und Veraenderungen + Bedingungen=> praezise Vorhersagen kuenftigen Verhaltens Zusammenfassung:- interindivudelle Unterschiede im Fokus, die durch Methoden erkennbar werden- Merkmalstraeger:   Einzelpersonen(zB zwei Bewerber)  Personengruppen   (zB zwei Produktionsabteilungen)  Institutionen   (zB Unternehmen)  Situationen   (verschiedene Unterrichtsformen oder Vergütungssysteme)  Gegenstaende   (unterschiedlich gestaltete Büroräume)- Veränderung ueber die Zeit- präzise Vorhersagen ueber Erleben und Verhalten angestrebt  Potenzial erfassen, obwohl noch nicht vorhanden => Einsatz festgelegter Untersuchungsverfahren zur Messung von Kompetenzen, Erlebensqualitaeten, VerhaltenstendenzenZiel: Sinnvolle Massnahmen ableiten (ZB, Fuehrerschein zurück, Therapieform, Studienplatz) Finalität: Psychodiagnostik hat immer ein ZielEvaluation: Geplanter Sollzustand erreicht? Urspruenge psychologischer Diagnostik: - Biebel: Altes Testament, Große Schlacht, nur die wie Hunde aus dem Fluss tranken kamen mit  Schlacht gewonnen- 1100 v.Chr. chinesische Regierungsangestellte, jaehrlich erneuter Test  7JH China, Standardisierung von Testverfahren: landesweite schriftliche Tests   => objektive Auswahl: Viele kommen zu gleichem Ergebnis        Selektionsrate <1%        Alpha-Fehler sehr klein (keine falsche Entscheidung)        dadurch aber auch Beta-Fehler (viele gute abgelehnt)  funktionierender Staatsapparat beide funktionierten, Erfolg => valide Tests Neuere Zeit:- konkrete Platzierungen immer wichtiger- erster Intelligenztest Frankreich: Sonderschule? 1905   Staffelprinzip:   Aufgaben koennen mit bestimmter Wahrscheinlichkeit von einer Altersgruppe geloest werden   Merkmale: Achtsamkeit Gedaechtnis Verstaendnis motorische Faehigkeiten moralische Haltung   hält heutigen Gütekriterien nicht stand:      Items können nicht ausreichend gut differenzieren      sehr sprachabhängig: kultur- und bildungsabhängig- dann explosionsartige Entwicklung von tests    a) Anwendugsdisziplinen gerecht werden    b) Grundlagenforschung Psychologische Diagnostik = Parnterdisziplin der Differenziellen Psychologie                                                                       = Intelligenz und Persönlichkeit quantifizieren quantifizieren = beschreiben, strukturieren, messbar machen                                                   
  • Diagnostische Aufgabenbereiche: - Diagnostisches Dreieck zeichnen und alle Disziplinen erklären - 3 Extradisziplinen diagnostisches Dreieck: wechselseitige WirkungsbeziehungenzB müssen sich die Methoden an neusten Erkenntnissen aus Grundlagendisziplin orienterien        und veränderte Anforderungen der Anwendugsdisziplinen einstellen innen: Psychologische Diagnostik Aussen: Rahmenbedingungen:- soziale- Kultur: Akzeptanz?- Wirtschaft: Ökonomisch?- Technik: Am Computer? linke Seite: Methoden- Exploration- Interview- Befragung- Fragebogen- Testverfahren- Verhaltensbeobachtungen=> spezifische Vor und Nachteile je nach Fragestellung rechte Seite: Grundlagen- Differenyielle Psychologie- Sozial-psychologie- Motivations-psychologie- Kognitions-psychologie- Sprach-psychologie- Entwicklungs-psychologie   untere Seite: Anwendungen- Arbeits-psychologie  = Ausbildungs und Berufswahl, Berufseignungsdiagnostik, Weiterqualifizierung- Organisation-psychologie  = Umstrukturierungsmassnahmen (Institution): Arbeitsgruppen (Personengruppen), Mitarbeiter     (Personen) in neue Aufgabenbereiche (Situation) mit neuen Produktionsmaschinen     (Gegenstaende)- Forensische-psychologie  = Schuldfähigkeit, Selbststeuerungsfaehig?, Reifebeurteilung, Glaubwürdigkeit,  Erinnerungsfähigkeit  Bezieht sich auf viele Grundlagendisziplinen- Pädagogische-psychologie  = Erziehung und Bildung, Schulfaehigkeit, Schullaufbahn, Studienberatung,- Klinische-psychologie  = psychische Störungen differenzialdiagnostisch identifizierenm Interventionsstrategien,     evaluieren - Verkehrs-psychologie  = Eignung für Strassenverkehr, Sicherheit, Platzieren von Schildern, Massnahmen- Werbepsychologie  = Produkt, Verpackung, Markauftritt- Marktpsychologie  = Hat Zielgruppe den Fernseher zur richtigen Zeit eingeschaltet- Pharmakopsyhchologie, Gesundheitspsychologie..
  • Diagnostik: Rechtliche Grundlagen ethische Aspekte Rechtliche Grundlagen: - keine spezifischen Gesetze: allgemeine Gesetze- Grundrechte!  Die Würde des Menschen und freie Entfaltung der Persönlichkeit ist unantastbar- Präambel deutsche Gesellschaft für Psychologie  Würde und Integrität des Individuums achten, Entfaltung und Schutz = fundamenta  Besondere Verantwortung!- Freiwilligkeit! Informationelle Selbstbestimmung  (Ausnahmen: richterliche Anordnung)  ausreichende Infos über Untersuchungsmethoden und Ziele und mögliche Konsequenzen- Paragraf 203 Strafgesetzbuch: Verletzung von Geheimnissen anderer  Ärzte, Apotheker, Sozialarbeiter, Psychologen  Hohe Strafen da Berührung mit GG  Schweigepflicht schützt auch Psychologen selsbt  Farhlässigkeit schützt vor Strafe nicht  Ergebnisse nur anonymisiert- Datenschutzgesetz: Anonymisierung- Zeugnisverweigerungsrecht:   hat Psychologe nicht! Nur einzelne Berufsgruppen (u.a. psychologischer Psychotherapeut usw)- gutachterliche Tätigkeiten:  besindere Vorsicht, Privatgutachten = Vertrag (Auftrag): Darf keine Fehler haben, sonst              Schadensersatz  gerichtlich beauftragt: Haftet nur wenn Vorsatz, Fahrlaessig- Betriebsverfassungsgesetz und Personalvertretungsgesetz  Betriebsrat muss über Personalmassnahmen informiert werden, hat ggf Mitbestimmungsrecht  Persönlichkeitstests nur wenn von entscheidender Bedeutung
  • Grundlagen diagnostischer Verfahren: Diagnostische Modi - Selektionsdiagnostik (zB, zentral) - Modifikationsdiagnostik (zB, zentral) - Unterschied - trait, latent, Konstukt, manifest, Diagnostische Modi: Strategien und Modellannahmen a) Selektionsdiagnostik - zB Auswahl Studenten, Mitarbeiter (eher institutionell)- zentral: trait (Eigenschaft)    - zeitlich stabile, situativ konsistente Dispositionen bestimmtes Verhalten zu zeigen    - nicht direkt beobachtbar       hypothetische (latente) Konstukte       lassen sich nur aus beobachtarem (manifestem) Verhalten schließen = Indikatoren       (Validierungsstudien)     - zB Intelligenz, Persönlichkeit- eignungsrelevante Eigenschaften von Bewerbern werden verglichen- ausgehen von stabilität und situativer Konsistenz lässt sich Verhalten prognostizieren b) Modifikationsdiagnostik- Veränderungen, zB klinisch- zentral: Verhalten  stabiles und konsistentes Eigenschaftsmodell wäre hinderlich  => Verhaltensdiagnostik nicht Eigenschaftsdiagnostik- Verhalten wird ohne Umweg aus vergangenem Verhalten geschlossen  kein Umweg über Eigenschaften- Tests = stichproben des Verhaltens  zB Führerscheinprüfung- auch situationsabhängig, also auch kontextbezogene Interventionen (zB arbeitsabläufe) => Grundverschieden in Art der Finalität und Annahmen über Gegenstand der Diagnostik
  • Grundlagen diagnostischer Verfahren: Bezugsrahmen der Entscheidung - 2 Möglichkeiten nennen und erklären Woran orientiert sich die Entscheidung (Diagnose): 1. Normorientierte Diagnostik - Bezugsrahmen = Bezugsgruppe  statistische Bezugswerte = Normen- Ergebnis wird in Bezug zur Eichstichprobe ausgedrückt und interpretiert- zB Mittelwert der Gedächtnisleistung, IQ  Standardabeichung,- Perfomance = Verhältnis zur Zielgruppe- Annehmen/Ablehnen? Viel viel % der Bezugsgruppe dürfen besser sein?- Selektionsdiagnistik ist häufig Normorientiert 2. Kriteriumsorientierte Diagnostik - Bezugsrahmen = extern festgelegtes Kriterium  vollständig unabhängig von der Performance anderer- zB wird vorher festgelegt was der Bewerber können muss  es kann auch niemand eingestellt werden- im klinischen Bereich selbstverständlich  Kriterienkataloge für Diagnosen
  • Grundlagen diagnostischer Verfahren: Testtheorie - Klassische Testtheorie: Grundlagen, 3 Axiome, Zusatzannahmen, Reliabilität, Praktische Implikationen - Kritik an Axiomen - Probabilistische Testtheorie Testtheorie = Basis der Testkonstruktion - Anforderungen an die Eigenschaften von Test- Fahrplan für Konstuktion- 2 wichtige Ansätze 1. Klassische Testtheorie (KKT) - (noch) deutlich verbreiteter- Schwerpunkt = Genauigkeit der Messung  daher auch Messfehlertheorie genannt      Objektivität = von allen Beobachtern gleich      Reliabel = genau, fehlerfrei, zuverlässig      Valide = das gemessen was er soll- Grundfrage:   Mit welcher Sicherheit kann von beobachtetem Wert auf wahren Wert geschlossen werden?- Theorie basiert auf Axiomen   (gesetzten Grunannahmen die nicht hinterfragt werden können) Axiom 1: Existenzaxiom Es gibt einen wahren Wert (Messung ohen Messfehler) und er entspricht bei unendlich vielen Messungen am selben Objekt dem Erwartungswert (Mittelwert) Axiom 2: Verknüpfungsaxiom Beobachter Wert = Wahrer Wert + Fehlerwert x = w + e Fehlerwert- zufällig, unsystematisch, nicht kontrollierbar- Summe aller Einflussgrößen und deren Wechselwirkungen- zB Stimmung, Raumtemperatur, Lautstärke Axiom 1 + Axiom 2:- Erwartungswert von e ist also Null, da sich zufällige Schwankungen ausmitteln- Reine Theorie, man kann einen Test nicht unendlich oft wiederholen (zB Lerneffekte) Axiom 3: Unabhängigkeitsaxiom Wenn der Erwartungswert des Messfehlers Null ist, können wir davon ausgehen, dass er unabhängig vom wahren Wert ist:r(e1, w1) = 0 - zB intelligenz korreliert nicht mit Raumtemperatur Ableitung von 2 Zusatzannahmen: 1. Messfehler auch vom wahren Wert andere tests unabhängig - zB von einem späteren Persönlichkeitstest 2. Messfehler zweier Tests sind unabhängig von einander => Alle Axiome haben große Relevanz für Gütekriterien und Testkonstruktion Reliabilität berechnet sich direkt aus Axiom 2: Varianz der Messwerte = Varianz Wahrer Wert + Varianz Fehlerwertsx2 = sw2 + se2 Reliabilität (rtt) also Messgenauigkeit:Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte Reliabilität = Varianz wahrer Wert / Varianz Testwert rtt = sw2 / sx2 => Werte zwischen 0 und 1rtt = 1: Varianz wahrer Wert = Varianz Testwertrtt = .85: 85% wahre Unterschiede = gut! Praktische Implikationen: - 5 Pax motorischen Leistungstest- Testmanual: rtt = .90- Personen unter Populationsmittelwert 100 sollen ausgeschlossen werden- Kandidat S. = 99 Punkte, was nun??- Vertrauensintervall  je kleiner Reliabilität desto größer ist das Intervall Kritik an Axiomen: - Axiom 1: Messfehler kann wohl mit wahrem Wert korrelieren  zB Prüfungsangst ist kleiner umso mehr Wissen- Axiom 2: Messfehler zweier Tests können korrelieren  zB Prüfungsangst ist auch in anderen Tests vorhanden         also Fehlerhafte Messung - Axiom 3: Wahrer Wert verändert sich mit der Zeit  keine bedingungslose Invarianz gegebene   Reliabilität ist also gar nicht oder nur kurzfristig gegeben 2. Probabilistische Testtheorie - will Nachteile der KKT überwinden- geht von Zusammenhang zwischen Testergebnis und Messfehlern aus- höhere Anforderungen, mindestens 60-70 Items pro Eigenschaft- Vorteil: Adaptiv testen:  Folgefrage ist von antwort abhängig (zB nach falschen Antworten leichtere)  allerdings PC nötitg  nach kurzer testung (ca 15 Items pro Eigenschaft) hinreichend exakt- hohe Konstruktionskosten, noch anspruchsvollere Methoden
  • Rund um den Test: Einführung - Basics - Vorteile - Test definition - wissenschaftlich? - Fragebogen vs Test? Basics: - "Testphobie" Zurückhaltung vor Tests- v.a. USA: große Debatte Testfairness und Intelligenz   (Intelligenztests: diskriminierend und unfair)- Tests und Persönlichkeitsfragebögen sind für Einstellung nicht beliebt- wenig Akzeptanz..  angeführter Grund ist Mangel an unmittelbarem Bezug zum Beruf- aktuell wieder aufwärtstrend von Intelligentests und Persönlichkeitstests- sehr viele unwissenschaftliche Pseudotests auf dem Markt Aber Vorteile!- Intelligenztests sagen Berufs- und Studienerfolg am besten vorher!   berufsuebergreifende gültige Vorhersagen- zeit und kostengünstig- standardisiert und objektiv Test =- wissenschaftliches Routineverfahren- erfasst empirisch abgrenzbare Merkmale- quantitative Aussage ueber Grad der Merkmalsausprägung - nur sinnvoll wenn Fragestellung objektiv, zuverlässig und gültig beantwortet- nicht generell, immer bezogen auf Personen, Fragestellung, Anwendugskontext- wissenschaftlich überprüft:   Objektiv   Zuverlässigkeit   Gültigkeit (zB Eignung für einen bestimmten Beruf)- Ausprägung: Rohwert = genauer Zahlenwert für eine Person (15 = 15 Aufgaben richtig gelöst)                                      wird üblicher Weise zu Referenzgruppe in Beziehung gesetzt- auch bei Fragebogen!  Fragebogen sind aber != Tests weil es keine richtigen oder falschen Antworten gibt
  • Rund um den Test: Klassifikationen von Tests: 3 Arten von Tests - 1: was getestet? 7 Arten - Intelligenzmodell von Horn und Cattell? - akademische Intelligenz - Investment Theorie - 2: was getestet? Beispiele, Schwierigkeit? Unterschied zu 1? - 3: was wird getestet? A. Arten von Tests: 3 Bereiche 1. Leistungstests - maximal mögliches Verhalten- besondere Anstrengung != typische, alltaegliche Leistung- kann nur zum schlechteren Verfaelscht sein a) Intelligenztests - sehr viele Tests, Vorstellungen, Theorien, Modelle..- häufige Definition von Intelligenz:   Weise handeln  vernünftig denken  effektiv mit Umwelt umgehen  Anpassung an neue Aufgaben  abstraktes und konkretes Denken (sprachlich, figural, numerisch, räumlich)- mögliche Tests  spezifische Intelligenztests: eine Komponente der Intelligenz  Gesamtwert: akademische Intelligenz  sprachlichm vs. nicht-sprachlich  Speed- oder Powertest  Einzel- oder Gruppentest  bestimmte Personengruppe (Kinder) oder Allgemeinbevölkerung Intelligenzmodelle: meist hierarchisch Horn und Cattell: zwei übergeornete Intelligenyzfaktoren a) Fluide Intelligenz (erblich bedingt)=> Lernen, Schlussfolgern, Problemlösen, Mustererkennung  b) Kristallisierte (kristalline) Intelligenz=> erworbenes Wissen akademische Intelligenz: (auch allgemeine Intelligenz)- Kerndimensionen:  schlussfolgerndes Denken (numerisch, figural-räumlich, verbal)  oft auch Merkfaehigkeit, Bearbeitungsgeschwindigkeit  manchmal Kreativität- gehören nicht dazu:  auditive Intelligenz (Tonreihen fortestzen usw)  soziale Intelligenz (Gedaechtnis für soziale Strukturen, Personenmerkmale, Wahrnehmung und  Verständnis von Emotionen) b) Wissenstests - manche Bestandteile von Intelligenztest, aber != fluide Intelligenz- Wissen, stärker Umweltabhängig- Investment Theorie: Personen mit hoher fluider Intelligenz ++ kristalline Intelligenz c) Kreativitätstests - manchmal Bestandteil von Intelligenztests- sehr schwierig zu bewerten daher sehr selten  zB ganz viele Verwendugnsmöglichkeiten für einen Backstein d) Aufmerksamkeits- und Konzentrationstests - kein Konsens über Definitionen- Aufmerksamkeitn = selektive Wahrnehmung relevanter Reize- Konzentration = Fähigkeit unter erschwerten Bedingungen schnell und genau zu arbeiten  alle Stufen der Informationsverarbeitung:  (selekive Wahrnehmung, Aufmerksamkeit, Kombination, Speicherrung, Handlungsplanung)- typische Tests: Rechentests und Durchstreichtests  einfache, klare, eindeutige Reize und Regeln  mit Absicht ausgeführt  Geschwindigkeit und Fehlerrate abbilden    e) Entwicklungstests - Leistungsstand eines Kindes, Vergleich mit Normwerten- allgemeine Entwicklungstests vs spezielle Entwicklungstests f) Schultests - Schuleingangstests: Anforderungen gewachsen? nicht überfordert?- Schulübertrittstests: Weiterführende Schule- Schulleistungstests: objektives Ergebnis unabhängig vom Lehrer (zB Pisa) g) auch- Gedächtnistests- Bürptests- Lerntests 2. Persönlichkeitsverfahren - nicht maximales sondern typisches Verhalten- Selbsteinschätzung oder Fremdeinschätzung  testen also nicht Eigenschaft sonder persönliche Einschätzung- häufig: Gewissenhaftigkeit, Extraversion/Introversion, emotionale Stabilität  auch stabile Motive:  Leistungsmotiv besondere Bedeutung: Leistungsmotivationsinventar (LMI)- objektive Persönlichkeitstests: verbergen Messabsicht  zB Leistungsmotiv durch zurücklegen eines Weges am PC- möglichs wenig verzerrt: gute Selbsteinsicht, korrekte Wahrnehmung, Erinnerungsvermögen,      Ehrlichkeit, Motivation- schwierig, wie häufigkeit/schwere bestimmen?   Worte wie häufig, oft werden unterschiedlich definiert- Rating Skala- keine optimale Ausprägung, also kein richtig oder falsch- leicht verfälschbar 3. apparative Verfahren - sensorische und motorische Merkmale aber auch kognitive Fähigkeiten- zB sensumotorische Koordinationstests, Muskelkraft, Montage- und Hantiertests, Finger  Labyinth-Tests 4. Weitere Tests: - Interessenstests (Berufsberatung und -wahl)- Projektive Verfahren & Integritätstests (Kontraproduktives Verhalten)
  • Rund um den Test: Klassifikationen von Tests: Weitere Unterscheidungen von Tests: - Sprachunabhängige vs sprachabhängige Tests - Gruppen vs. Individualstests - Speed- vs. Powertests - Paper-Pencil-Tests vs computergestützte Tests - Adaptive vs. klassische Tests - Exkurs: Stabile Motive (3) Sprachunabhängige vs sprachabhängige Tests: - Verzerrung durch sprachliche Fähigkeiten   besonders beim offenen Antwortformat- sprachunabhängige Lesitungs- und Persönlichkeitstests:  kulturübergreifend  nutzen Bilder, Figuren (Bilderordnen, Figurenlegen, Bilder, soziale Situationen) Gruppen vs. Individualstests: - Einzeltests: ganze Aufmerksamkeit  Testdaten, Verhaltensdaten, Fehler vermieden- Gruppentests: Ökonomischer aber auch Fehleranfälliger.. Speed- vs. Powertests: - Speed- oder Geschwindigkeitstests:  wie viele Items in wie viel Zeit gelöst?  einfach aber nicht ausreichend Zeit- Power- oder Niveautests:  ansteigende Schwierigkeit, können Aufgaben gelöst werden?  ausreichend Zeit  komplexe kognitive Fähigkeiten- fast alle Tests: Mischformen, da Zeit aus ökonomsichen Gründen begrenzt Paper-Pencil-Tests vs computergestützte Tests: - Papier-und-Bleistift:  günstiger, unabhängig von technischen Problemen- PC:  ökonomischer, direkte Auswertung, weniger Fehler, exakte Reakionszeitmessung,   dynamische Reize, höhere Akzeptanz, hoch standardisierte Durchführung- beide kommen zu vergleichbaren Ergebnissen (Ausnahme: Speedtests) Adaptive vs. klassische Tests: - klassisch: Festgelegte Menge identischer Items in festgelegter Reihenfolge- adaptiv: Auswahl der Items orientiert sich an Antworten  in möglichst kurzer Zeit maximale diagnostische Info  vermeidet Über- und Unterforderung  Anhand probabilistische Testtheorie (Item Response Theorie)  Nachteil: sehr viele Items benötigt, hohe Standards Exkurs: Stabile Motive: - Motive sind veränderbar (zB heute motiviert für Sport?)- Stabile Motive: überdauern und bestimmen Verhalten teilweise a) Lesitungsmotiv    Personen versuchen bei Arbeit, Sport, Privatleben Aufgaben möglichst gut zu lösenb) Anschlussmotiv    Beziehungen pflegen und Kontakte knüpfenc) Machtmotiv    
  • Ansätze der Testkonstruktion: - 4 Strategien - von was abhängig? - deduktiv? induktiv? - Prototypizität - Strategie ist abhängig von Merkmal, Personengruppe, Kontextbedingungen- meist werden diese Strategien gemischt 1. Rationale Konstruktionsstrategie = Inhalt steht im Vordergrund - deduktiv: Schlussfolgerung gegebener Prämissen auf die logisch zwingenden Konsequenzen   1. Konstrukt wird definiert und Subkategorien identifiziert   2. aus Theorie werden abgeleitet wie sich eine hohe/niedrige Ausprägung zeigt   3. es werden Verhaltensindikatoren gesammelt => Fragen, Aussagen, Testaufgaben- zB Verhaltensindikator Extraversion: Knüpft schnell Kontakte- zB Intelligenztest: Faktor Auffassungsgeschwindigkeit: Zählen von Nullen und Vergleichen   => schnelles und genaues Arbeiten 2. Externe Konstruktionsstrategie = Nutzen steht im Vordergrund - welche Items unterscheiden 2 Gruppen am besten?   1. sehr viele Aufgaben werden 2 Gruppen die sich auf das Merkmal bezogen stark unterscheiden (warum interessiert nicht)   2. Ergebnis wird an anderen Stichproben getestet um situative Effekte zu vermeiden- zB Perslnlichkeitstest: 1000 Items auf 566 Items reduziert 3. Induktive/faktorenanalytische Konstruktionsstrategie - induktiv =   abstrahierenden Schluss aus beobachteten Phänomenen auf eine allgemeinere Erkenntnis- 1. Itempool an großen reprösentativen Stichoriben analysiert      Items die hoch korrelieren = laden auf gemeinsamen Faktor      werden zu Skalen gruppiert  2. Skalen werden mit Bedeutung versehen - zB Intelligenz-Strukturtsest 4. Konstruktion nach dem Prototypenansatz - Prototyp: zB Hammer für Werkzeug  Theorie: Andere Objekte werden auf Ihre ähnlichkeit eingeschätzt  je unähnlicher, desto größer überlappung mit anderer Kategorie (zB Korkenzieher)- Prototypizität auf Eigenschaften übertragen:  zB Prototyp einer gewssenhaften Person  Personen werden Verhaltensweisen vorgelegt und gefragt wie gut sie passen  daraus wird Fragebogen konstruiert- Erweiterung: Act Frequency Approach  1. prototypische Verhaltensweisen generieren  2. an eine bekannte Person denken die so ist und konkrete Verhaltensweisen angeben  3. andere Gruppe schätzt Protozypität ein und nehemen Stellung wie sehr sie selber so sind  => besonders gut bei schwer zu erfassenden Konstrukten wie Intelligenz
  • Rund um den Test: Testmaterial (5) Testmaterial = Testkoffer a) Testmanual - Entwicklung- Durchführung- Auswertung- Interpretation- Gütewerte- Normwerte b) Testheft/Fragebogen/Antwortheft - manche, extra Antwortbogen  ökonomisch, aber größere Fehlerwahrscheinlichkeit c) Auswertungsschablonen/Auswertungsprogramm - PC: wengier fehler d) Profilbögen/Interpretationshilfen - graphische Darstellung- überblick individuelle Ausprägung- Vergleich mit Normgruppe- vereinfachte Interpretation e) Zusätzlich benötigtes Material - Schreibzeug- Filzstifte zum Markieren- Stoppuhren
  • Anforderungen an Testitems: - Sprachliche Verständlichkeit (4) - Eindeutigkeit des Items (7) - Itemschwierigkeit - Itemtrennschärfe - Weitere Anforderungen an Items (3) - homogene und heterogene Items Sprachliche Verständlichkeit: keine Fehlinterpretationene und Motivationseinbußen - positiv formuliert (besonders keine doppelte Verneinung)- einfach formuliert (keine verschachtelten Sätze)- nicht abgekürzt (zB, usw..)- nicht mit Fachbegriffen gesprickt, an Zielgruppe angepasst Eindeutigkeit des Items: In gleicher Weise verstanden => vergleichbar - Universalausdrücke (immer, nie, alle) vermeiden- konkrete Angaben zu Häufigkeit und Intensität (einmal wöchentlich)- Definitionen im Vorfeld- keine uneindeutigen Formulierungen (mein Freund fährt schnell Auto)- nur eine Aussage (nicht: ich bin offen UND ehrlich)- Zeit eindeutig (nich in letzter Zeit)- Antwortrichtung muss eindeutig sein (Zustimmung = hohe oder niedrige Ausprägung) Itemschwierigkeit: - soll mittel sein  extrem leich und extrem schwer vermeiden: zeigen keine Unterschiede- Schwierigkeit einer Aufgabe = Anteil richtiger Aufgaben / Anteil aller Aufgaben  Pi = NR / N  0 = schwer (keine richtig gelöst  1 = leicht (alle richtig gelöst)  .5 = mittel (hälfte richtig gelöst- Persönlichkeitsfragebogen: stimmen viele zu: Hohe Ausprägung Itemtrennschärfe: - Korrelationskoeffizient des einzelnen Items und dem Testergebnis  => wie gut kann ein Item zwischen Personen mit hohen/niedrigen Testwerten differenzieren- Voraussetzung: Homogene Items (messen ähnliches)- Werte zwischen -1 und +1  nahe +1: nur von Probanden mit hohem Testwert gelöst  nahe 0: kann ncht zwischen Probandem mit hohem/niedrigen Testergebnis differenzieren              misst also was anderes  nahe -1: Nur Probandem mit niedrigem Testwert lösen dieses Item               Korrelation mit hohem Testergebnis ist negativ- Items die große Varianz erzeugen   => hohe Trennschärfe Weitere Anforderungen an Items: - aktuell (keine DM, politische Parteien, "Schreibmaschine")- wertungsfrei- nicht suggestiv (völlig wertlos) homogene Items: Messen Ähnliches heterogene Items: Messen unterschiedliche Aspekte, korrelieren nicht hoch
  • Testgüte: - Problem - Praxis der Personaldiagnostik (wissenschaft & praxis): Schaubild malen, Problem? - DIN-Norm-Eignungsdiagnostik, was ist das, Ziel, Qualitätskriterien und Standards zu 4 Dingen, Forderungen (4) Testgütekriterien: Eignungskriterien sehr oft von nicht-Psychologen angewendet=> Gefahr, dass :      - wissenschaftlich unzureichende Testverfahren angewendet      - nicht den Anweisungen entsprechen angewendet mangelnde Zusammenarbeit zwischen Wissenschaft und Praxis      - Wissenschaftler tuen sich schwer allgemeinverständlich vermarkten      - Praktiver wenig Nachfrage nach wissenschaftlichen Tests           "wir haben das immer schon so gemacht"           Ansicht selbst schon genug Psychologie zu verstehen Praxis der Personaldiagnostik: a) Wissenschaft = Kommunikationsprobleme - methodische Prinzipien- mathematische Verfahren- Gütekriterien- Messinstrumente- diagnostische Verfahren- Evaluationsmethodik- Forschungsergebnisse- Theorie b) Unternehmen (Praxis) = mangelnde Nachrage - Zeitdruck- materielle Ressourcen- Traditionen- Routine- Alltagspsychologie- Selbstvertrauen- learning by doing- Machtinteressen Zusammenverarbeit verbessern: DIN-Norm Eignungsdiagnostik - Basis System zur Beurteilung diagnostischer Verfahren  Richtlinie für gesamten Prozess der Eignungsdiagnostikseparate   (Richtlinien und Qualifizierungsansätze vereinen)  Basis System zur Beurteilung diagnostischer Verfahren- Ziel: Qualitätssteigerung- Wissenschaftler und Praktiver haben mitgewirkt Qualitätskriterien und Standards: a) zur Planung berufsbezogener Eignungsdiagnostik b) zur Auswahl, Zusammenstellung, Durchführung, Urteilsbildung c) zur Interpretation der Verfahrensergebnisse und zur Urteilsbildung d) zu Anforderungen an die Qualifikation der Personen die beteiligt sind Forderungen: - diagnistische Verfahren sollen in der Praxis erprobt und wissenschaftlich abgesichert sein- unter vergleichbaren Bedingungen, nach festgelgten Regeln ausgewertet- nur Eingesetzt wenn Einsatz gerechtfertigt- sollen Hauptgütekriterien erfüllen  Objektivität  Reliabilität (Zuverlässigkeit)  Validität (Gültigkeit)
  • Hauptgütekriterien: - jedes knapp erklären - Aggregationsprinzip - 19 JH Francis Galton versucht Intelligenz durch Geschwindigkeit Infoverarbeitung zu erfassen    zu wenige Testdurchgänge pro Person: Messfehler mittelte sich nicht aus    Methodischer Mangel: Zusammenhang nicht entdeckt     => Reliabilität nicht berücksichtigt - bei Personen kann aber zB Angst nicht weggemittelt werden indem viele Personen gemitteln  Mittelung (Aggregationsprinzip) geht also nur bei Individualdiagnise (Innerhalb Person)  => durch mehrere Items im Test (pro Untertest) Reliabilität   = wie sehr spiegeln die Werte die wahren Werte wieder                    = Zuverlässig, Messgenauigkeit                    = wie genau miss der Test Validität       = misst der Test was er messen soll? Objektivität  = Ergebnisse unabhängig vim Untersucher und der Situation?
  • Testgütekriterien: Objektivität: - Objektivität: Definition - 3 Phase => 3 Objektitiväten: Je Definition? und Beschreibung. 1: 2, Quantifizieren? - Kompetenz-Performance-Problem - Versuchsleitereffekte Objektivität = Ergebnis ist unabhängig vom Untersucher und der übrigen Testsituation   dh verschiedene Untersucher kommen zm gleichen Ergebnis - nicht Art der erhobenen Infos (Selbst-/Fremdeinschätzung ist ja subjektiv)- Objektivität bezieht sich auf Testsituation (Untuersucher beudeutenster Teil) Objektivität ist in 3 Phasen gefährdet: - Durchführung- Auswertung- Interpretation Durchführungsobjektivität:=> hoch: Diagnostische Erhebung läuft bei allen gleich ab 1. Äußere Bedinungen - Beleuchtung, Raumtemperatur etc- realtiv leicht zu erfüllen 2. Testleiterunabhängigkeit - vielfältige Interaktionen.. besonder schwer, selten vollständig standardisiert- soziale Interaktion auf ein minimum Reduziern und möglichst Wortlaut vorschreiben- Perfekt nur wenn Versuchsleiter nicht mehr in Erscheinung tritt               - Es gibt aber immer Personal..               - Auch Computer lösen differenzielle Reaktionen aus.. (positiv, negativ)               - Außerdem können Versuchsleiter Kompetenz-Performance-Problem analysieren                      Wirkliche Leistung oder andere (psychologische) Probleme                      Versuchsleiter sorgt außerdem für lockere Stimmung                - Hinreichende Quali und Schulung nötig- Durchführungsobjektivität quantifizieren?  Test bei gleicher Person mehrmals durchführen: Korrelation  => nicht zumutbar & Übungseffekte        geht nicht!- Praxis: Durchführungsobjektivität ist okay wenn Testmanual mit Richtlinien- Störanfälligkeit = Nebengütekriterium   Ausmaß in dem ein Test (habitueller Merkmalsunterschiede, also nicht aktueller Gefühle)             unabhängig gegenüber aktureller Zustände der Person und situativen Faktoren ist     zB inwiefernState-Trait-Angstinventar unterscheidet zwischen aktueller Zustandsangst und          Ängstlichkeit als Trait Versuchsleitereffekte: - Halo-Effekt (durch bestimmte Erwartungen):   => nonverbale Kommunikation: Verstärkung und Bestrafung       zB Versuchsleiter hält attraktive Person für intelligent            lächeln bei richtiger Antwort            Person strengt sich noch mehr an   = Rosenthal-Effekt (oder Pygmalion-Effekt)      positive Einstellung => positives Ergebnis- Testleitereffekte ohne Interaktion durch Geschlecht!   Intelligenztests mit 465 Kindern:    Leistungsschwache Mädchen mit männlichen Testleitern schnitten bedeutsam besser ab Auswertungsobjektivität:=> hoch: jeder Auswerter kommt zum gleichen Ergebnis - Auswertung = Verrechnungs der Testleistung zu Testwerten (Kodierung)  auch Verrechnungssicherheit genannt- je genauer im Manual spezifiziert desto besser- zB Intelligenztest K-TIM, Untertest auditives Verständnis: "wovor wurden die Kinder geretten"  offenes Antwortformat, 9 Beispielantworten = zu wenig!  Einschätzung ob Antwort einer richtigen Lösung entspricht ist also vom Auswerter abhängig  mangelnde Auswertungsobjektivität- besodners problematisch: Projektive Verfahren  zB Thematische Apperzeptionstests: Ganze Geschichte als Antwort  20 ausdrucksvolle, dramatische Szenen, Person bringt eigene Konflikte zum Ausdruck- gebundene Antwortformate (zB Multipli-choice-tests) verrechnungssicherer- Papier-Bleistift-Test:   Problem Fehler beim Verrechnen- Auswertungsobjektivität kann quantifiziert werden  gleiche Tests verschiedenen Auswertern vorgelegt: Gleiches Ergebnis? Korrelation Interpretationsobjektivität:=> hoch: Schlussfolgerungen aus Testergebnissen unabhängig von interpretierender Person - Interpretationseindeutigkeit?- normierte/geeichte Tests:    Interpretation (nur): Einordnung des Ergebnis zur Referenzpopulation   zB Rohwert 25 = Prozentrang 75 => 75% der Referenzpopulation schlechtere Ergebnisse- wenn Normstichprobe ausreichend groß und genügend fein abgestuft:    Interpretationsobjektivität gegeben- Testmanual manchmal aus ökonomischen Gründen nicht mit allen Tabellen gespickt   dann muss Auswerter interpolieren   passiert nicht bei PC-Auswertung- bei eigener Einschätzung ohne Normstichprobe (zB klinische Diagnose oder so)  reichen einzelne Interpretationsbeispiele nicht!!!  => standardisierte, sprachlich formulierte Interpretationen nötig!- Projektive Verfahren sind nie interpretaionsobjektiv  Erfahrung und Intuition des Testleiters
  • Testguete: Reliabilitaet: - Reliabilitaet - Retest-Reliabilitaet - Paralleltest-Reliabilitaet - Split-Half-Reliabilitaet - Interne Konsistenz - Cronbachs Alpha (Formel) Reliabilitaet:- Zuverlaessigkeit- Messgenauigkeit- wie Wenig ist der Testwert von Messfehlern verzerrt,   wie wahrscheinlich ist es also bei Messwiederholung das selbe zu messen Retest-Reliabilitaet:- Korrelation von 2 Messungen an der selben Person- Abstand idR mehrere Wochen Paralleltest-Reliabilitaet:- Paralleltest: Test der das gleiche Merkmal erfasst, zB 2 Intelligenztests- korreliert das Ergebnis von zwei Paralleltests? - Spearman-Brown-Formel => hoehere Reliabilitaet beider Tests Split-Half-Reliabilitaet:- ein Test wird einfach geteilt => 2 Tests   Spearman-Brown-Formel- siehe Paralleltest-Reliabilitaet- wenn Items ausreichend homogen (das selbe messen)- Nachteil: Ergebnis haengt auch davon ab welche Items welcher Haelfte zugeordnet werden  Loesung     ↓   interne Konsistenz:- Test wird in so viele Teile geteilt wie Items- mittlere Inter-Itemkorrelation mittels Spearman-Brown-Formel => vereinfachte Formel: Cronbachs Alpha α = m / m -1 * (1 - (Σ si2 / sx2)) sx2 = Varianz der Testwerte si2 = Varianz eines der m Items eines Tests
  • Testguete: Validitaet - Validitaet - Kriteriumsvaliditaet (echtes Aussenkriterium, Quasikriterium, Vorhersagevaliditaet, Uebereinstimmungsvaliditeat) - Konstruktvaliditaet (konvergente Validitaet, diskriminante Validitaet, faktorielle Validitaet, Extremgruppenvalidierung) Validitaet:= Gueltigkeit- Genauigkeit mit der dasjenige Merkmal gemessen wird, das gemessen werden soll Kriteriumsvaliditaet: - die Messungen korrelieren mit einer anderen konstruktvaliden Messung (dem Kriterium)- auch "empirische Validitaet"- wenn moeglich "echtes" Aussenkriterium  = hoeherrangig, robuster, als der zu validierende Test      zB Ausbildungs- oder Berufserfolg (erfasst durch: Zeugnisnoten, Vorgesetztenurteile etc)- "Quasikriterium"  = nicht hoeherrangig als der Test      zB andere psychologische Tests die das selbe Konstrukt erfassen      muss seinerseits an einem echten Kriterium validiert werden      behelfsweise verwendet weil leichter verfuegbar und erhebbar- Vorhersagevaliditaet (prognostische Validitaet):  = Kriterium liegt in der Zukunft       zB Ausbildungserfolg- Uebereinstimmungsvaliditaet (konkurrente Validitaet)  = Kriterium liegt in Gegenwart      zB Diagnose einer psychischen Stoerung Konstruktvaliditaet: - tatsaechlich das Konstrukt gemessen das gemessen werden soll?   erwartungsgemaesse Ergebnisse (Zirkelschluss)- konvergente Validitaet    Vergleich mit Konstruktnahen Merkmalen (hohe Korrelation?)- diskriminante Validitaet   Vergleich mit Konstruktfernen Merkmalen (niedrige Korrelation?)   zB Intelligenz und Gewissenhaftigkeit (unterschiedliche Konstrukte)   schlechter Tests: Punktabzuege fuer unsaubere Ausfuehrung- faktorielle Validitaet (Faktorenanalyse)  ganze Gefuege von Konstrukten und Variablen: erwartete Zusammenhaenge?  Skalen die das selbe Konstrukt erfassen sollen auf den gleichen Faktor laden - Extremgruppenvalidierung:  Unterschiedshypothesen wie zB Altersunterschiede  Unterscheiden sich zwei Extremgruppen in ihrem Ergebnis?  zB Leistungsmotivationstest bei Spitzensprotlern vs nicht Spitzensportlern => Nachweis Konstruktvaliditaet = Prozess:                                          Nie Abgeschlossen, es werden immer mehr Indizien gesammelt Internetlexikon sagt Kriteriumsvaliditaet ist ein spezieller Aspekt der Konstruktvaliditaet
  • Nebenguetekriterien: - Normierung/Eichung was ist das? - Normstichprobe erheben (Faustregel, Repraesentativitaet, Anfallstichproben) - Normierung Eignugsdiagnostische Verfahren: Problem? - Aufspaltung Eichstichprobe - regelmaessiges Aktualisieren der Normdaten - einzelne Daten in Relation setzen zu Referenzpopulation a) Normalverteile Rohwerte Formel(n), Konventionen in Europa vs. Wechsler b) nicht Normalverteilte Rohwerte was tun? was bedeutet Prozentrang 88? c) nicht normalverteilte Rohwerte auf Standardskala ausdruecken - Stichprobenfehler Normierung (Eichung) => Basis der normorientierten Diagnostik (!= kriteriumsorientierte Diagnostik) Normstichprobe (Eichstichprobe) erheben:- hinreichend gross, sodass Stichprobenfehler gering- Faustregel 300 - 1000 - Repraesentativ: Kann kaum fuer alle reprasentativ sein fuer welche Merkmale (Geschlecht, Bundesland) soll die Stichprobe also repraesentativ sein?   wenn ein Merkmal unabhaengig vom Test ist, braucht die Stichprobe in der Hinsicht nicht repraesentativ zu sein (zB Missverhaeltnis von Frauen und Maennern dann akzeptabel)- praktisches Problem: Grosser Aufwand (Zeitlich, Organisatorisch, Finanziell- schwer bestimmte Bevoelkerungsgruppen repraesentativ abzubilden   deshalb manchmal garnicht versucht, sondern Anfallsstichproben   = Personen im Umfeld (zB Klinikpersonal) oder Selbstnormierung (melden auf Anzeige)- Kinder sehr gut erreichbar (Schule) Normierung Eignugsdiagnostische Verfahren:- Problem (wie bei alles Freiwilligen):   Test hat keine Konsequenzen, wahrscheinlich unterscheidet sich ihr Verhalten also    von echten Testpersonen Aufspaltung Eichstichprobe:-  nach Altersgruppen, Bildungsgruppe etc   damit jeder hinreichend genau in seine Normgruppe eingeordnet werden kann- Stichprobenumfang muss fpr jede Gruppennorm gegeben sein! regelmaessiges Aktualisieren von Normdaten:- Merkmalsveraenderungen in der Bevoelkerung (zB Flynn-Effekt)- nach DIN 33430 nach spaetestens 8 Jahren einzelne Daten zu Referenzgruppe in Relation setzen:- frueher Aequivalenznorm (Mittelwert)- heute: Variablilitaetsnorm (Mittelwert und Streuung) a) Rohwerte unseres Tests sind Normalverteilt - Gesamte Verteilung ist anhand Mittelwert und Standardabweichung beschreibbar   => lineare Transformationen! :)- relative Position des Testswerts: Wie viele Standardabweichungen unter/ober Mittelwert   Rohwert => Z-Wert    z-Wert = (Testwert - Mittelwert) / Standardabweichung    z = (x - xquer) / sx- negative Z- Werte und z-Werte mit Nachkommastellen..   deshalb Multiplikation mit Faktor und Addition einer Konstanten   zB Wechsler-Intelligenztest: Konstante = 100, Faktor = 15        z * 15 + 100 = IQ   Problme hoher Messwert vermittelt hohe Messgenauigkeit, daher meist kleinere Werte - Z-Skala: Mittelwert = 0, Standardabweichuhng = 1  daher Mittelwert = Konstante, Standardabweichung = Faktor- alle Standardskalen und Prozentrangskala koennen ineinander ueberfuehrt werden- Konvention in Europa:   alle Werte +/- 1 SD = durchschnittlich   das sind ca. 68% der Referenzpopulation (ca 2/3)- Wechsler IQ Konvention:   durchschnittlich sind nur 50% also Grenzwerte 90 und 110- beide Konventionen werden weiter parallel angewendet und sorgen fuer Verwirrung b) Rohwerte unseres Tests sind nicht Normalverteilt - lineare Transformationen nicht moeglich- statt dessen: Prozentrangskala (aufsummierte Haeufigkeiten)  jeder Rohwert wird einem Prozentrang zugeordnet  gibt an wie viele Personen diesen oder einen hoeheren Testwert aufweisen  zB Prozentrang 90: 10% der Referenzpopulation haben einen hoeheren Wert- da Prozentrangskala sehr anschaulich auch bei normalverteilten mit angegeben- Nachteil: nicht intervallskaliert  duerfen also zB nicht addiert werden  gleiche Differenzen an verschiedenen Stellen bedeuten nicht das gleiche  Unterschiede im mittleren Bereich treten besonders hervor  0                          10             30      50      70             90                           100 c) nicht normalverteilte Testwerte auf einer Standardskala ausdruecken - zB zur vereinheitlichung normalverteilter und nicht-normalverteilter Subtests- 1. Berechnung der Prozentraenge  2. in Standardwerte umwandeln (als ob Normalverteilung vorlaege)  => Standardwertaequivalente        Mittelwert 50 und Standardabweichung 10        "T-Skala" (Quasi-Normalverteilung) Stichprobenfehler:- Abweichung des Geschaetzten Wertes (zB Mittelwert) vom Populationsparameter 
  • Nebenguetekriterien: Fairness - Definition - a) Testimmanente Bedingungen, b) inhaltliche Details, c) Verrechnung - Cattell: culture free intelligence test - Aequivalenzpruefung keine systematische Benachteiligung von Personengruppen aufgrund:- soziokultureller Zugehoerigkeit- ethnischer Zugehoerigkeit- geschlechterspezifischer Zugehoerigkeit a) Testimmanente Bedingungen (im Test selbst)- zB Instruktionen so kompliziert formuliert       nur von akademikern verstanden- zB aeltere Menschen am PC- Umstellung Papier-Bleistift-Test Neunormierung?   Aequivalenzpruefungb) inhaltliche Details:- zB Items mit religioesen Details werden unterschielich beantwortet   auf solche Items verzichten c) Berechnung- Vorsicht: nicht immer auf Items die Unterschiede hervorrufen verzichten- zB Geschlechterspezifische Unteschiede in Raumvorstellung und verbalen Faehigkeiten   Beispiel: Potenzial eines maennlichen Schuelers fuer Gymnasium                nicht auf sprachliche Faehigkeiten verzichten sondern einfach mit Jungs vergleichen                 => Prognose frei von geschlechterspezifischer Diskriminierung Zitat: Es gibt nicht DEN fairen Test oder DAS faire Selektionsverfahren, |         sondern nur Fairness im Hinblick auf Handlungs- und Entscheidungsaspekte Raymond B. Cattell 1940: culture free intelligence test- ohne sprache- kulturelle Einfluesse dennoch nicht zu verhindern- aus culture free wurde culture fair  aus culture fair wurde culture reduced (Kultureinfluss liess sich nicht verhindern) Aequivalenzpruefung:- Gleichwertigkeit zweier Versionen eines pszchologsich-diagnostischen Verfahrens- zB Parallelformen, verscheidene Testbedingungen, interkulturelle Aequivalenz   
  • Nebenguetekriterien: Unverfaelschbarkeit - wodurch entsteht Kontrolle (2) - projektive Verfahren - Intelligenz und Leistungstests (Simulationsdiagnostik) - Persoenlichkeitsfrageboegen: Problem? Luegenskalen, Objektive Persoenlichkeitsfrageboegen unverfaelschbarer Test = minimales Ausmass an Kontrolle ueber Art und Inhalt der Infos - Probanden versuchen regelmaessig Testwerte gezielt zu beeinflussen - zB um Eindruck erzeugen sie verfuegen ueber sozial erwuenschte Eigenschaften- Kontrolle entsteht durch      Vermutung was der Test erfasst Augenscheinvaliditaet     Durchschaubarkeit des Messprinzips (wie steht das gezeigte Verhalten in Beziehung) Projektive Verfahren:- geringe Augenscheinvaliditaet- auch wenn erkannst schwer abschaetzbar wie das Verhalten zu veraendern Intelligenz- und Leistungstests:- klar, moeglichst richtig und schnell- durch begrenzte eigene Faehigkeiten sehr enge Grenzen fuer Manipulation- gelegentlich geringere Faehigkeiten vortaeuschen (faking bad)  zB Versicherungsansprueche (Berufsunfaehigkeitsansprueche)       Neuropsychologisches Gutachten: Gedaechtnisleistung       Simulationsdiagnostik:               Laien koennen meist nicht abschaetzen wie schwer die Schaeden sind und Muster               Simulanten schneiden in betimmten Aufgaben dann unterdurchschnittlich ab                Persoenlichkeitsfrageboegen:- hohe Augenscheinvaliditaet und erkennbares Muster   zB Gewissenhaftigkeit bei Bewerbung als Bueroleiter- Studenten konnten 68-93% der Items des NEO-Fuenf-Faktoren-Inventars richtig zuordnen- Meaanalyse zeigt dass faking good ein Problem ist 2 Ansaetze Verfaelschungen entgegenzuwirken (Persoenlichkeitsfrageboegen) a) Luegenskalen- kleine aber haeufige (unerwuenschte) Regelverletzungen  zB ich habe schonmal von einer anderen Person schlecht gesprochen- wenn verneint offensichtliche Neigung zu sozial erwuenschten Antworten- bei hohem Luegenwert wird davon abgeraten andere Skalen auszuwerten- Problematisch      - selbst leicht zu durchschauen      - fragliche Validitaet: korrelieren untereinander eher gering- Kubinger und Jaeger:   "Warnung" man koenne durch komplizierte Verfahren pruefen hat keine Zweck b) objektive Persoenlichkeitstests- zunehmend als PC Verfahren- messen bestimmte Persoenlichkeitseigenschaften direkt aus Verhalten   zB "Arbeitshaltungen"     - Personen sollen Flaechengroessen am PC vergleichen + entscheiden welche groesser ist     - schwer, verleitet zu Raten und Fehlern     - auch Moeglichkeit keine Entscheidung zu treffen     - Testwert => eher impulsives oder reflexivem Verhalten Ausserdem: neuere Forschungsergebnisse:- durchschaubarkeit von Verfahren kann trotzdem valide Berufserfolgs-Ergebnisse liefern- wenn "ability to identify criteria"  im angestrebten Beruf relevant
  • Nebenguetekriterien: Zumutbarkeit - Definition? - was heisst das konkret? Zumutbarkeit Definition: - Testperson wird absolut und relativ zum resultierenden Nutzen - in zeitlicher, pszchischer und koerperlicher Hinsicht geschont absolut und relativ zum resultierenden Nutzen:- zB Piloten werden an 3 aufeinander folgenden Tagen geprueft und bewertet- hohe koerperliche und emotionale Belastung- aber Piloten haben eine grosse Sicherheitsverantwortung und muessen auch unter Belastung  sehr gut performen Was heisst das konkret?- steht nicht fest- 5 min Pausen sorgen schon fuer viel Erholgung, Motivation sinkt aber dennoch- Kubinger: Manches was psychologischer Standard ist koennte schon nicht zumutbar sein
  • Nebenguetekriterien: Skalierung - wann erfuellt? - Problematik - Beispiel Test leistungsschwache Kinder Gutekriterium Skalierung ist erfuellt wenn:=>  Testwerte (laut Verrechnungsvorschriften) empirische Verhaltensrelationen abbilden       wie viele Punkte je Frage? - da mehrheit der Tests auf klassischer Testtheorie basiert:   fast ueberall einfachster Verrechnungsmodus   Testwert = Anzahl richtiger Aufgaben- empirisch nur mithilfe probabilistischer Modelle ueberpruefbar   spezielle Mathematische Modelle zur ueberpruefung- wird deshalb von manchen ignoriert von anderen mehr Platz als Validitaet (!) Kubinger: Untertest "allgemeines Wissen" fuer leistungsschwache Kinder- Frage: Was musst du tun damit das Wasser kocht?  richtig: Auf den Herd stellen- lesitungsstarke Kinder "unter ihrem Niveau" aber physikalische Erklaerung nicht moeglich   => 0 Punkte- ungeeignete Verrechnungsvorschrif!
  • Nebenguetekriterien: Testoekonomie - Definition - finanzielle Kosten (5), zeitlicher Aufwand (5) - Konkurrenz zu anderen Guetekriterien (4) = beansprucht im Verhaeltnis zum Erkenntnisgewinn wenige Ressourcen finanzielle Kosten:- Anschaffung- Verbrauchsmaterial- Antwort- und Auswertungsboegen- Lizenzgebuehren (PC)- kosten fuer psychodiagnostisch gut qualifiziertes Personal zeitlicher Aufwand (oft noch bedeutender):- Vorbereitung- Durchfuerung- Auswertung- Ergebnisrueckmeldung Konkurrenz zu anderen Guetekriterien:- kuerzerer Test weniger reliabel- nur ein Verfahren: kleinere Kriteriumsvaliditaet- nicht sehr qualifiziertes Personal:   schlechte Objektivitaet (Durchfuehrung, Auswertung, Interpretation)  wirkt auch negativ auf Reliabilitaet und Validitaet- Testpersonen ohne Pause testen um alles an einem Nachmittag zu schaffen   kaum zumutbar   => es handelt sich also auch um eine ethische Entscheidung
  • Nebenguetekriterien: Nuetzlichkeit (2) misst fuer psychologische Entscheidungen RELEVANTE Eigenschaft Eigenschaft nicht bereits durch anderes Verfahren erfasst das ebenso alle Guetekriterien erfuellt
  • Uebersicht 1. Ausgangspunkte der Diagnostik - Definition- Urspruenge- Aufgabenbereiche- Rechtliche Grundlagen und ethische Aspekte 2. Grundlagen diagnostischer Verfahren - Selektionsdiagnostik und Modifikationsdiagnostik- normorientierte und kriteriumsorientierte Diagnostik- klassische Testtheorie (3 Axiome, Kritik)- probabilistische Testtheorie 3. Rund um den Test a) Klassifikation von Tests - Arten von Tests     - Leistungstests     - Persoenlichkeitsfrageboegen und -tests     - apparative Tests- sprachabhaengige und sprachunabhaengige Tests- Gruppen vs Individualtests- Speed vs Powertests- Paper-Pencil vs Computer- adaptive vs klassische Tests b) Wege der Testkonstruktion - rationale Konstruktionsstrategie- externatle Konstruktionsstrategie- induktive/faktorenanalytische Konstruktionsstrategie- Kosntruktion nach dem Prototypenansatz c) Testmaterial d) Anforderungen an Testitems- sprachlich- eindeutigkeit- Itemschwierigkeit- Itemtrennschaerfe- weitere Anforderungen e) Testguete - Din Norm- Hauptguetekriterien     Objektivitaet     Reliabilitaet     Validitaet- Nebenguetekriterien      Normierung     Fairness     Unverfaelschbarkeit     Zumutbarkeit     Skalierung     Testoekonomie     Nutzlichkeit
  • alle Guetekriterien aufzaehlen (10) Hauptguetekriterien: 1. Objektivitaet- Durchfuehrungsobjektivitaet- Auswertungsobjektivitaet- Interpreationsobjektivitaet 2. Reliabilitaet- Paralleltest-Reliabilitaet- Retest-Reliabilitaet- Split-Half-Reliabiliaet- Interne Konsistenz 3. Validitaet- Kriteriumsvaliditaet- Kosntruktvaliditaet Nebenguetekriterien: 4. Normierung 5. Fairness 6. Unverfaelschbarkeit 7. Zumutbarkeit 8. Skalierung 9. Testoekonomie 10. Nutzlichkeit