Diagnostik (Subject) / Leistungsdiagnostik (Lesson)
There are 148 cards in this lesson
Leistungsdiagnostik; WS 13/14; Pilsz
This lesson was created by knoedel.
- Die Definition eines Items nach Rost (2004) „die kleinste Beobachtungseinheit in einem Test, sozusagen der elementare Baustein, aus dem ein Test gebaut ist. An einem Item lassen sich zwei Komponenten unterscheiden, nämlich der so genannte Itemstamm und das Antwortformat.“ Der Itempool ist die Gesammtzahl der Items, welche für die Konstuktion entwickelt werden. Aus diesem werden die Items für den Test ausgewählt. In der Mehrzahl der Fragebögen werden alle Items vorgegeben. Beim Adaptiven Testen werden nur jede Items vorgegeben, die dem jeweiligen Schwierigkeitsgrad der Person entsprechen. Der Itempool ist damit bei einem adaptiven psychodiagnostischen Verfahren um ein Vielfaches größer als die Items bei der Testvorgabe.
- Wie unterscheidet man Fragen inhaltlich nach ihrer Zielfunktion? · Fakten: z.B. Lebensalter, Besitz eines Autos usw. · Wissen: z.B. an welche Staaten grenzt Kroatien? · Beurteilungen, Bewertungen, Meinungen, Einstellungen: z.B. Wie stehen Sie zum Tierschutz? · Verhalten und Handlungen: z.B. Betreiben sie regelmäßig Sport? · Motive: z.B. Warum wollen Sie sich weiterbilden?
- Wie unterscheidet man instrumentelle Fragen? · Kontrollfragen: z.B. Wiederholungsfragen zur Prüfung der Antwortkonsistenz · Filterfragen: ermöglichen ein überspringen von Fragebogenteilen. (z.B. wenn jemand im letzten Jahr nie krank war, brauchen keine einzelnen Krankheiten abgefragt zu werden.) Filter sollten sparsam verwendet werden, da sie die Einheit der Befragungssituation sprengen und die Auswertung behindern. · Gabelungsfragen: z.B. getrennte Items je nach Geschlecht · Einleitungsfragen: die den Kontakt zum Befragten verbessern sollen. · Pufferfragen: Um den Halo-Effekt zu unterbinden. Einstellungsfragen die sich gegenseitig stark beeinflussen können sollten durch Pufferfragen getrennt werden. · Ablenkungs- und Füllfragen: verschleiert die Testintention
- Nennen sie einige Regeln zur Fragebogen-Itemkonstruktion nach Maurer 1. Items so einfach wie möglich formulieren (Iteminhalt soll leicht verständlich sein; verschachtelte Sätze sollten vermieden werden. 2. Keine Verwendung von Fachwörtern 3. Keine Verwendung missverständlicher oder doppeldeutiger Begriffe. 4. Situationen und Verhaltensweisen erfragen, von denen angenommen werden kann, dass die gesamte Zielgruppe damit vertraut ist oder die zumindest leicht vorstellbar ist. Das Vorwissen darf bei der Beantwortung der Fragen keine Rolle spielen. 5. Keine doppelten Verneinungen 6. Ein Item soll nur eine einzige Aussage enthalten 7. Worte wie „viel, wenig, weniger, mehr, manchmal, selten, oft, häufig etc.“ vermeiden bzw. anhand eines Beispiels erklären damit jeder dasselbe darunter versteht. 8. Eindimensionalität: das Item soll einer einzigen Skala eindeutig zuordenbar sein. 9. Items sind so zu formulieren, dass es der Testperson leicht fällt, sie als zutreffend anzukreuzen, wenn sie tatsächlich zutreffen, (auch wenn das Item einen vermeintlich negativen Inhalt hat.) und umgekehrt. 10. Durch situative Einengung kann der Interpretationsspielraum der Items reduziert werden: d.h. Formulierungen konkreter Situation und Verhaltensweisen. 11. Antwortformat: Alle Items sollen so aufgebaut sein, dass sowohl eine Analogskala als auch ein mehrkategorielles Antwortformat (geradzahlig) einsetzbar ist. 12. Variation der Itempolung: Wechseln der Antwortrichtung zur Vermeidung von Akquiszenz. 13. Die Eindeutigkeit der Messrichtung des Items muss für die Beurteiler gegeben sein; d.h. es muss nachvollziehbar sein, in welche Richtung das Item gepolt ist. 14. Die Items sollten weder zu leicht noch zu schwer zu beantworten sein. Antworten auf die jeder mit Ja oder Nein antwortet sind nicht informativ. 15. Bei der Konstruktion von Items ist die präzise Verwendung von Begriffen unabdingbar. 16. Aktualität: Die Items sollten so formuliert sein, dass sie nicht schnell „veralten“. 17. Wertung: Wertungen sollten bei der Erfassung von Persönlichkeitseigenschaften vermieden werden. 18. Vermeidung suggestiver Inhalte. 19. Personalisierung von Items, d.h. die Testperson sollte direkt angesprochen werden. 20. Es sollte nicht direkt nach dem zu messenden Merkmal gefragt werden. Anstatt zu fragen „sind sie belastbar?“ ist eine indirekte Variante vorzuziehen: „denken sie ans Aufgeben, wenn Sie mehrmals an einer Prüfung scheitern?“
- Erklären sie das Freie Antwortformat Beim freien Antwortformat werden keine Antwortkategorien vorgegeben. Die Person kann die Antwort frei formulieren, die Instruktion gibt eine gewisse Struktur vor. Besonders bei Projektiven Verfahren zur Erfassung kreativer Leistung oder bei Assoziationstests. Der Einsatz bei Leistungstests liegt darin begründet, dass das Wissen beim freien Antwortformat reproduziert und die Ratewahrscheinlichkeit dadurch minimiert werden kann. (Maurer 2009) Drei Arten von freien Antwortformaten nach Rost (2004): · Keine Vorgabe: Es gibt keine Strukturierung, wie dies beispielsweise bei projektiven Verfahren Verwendung findet. Bei der Familie in Tieren (Brehmer-Gräser, 1970) wird die befragte Person gebeten ihre Familie in Tieren zu zeichnen. Außer der Größe des Blattes und der Stiftauswahl, gibt es keine Einschränkungen. · Formale Vorgabe: Formvorgabe wie zum Beispiel ein Wort oder ein Satz. (z.B. Ratte: Bilden sie möglichst viele Tiernamen, die mit R beginnen.) · Lückenvorgabe: die befragte Person wird gebeten, eine Lücke oder im Anschluss an den Itemstamm zu ergänzen. Wegen des hohen Zeitaufwandes ist das freie Antwortformat wenig ökonomisch und die Auswertungsobjektivität ist gering. Bei Persönlichkeitsfragebögen ist es insbesondere im qualitativen Bereich sinnvoll, wie z.B. zur Erfassung von Motiven. Aufgrund der Nachteile wird aber meist das gebundene Antwortformat verwendet.
- Welche unterschiedlichen Arten von gebundenen Antwortformaten gibt es? Dichotomes Antwortformat Mehrkategoriales Antwortformat Ratingskalen (Liker-Skalen, Stufen-Antworten) Analog Skalen
- Was ist das Dichotome Antwortformat? Das zweikategorielle oder dichotome Antwortformat bietet die Möglichkeit zwischen zwei response options (Zustimmung oder Ablehnung). Aufgrund der einfachen Gestaltungsweise findet es sehr häufig Anwendung in Persönlichkeitsfragebögen. Es ist sehr ökonomisch in der Instruktion, Bearbeitung und Auswertung. Die Bearbeitungsdauer kann reduziert werden, da sich die Testperson nicht zwischen vielen response-options zu entscheiden braucht.
- Was ist das Mehrkategoriale Antwortformat? Die typische Multiple-Choice-Aufgabe. Wichtig ist hierbei, dass die richtige Antwort auf Wiedererkennung und nicht auf dem Reproduzieren von Wissen beruht. Richtige Antworten werden als „Attraktoren“ falsche als „Distraktoren“ bezeichnet. Die Gestaltung der Distraktoren ist von entscheidender Bedeutung. Je mehr Distraktoren zur Verfügung gestellt werden umso geringer ist die Ratewahrscheinlichkeit. Kriterien für die Güte von Distraktoren sind ihre · Attraktivität (Auswahlwahrscheinlichkeit) · Ähnlichkeit mit dem Attraktor · Plausibilität Es ist nicht leicht Distraktoren zu entwickeln, die gleich attraktiv sind wie die richtige Lösung. Lechner beschreibt in seiner Studie zur Sinnhaftigkeitsprüfung von multiple choice Items, wie anhand der Fähigkeit zum logischen Schlussfolgern durch bloßes Betrachten die richtige Lösung bei Leistungstests mit hoher Wahrscheinlichkeit erkannt werden kann. Vorteile des MC-Formates liegen in der Ökonomie der Auswertung. Die Auswertungsobjektivität ist bei gebundenen Antwortformaten in der Regel höher als bei freien, dies kann aber zu Lasten der Validität gehen, wenn die Antwortkategorien nicht optimal konstruiert sind.
- Was sind Ratingskalen (Liker-Skalen, Stufen-Antworten)? Zu den Beurteilungsaufgaben zählen Aufgaben mit den Antwortformaten Ratingskala und Analogskala. Es wird der Grad der Zustimmung oder Ablehnung ermittelt. (z.B. trifft nicht zu, trifft eher nicht zu, trifft eher zu, trifft zu) Sie bestehen aus mehr als zwei Antwortmöglichkeiten und ermöglichen damit eine quantitative Beurteilung der Merkmalsausprägung. Vor der Konstruktion muss festgelegt werden, wie differenziert die Antwortkategorien abgestuft werden sollen (drei bis zehnstufig). Ratingskalen sind Itemunspezifisch, das heißt sie könne für ein oder mehrer bis alle Items verwendet werden. Sie sind Mehrkategoriell und stehen in einer Rangordnung. (ordinal) Es kann zwischen unipolaren (gehen nur in eine Richtung) und bipolaren (gehen sowohl in zustimmende als auch in ablehnende Richtung) unterschieden werden. Desweiteren wird zwischen verbalen (gar nicht, eher nicht…) und numerischen (1,2,3,...) Ratingskalen unterschieden. Ratingskalen sind im Vergleich zu dichotomen Antwortformaten informativer. Es muss abgewogen werden wie differenziert die Antwort erhoben werden soll.
- Was sagt Bühner zu Ratingskalen und was ist desweitern wichtig bei der konstruktion? Nach Bühner (1999) erhöht die Erhöhung der Abstufungen die Validität und Reliabilität. Fällt dann aber ab einer gewissen Zahl an Abstufungen wieder ab weil die Probanden mit dem Differenzierungsgrad des Itemformats überfordert sind. In der Praxis werden daher überwiegend maximal fünststufige Skalen verwendet. Wichtig sind ausserdem: · Der kognitive Differenzierungsgrad der Zielgruppe · Die Vermeidung von Antworttendenzen. · Um die Tendenz zu extremen Urteilen zu vermeiden sollte die Anzahl der Stufen gering gehalten werden. Ungerade Anzahlen von Antwortkategorien sind ungünstig, da sie eine mittlere/neutrale Kategorie aufweisen. Dies ist ungünstig weil die mittlere Kategorie oft gewählt wird wenn die Person das Item für unpassend hält oder die Antwort verweigert. Dies verletzt die Eindimensionalität. Des Weiteren fördert es die Tendenz zur Mitte.
- Was ist eine Analogskala? Hier gibt es keine konkreten Skalenabstufungen sondern eine kontinuierliche Skala. Bei Paper-Pencil-Tests kann an beliebiger Stelle ein Kreuz gesetzt werden. Bei Computertests gibt es hierfür einen Schieberegler. Die Tendenz zur Mitte kann hier vermieden werden indem der Schieberegler in der Mitte positioniert erst von der Stelle weg bewegt werden muss. Die Vorteile sind analog zu den Ratingskalen. Der Nachteil der Analogskala ist, dass die Differenziertheit der Messung meist nicht der Differenziertheit des Urteils entspricht.
- Wann ist ein Item brauchbar und welche Methoden stehen zur beurteilung zur verfügung? Ein Item ist brauchbar, wenn es nicht streut und wenn es nicht repräsentativ für das gesuchte Persönlichkeitsmerkmal ist. Als Methoden stehen uns die Schwierigkeits- und Trennschärfeanalyse sowie die Prüfung auf Homogenität zur Verfügung.
- Was ist der Test-Score? Die Summe aller Item-Scores ist der Test-Score und bringt die Ausprägung eines Merkmals zum Ausdruck. Bei einer Neukonstruktion, dürfen die Item-Scores nicht ungeprüft zum Testscore zusammengezählt werden. (außer bei der Testanalyse) Es muss erst die Brauchbarkeit jedes Items anhand der Teststichprobe untersucht werden.
- Wozu dient die Itemanalyse? Hat man die Items zusammen von denen man glaubt, dass sie für die Aufnahme in den Test geeignet sind erfolgt die Itemanalyse. Die Itemanalyse besteht aus der Berechnung statistischer Kennwerte, die den Testautor über den Grad der Eignung Auskunft geben, und die ihm zeigen, welche Items aussortiert werden sollten.
- Was ist der Schwierigkeitsindex? (discriminative power) Der Schwierigkeitsindex oder „Index der kategorialen Häufigkeit“ gibt an, wie groß der Anteil von Probanden ist, die ein Item „richtig“ beantwortet haben. (Michael & Conrad, 1982) Ein aus der Testpsychologie stammendes Konzept der Itemanalyse zur Beurteilung der Differenzierungsfähigkeit von Aufgaben. Anhand dieses Kriterium kann entschieden werden, ob eine Aufgabe/Frage/ein Item hinreichend zwischen Befragten/Testpersonen differenziert. Der Schwierigkeitsindex ist der Prozentsatz der „richtigen“ Antworten. Je größer der Schwierigkeitsindex ausfällt, desto mehr Personen haben das Item im Sinne des zu messenden Merkmals beantwortet. Items die konforme Reaktionen hervorrufen sind nicht brauchbar. Ein Test soll Probanden mit höheren Merkmalsausprägungen trennen von solchen mit geringeren Merkmalsausprägungen. Zwei Klassen von Items können dies nicht: Items die von allen und Items die von keinem gelöst wurden.
- Warum wird der Schwierigkeitsindex bei Leistungstests mit alternativen kategorien korregiert? Weil man bei alternativen Kategorien von Leistungstests relativ einfach „raten“ kann, gibt es die Möglichkeit der statistischen Zufallskorrektur nach J.P. Guilford.
-
- Was ist bei der Berechnung des Schwierigkeitsindexes zu beachten? Ein Item, das von vielen gelöst wurde, enthält damit einen hohen p-Wert; die Schwierigkeit ist aber gering! Multipliziert man den Schwierigkeitsindex mit 100 erhält man die prozentuale Lösungshäufigkeit.
- Welchen Schwierigkeitsindex nimmt man für mehrstufige Antworten? Entweder den Index für mehrstufige Antworten (pm) Einfacher ist es Mittelwert und Streuung für jedes Item separat zu berechnen. Man kann dann bei zweistufigen Items den Mittelwert als Äquivalent zum p nutzen.
- Was bedeutet Inangriffnahmekorrektur? Dazu muss man von allen Items die ausgelassenen und nicht beantworteten Items abziehen.
- Welche vier antwortarten gibt es bei Schnelligkeitstests? richtige Antworten, falsche Antworten, Ausgelassene Antworten und aufgrund von Zeitmangel Unbeantwortete Items
- Was ist das Testergebnis bei Niveautests? (power-tests) Bei Niveau-Tests (power tests) sollen ohne Zeitdruck Items gelöst werden, bis die Person entweder aufgibt oder bis alle Items gelöst sind. Die Items sind mit aufsteigender Schwierigkeit angeordnet. Testergebnis ist die Zahl der gelösten Items.
- Wann spricht man von einer perfekten Guttman-Skala Werden von den Probanden bei einem Niveautest bis zu einem bestimmten Item alle gelöst und danach keines mehr spricht man von einer perfekten Guttman-Skala.
- Wie errechnet sich das Testergebnis bei Mischtests? Mischtests fordern Schnelligkeit und Niveauleistung. Die Items werden nach der Schwierigkeit aufsteigend angeordnet, überschreiten aber nicht eine mittlere Schwierigkeit. Testergebnis ist die Zahl der gelösten Items über die Zeit.
- Was ist der ideale schwierigkeitsindex bei Persönlichkeitstests? Hier spricht man nicht von richtig oder falsch sondern von symptomatisch (in Schlüsselrichtung) oder unsymptomatisch (gegen Schlüsselrichtung) Der Ideale Schwierigkeitsindex: · Nach der Theorie müsste p = 0,5 der ideale Schwierigkeitsindex sein. · Dies wiederspräche aber der Absicht zwischen den Probanden vielfältig zu differenzieren, bzw. eine Skala zu erstellen die mehr als zwei Ausprägungen misst. (Fissini 1990) · Fisseni empfiehlt daher auch Items zu nehmen die ungleich 0,5 sind um die Homogenität zu Gunsten der Differenzierungsvielfalt aufzulockern. · Items mit einem Schwierigkeitsindex von p<20 oder p>80 sind aus dem Test zu entfernen. · Es gibt auch großzügigere Auffassungen wie bis 5%... · Der Anspruch an den Kennwert hängt oftmals auch von Praktischen Überlegungen ab. Z.B. wenn zu wenig Items mit besserem Wert zur Verfügung stehen. Es ergeben sich folgende Konsequenzen für die diagnostische Praxis: · Aufgaben, die von allen bzw. niemandem gelöst werden, sind zur Differenzierung von Personen wertlos. · Sehr leichte und sehr schwierige Aufgaben diskriminieren schlecht zwischen Personen · In der Praxis werden binäre Items mit einer Schwierigkeit unter .20 - .25 und über .75 - .80 eliminiert · Optimales Differenzierungsvermögen haben Items mit mittlerer Schwierigkeit. Um auch im unteren und oberen Fähigkeitsbereich der Stichprobe differenzieren zu können, muss zwischen diesen Grenzwerten das ganze Schwierigkeitsspektrum abgedeckt werden.
- Was ist Trennschärfe? Inhaltlich drückt eine Trennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, wiederspiegelt. (Haupt, 2007) Die Trennschärfe eines Items gibt an wie gut das gesamte Ergebnis aufgrund dieses Items vorhersagbar ist. Umso höher die Trennschärfe, desto besser misst das Item das, was auch die Skala misst. (vgl. Haupt, 2007) Hohe Trennschärfe: r > 0,5 Mittlere Trennschärfe: 0.3 < r < 0,5 Faustregel: Wenn die Itemwerte und die Summenwerte weniger als 10% gemeinsame Varianz haben, ist das Item ungeeignet. Die gemeinsame Varianz erhält man durch Quadrierung der Korrelation, hier der Trennschärfe. 0.32 ist damit die untere Grenze akzeptabler Trennschärfe.
- Was versteht man unter Part-whole-Korrektur der Trennschärfe? Ohne Teil-Ganz-Korrektur kommt es zu einer Überschätzung der Trennschärfe, weil das Item selbst Teil der Skala ist. Je größer die Itemzahl umso geringer die Part-Whole-Korrektur. Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch diese. Die Trennschärfe kann durch ein äußeres oder ein inneres Kriterium bestimmt werden. Ein äußeres Kriterium könnte ein Schätzurteil von Experten sein. In der Regel wird die Trennschärfe über ein inneres Kriterium am Test-Score ermittelt. Vereinfacht lässt sich die Trennschärfe als die (biserielle) Korrelation zwischen Item- und Test-Score definieren. Die Itemtrennschärfe gibt also an wie stark die Differenzierung des Items mit der Differenzierung des Gesammttests übereinstimmt. Sie soll Items Identifizieren, die alle hoch mit demselben Kriterium korrelieren. Die Statistik stellt je nach Skalenniveau unerschiedliche Korrelationskoeffizienten zur Verfügung. (Punktbiseriell bis Produkt-Moment-Korrelationskoeffizienten) Problem in der Praxis ist, dass so gut wie kein Item nur ein Merkmal misst. Beispiel: Fisseni bemerkte bei Konzentrationstests, dass nicht nur die Korrelationsfähigkeit sondern auch mathematische Fähigkeiten und mehr eine Rolle spielten. Für die Testentwicklung ist die Bestimmung der konvergenten Trennschärfe vorrangig also die Items die am höchsten mit dem Test-Score korrelieren. Optimaler Weise sollte die Korrelation dieser Items mit andern Test-Scores möglichst gering ausfallen. (diskriminante Testschärfe) Dabei muss die konvergente Trennschärfe eines Items höher sein als die diskriminante. Eine Überprüfung der Trennschärfe ist auch mithilfe der Faktorenanalyse möglich.
- Welche Beziehungen bestehen zwischen Trennschärfe und Schwierigkeit? Insgesamt differenzieren Tests mit homogenen Mittelschweren Items am besten bei mittlerer Merkmalsausprägung. Da bei mittlerer Itemschwierigkeit die Wahrscheinlichkeit für hohe Trennschärfen ansteigt, ist für solche Skalen auch eine höhere Reliabilität zu erwarten. Um auch in Randbereichen eines Merkmalsbereichs zu differenzieren, muss die Skala auch extremere Schwierigkeitsbereiche mit Items abdecken. Meist erreichen Items mit extremen Schwierigkeiten geringere Trennschärfen als mittelschwere Items. Dies reduziert die Itemhomogenität und daher sind für solche Skalen nicht ganz so hohe Reliabilitäten wie für Skalen mit ausschließlich mittelschweren Items zu erwarten.
- Was ist Homogenität? Homogenität gibt den Grad an, in dem die Items eines Tests dieselben Eigenschaften bzw. dasselbe Merkmal messen. Unterschiedliche Items können nie genau dasselbe messen. Es ist aber denkbar, dass sie unterschiedliche Facetten desselben Merkmals erfassen. In dieser Verschiedenheit gibt es jedoch auch Schnittmengen, sich überlappende gleiche Anteile. Das Maß für diese Übereinstimmung nennt sich Homogenität. Bei der Berechnung der Interkorrelation werden die Itemscores nicht mit dem Test-Score in Beziehung gesetzt sondern untereinander verglichen. Homogen sind demnach Test, deren Items hoch miteinander korrelieren. Inhaltlich: Die Items sind nicht gleich aber sehr ähnlich. Heterogen sind Tests, deren Items niedrig miteinander korrelieren. Inhaltlich besagt das, dass die Items recht unterschiedliche Merkmalsfacetten erfassen. · Homogenität gilt bei Korrelationen > 0.4 als recht hoch · Sehr hohe Homogenität -> Items wahrscheinlich redundant
- Auf welche vier Arten kann Homogenität berechnet werden? · Als Interkorrelation der Items · Im Sinne einer Faktorenanalyse · Im Sinne einer Guttman-Skala · Im Sinne des Rasch-Modells
- Wie bestimmt man die Itemvarianzen? Was sind Gründe für die Abweichung von der Normalverteilung? Wann darf man die Verteilung normalisieren? · Berechnung von Skalenmittelwert, Standartabweichung und Range. · Schiefe und Exzess: Die Berechnung von Schiefe erfolgt um zu sehen, ob die Testwertverteilung von der Normalverteilung oder einer anderen symmetrischen Verteilung abweicht. Zur Prüfung auf Normalverteilung kann man aber auch einen anderen Test verwenden. Gründe für Abweichung von Normalverteilung: · Konstruktionsmängel · Heterogene Stichprobe · Nicht-normalverteiltes Merkmal Wenn der Testkonstrukteur sicher ist, dass das gemessene Merkmal in der Realität normalverteilt ist und die schiefe Verteilung auf einen Stichprobenfehler oder einen Testkonstruktionsfehler zurückzuführen ist, darf man die Verteilung normalisieren. Mathematische Methoden zur Normalisierung sind die Logarithmmierung oder die Flächentransformation (z-Transformation) der Testwerte.
- Wann darf man nach Häcker von einem Test sprechen? „Der Begriff „Test“ bezieht sich üblicherweise auf Verfahren, die dem Typus der konstruierten Leistungsaufgabe oder der strukturierten Verhaltensprobe zugeordnet werden können. In beiden Fällen werden die Probanden aufgefordert, ihre bestmögliche Leistung zu erbringen. Verfahren zur Erfassung von Interessen und Persönlichkeitsmerkmalen durch Selbstbeschreibungen werden passender als „Inventare“, „Fragebögen“ oder „Checklisten“ und nicht als Tests bezeichnet.“ (Häcker 1998)
- was sind Fragebogen [engl. Inventory] und Frageliste Sammlung von Fragen, die für eine systematische Befragung von Personen konzipiert werden. (z.B. in der Markt und Meinungsforschung.) In der Persönlichkeitsdiagnostik statt Interviews verwendet weil sie ökonomischer (in Gruppen) und objektiver (Person des Befragers als Störvariable) sind. Problem bei Zusendung der Fragebögen, da nur besonders pflichtbewusste VPN die Fragebögen zurücksenden und man nicht sicher sein kann, dass die VPN den Bogen selbst ausgefüllt hat. Es wird unterschieden zwischen Faktenfragen und Meinungsfragen. Der Übergang zwischen diesen beiden ist fließend. Ein einfacher Fragebogen, ist eine Aufstellung von Fragen zu Alter, Einkommen, Einstellung zur Pille usw. Es gibt keine Gütekriterien und es werden keine verborgenen Persönlichkeitsmerkmale erfasst.
-
- Was ist ein Persönlichkeitsfragebogen (Questionnaire, self-inventory/Persönlichkeitsinventar) Besonders konstruierter Fragebogen zur Erfassung der Ausprägung von Persönlichkeitseigenschaften. Im Gegensatz zu einfachen Befragungsbogen sind die Fragen bzw. die Antworten auf die Fragen validiert. D.h. die Antworten stehen in einem geprüften Zusammenhang zu einer Aussage. Sie weisen einzelne Gütekriterien auf. Beim Persönlichkeitsfragebogen werden wie beim Persönlichkeitstest verborgene Persönlichkeitsmerkmale erfasst, die testtheoretische Absicherung ist aber noch nicht vollständig. (Nur wenige Validierungsstudien, geringe Werte für Validität und Reliabilität, zu kleine Normstichprobe). -> Vorform des Persönlichkeitstests
- Wie lassen sich Selbstbeurteilungsverfahren methodisch und inhaltlich klassifizieren? Methodisch: · Skalierungsmethode (verbal, numerisch, graphisch) · grundlegende Testtheorie (klassisch oder probabilistisch) Inhaltlich: · Zeitliche und transsituative Stabilität (Trait- und oder State-Variablen) · Dimmensionalität (homogen/eindimensional; heterogen/mehrdimensional) · Zielgruppe (Gesund/Krank)
- Welche verschiedenen Bedeutungen hat das Wort "Test"? 1. Ein Verfahren zur Untersuchung eines Persönlichkeitsmerkmals (im engeren und weiteren Sinn) 2. Den Vorgang der Durchführung der Untersuchung 3. Die Gesamtheit der zur Durchführung notwendigen Materialien. 4. Jede Untersuchung, sofern sie Stichprobencharakter hat. 5. Gewisse mathematisch-statistische Prüfverfahren (z.B. t-Test) Kurze, außerplanmäßige „Zettelarbeiten“ im Schulunterricht
- Was ist ein Test nach Lienert & Raatz? „Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.“ (Lienert & Raatz, 1994)
- Welche Eingrenzung nehmen Lienert und Raatz mit ihrer Definition eines Tests vor? · wissenschaftliche Fundierung · standardisierte Durchführung · relative Positionsbestimmung des Individuums innerhalb einer Gruppe · Prüfung von empirisch (nicht rein begrifflich) abgrenzbaren Eigenschaften, Bereitschaften, Fähigkeiten oder Fertigkeiten.
- Nennen sie die Gemeinsamkeiten und Unterschiede von Leistungstests und Persönlichkeitstests/-Fragebögen Gemeinsamkeiten von Leistungstests und Persönlichkeitstests/-fragebögen · Er sieht standartisierte Situationen zur Erfassung einer Verhaltensstichprobe vor · Die Verhaltensstichprobe gilt als Indikator für eine Persönlichkeitseigenschaft. · Ein Proband wird charakterisiert durch Bestimmung der relativen Position seines Test-Scores in der Werteverteilung einer Normalstichprobe. Unterschiede von Leistungstests und Persönlichkeitstests/-fragebögen · Die Verhaltensstichprobe besteht nicht aus „Realsituationen“, sondern aus Deskriptionen des Zielmerkmals. · Leistungstest fordern eine maximale Performanz, Persönlichkeitstests eine typische oder eine Selbsteinschätzung. (Brickenkamp) · Die Antworten auf die Fragebogenitems sind nicht richtig oder falsch. Rein externale Strategie als Methode zur Testkonstruktion, da Verhalten nicht direkt Zielmerkmal sein muss.
- Wie könnte eine verbindliche Sprachregelung zum Begriff Test aussehen? Liegen bei einem Messverfahren, das durch eine entsprechende Instruktion standardisiert abläuft, weitere ausreichende Gütekriterien wie Objektivität, Reliabilität, Validität (wissenschaftliche Fundierung) vor und kann man mit Hilfe eines Normensystems die Ausprägung von Persönlichkeitsmerkmalen vergleichend beurteilen, spricht man von einem subjektiven (weil Ergebnisse auf subjektiver Selbstbeschreibung und nicht auf objektiver Verhaltensbeobachtung beruhen) Persönlichkeitstest (-verfahren) Ein persönlichkeits-Struktur-Test ist ein Verfahren, das sowohl im normalpsychologischen als auch im klinisch-therapeutischen Bereich eingesetzt werden können und die Persönlichkeit in ihrer zentralen Strukturdimension und damit möglichst umfassen beschreiben wollen. Sie liegen meist in Form von mehrdimensionalen Persönlichkeitsfragebögen vor.
- Nennen sie Beispiele für am häufigsten eingesetzte mehrdimensionale Persönlichkeitsfragebögen · 16-Persönlichkeits-Faktoren-Test – Revidiert (16PF-R) von Schneewind & Graf (1998) · Freiburger Persönlichkeitsinventar – Revidiert (FPI-R) Fahrenberg, Hampel & Selg (2001) · Minnesota Multiphasic Personality Inventory 2 (MMPI-2) von Hathaway, McKinley & Engel (2000) · NEO-Fünf-Faktoren Inventar (NEO-FFI) von Borkenau und Ostendorf (1993) · Trierer Persönlichkeitsfragebogen (TPF) Becker (1989)
- Welche Klassifikationsmöglichkeiten (Einfache und Komplexe Schemata) für psychologische Tests gibt es? 1. Einfache Schemata a) Psychometrische Tests vs. Projektive Verfahren b) Individual- vs. Gruppentest c) Verbale vs. Nichtverbale Verfahren d) Ein- und mehrdimensionale Tests e) Einzeltest vs. Testbatterie f) Nach dem Testmedium (Paper- Pencil; Bildtestm Materialbearbeitungsverfahren, apparative Verfahren.) g) Fähigkeitstests und Persönlichkeitstests (Heiss) h) Allgemeine Intelligenztests, Fähigkeits-/Begabungstests, Kenntnis-/Leistungstests und Persönlichkeitstests. (Irle) i) Leistungstests, psychometrische Persönlichkeitstests und Persönlichkeits-Entfaltungstests (Brickenkamp) 2. Komplexe Schemata a) Klassifikationsschema nach Handbuch psychologischer und pädagogischer Tests von Rolf Brickenkamp (2002) b) Datenbank „Psyndex-Testfinder“
- Nennen sie die Differenzierungen von psychologischen Tests nach Irle, Brickenkamp und Heiss Differenzierung nach Irle: · Allgemeine Intelligenztests · Fähigkeits-/Begabungstests · Kenntnis-/Leistungstests · Persönlichkeitstests Differenzierung nach Brickenkamp: · Leistungstests · psychometrische Persönlichkeitstests · persönlichkeitsentfaltungsverfahren Differenzierung nach Heiss: (einfachste Einteilung) · Fähigkeitstests · Persönlichkeitstests
- Was ist ein Normorientierter/Ipsantiver Test? Beobachteter Testscore wird relativ zur durchschnittlichen Leistung einer Referenzgruppe gesehen. Wenn Konstruktion und Eichung nach der klassischen Testtheorie erfolgt spricht man von einem „standartisierten“ Test. Lösungserfolge einer repräsentativen Stichprobe dienen als Maß für spätere Prüfungen mit dem Test. Problem: einige wenige sehr gute/sehr schlechte Schüler beeinflussen den Notenmaßstab
- Was ist ein Kriterienorientierter (lehrzielorientierte Tests) Prüft ob und eventuell wie gut ein Lehrziel erreicht wurde. Wurde ausgehend von der Kritik an der klassischen Testtheorie entwickelt. Es wird nicht der Vergleich mit anderen Schülern gemessen sondern der Abstand zu einem bestimmten Lehrziel. Problematisch ist es wenn ein schüler das Lehrziel nicht ganz erreicht, da Lehrziele nicht immer in Prozent ausgedrückt werden können. Problme: unterschiedliche Zielsetzung der Lehrkräfte verfälscht den Notenmaßstab. Rudolf Weiss: auch normorientierte Tests wollten das Erreichen eines Lehrziels messen.
- Was ist ein Informeller Tests / Schultests Methodisch anspruchslose Tests („hausgemachte“ Tests). Werden von Lehrern in grober Anlehnung an sorgfältig konstruierte Verfahren entwickelt und sind auf den Unterrichtsstoff direkt bezogen. Es wird ein Schwierigkeitsindex berücksichtigt. Multiple-Choice-Aufgaben: Erfassen Fähigkeiten; Fertigkeiten und Wissen und weisen maximale Schwierigkeitsindizes auf. Methodisch aufwendigere Kenntnis- und Wissensprüfung. Sollte aber eher Prüfung oder Schularbeit genannt werden auch wenn von Lehrern oft die Bezeichnung Test gewählt wird. Es werden Aufgaben gestellt von denen angenommen wird, dass sie ein bestimmtes Merkmal erfassen. Die Zahl der richtig gelösten Aufgaben ergibt den Rohwert. Schwierigkeit der Testaufgaben wird so gewählt, dass die Rohwerte annähernd eine Normalverteilung ergeben. Stellung einer bestimmten Person wird durch ihre Abweichung vom Mittelwert bestimmt. Vergleichbarkeit der Ergebnisse und messtechnische Qualität sind unterschiedlich. (hängt vom Kenntnisstand der Bearbeiter und größe der Stichprobe ab). Vorteil ist die gute Anpassung an die eigene Lehrtätigkeit. Informelle Tests sind objektiver, zuverlässiger und gültiger als „normale“ schriftliche und mündliche Schulprüfungen. Curriculare Validität: bezeichnet die übereinstimmung von Inhalten eines Tests mit den Inhalten des Lehrplans.
- Was versteht man unter Curricularer Validität? bezeichnet die übereinstimmung von Inhalten eines Tests mit den Inhalten des Lehrplans.
- Was versteht man unter Antwortabhängigen testverfahren (adaptivem Testen) Hier beeinflusst der Proband durch seine Antworten den Testablauf bzw. sie haben direkten Einfluss auf die Präsentation des nächsten Items. Er bearbeitet also nicht einen allgemeinen Test sondern einen für ihn maßgeschneiderten. Auf Grundlage der Item-Response-Theorie (probabilistisches Modell) wurden Computergestützte Verfahren entwickelt die Auswahl und Anzahl der Items dem Antwortverhalten der bereits bearbeiteten Items anzupassen. Es werden somit geeignete Items ausgewählt, was die Präzision der Messung verbessert und die Anzahl der für die Messung nötigen Items reduziert und die Ökonomie verbessert. Computergestützte adaptive Tests (Rasch-Modell) passen sich der Fähigkeit einer Person an und bieten durch einen Algorithmus Items deren Schwierigkeit möglichst nah an der geschätzten Fähigkeit liegt, die fortwährend anhand des Lösungsverhaltens neu berechnet wird. Wenn nahezu keine Änderung mehr eintritt, wird der Test abgebrochen und das Testergebnis liegt vor. Die letzte Schätzung des Personenparameters entspricht dem Gesamtwert. Es kann damit die Fähigkeit zweier Personen auf derselben Skala lokalisiert werden obwohl sie unterschiedliche Aufgaben bearbeitet haben. Vorteil des computergestützten adaptiven Testens ist, das die Zuverlässigkeit des Testergebnisses dadurch sehr hoch ist, dass der Test erst abgebrochen wird, wenn der Vertrauensbereich des wahren Testergebnisses eine bestimmte Schwelle unterschritten hat. Es müssen dafür kaum Aufgaben gelöst werden die viel zu schwierig oder viel zu leicht sind weil sich der Test den Fähigkeiten anpasst. Problematisch ist die komplizierte konstruktion. Hierzu zählt die schwierige kalibrierung der Schwierigkeitsparameter der Aufgaben und der Aufbau einer Batterie von geeigneten Testitems.)
- Was versteht man unter Fragebögen? Listen von Fragen über gegenwarts- vergangenheits- oder zukunftsorientiertes Verhalten. Sie beziehen sich auf Gefühle, Vorlieben, Abneigungen Interessen und Meinungen. Sie können Gruppen oder Einzelpersonen vorgelegt werden und werden Strukturiert anhand zwei oder mehrstufiger Antwortkategorien erhoben. Es geht um eine subjektive Selbstbeschreibung.
- Was versteht man unter einem Projektiven Testverfahren? Gehören zu den umstrittensten (Test-)Methoden der Psychologie. Fehlende Gütekriterien daher ebenfalls kein „Test“ besser „Persönlichkeitsverfahren). Probanden müssen auf Material reagieren.
- Was versteht man unter Sprachfreien oder kulturunabhängigen Tests (culture fair) Hinweis auf Benachteiligung von nicht so sprachgeübten Gruppen. Beispiel dafür sind die „standart progressive matrices“ (SPM) von J.C. Raven (1971). Sprachfreier Test zur Erfassung „intellektueller Kapazität, unabhängig von Nationalität und Erziehung“. Immer schwieriger werdende Aufgaben aus matrizenartig angeordneten Mustern aus denen je ein Teil herausgeschnitten ist. Das fehlende Stück muss vom Probanden aus einer Reihe von Vorgaben ausgewählt werden. Allerdings ist auch dieser Test nicht kulturunabhängig (auch wenn das Problem der Sprache gelöst ist), weil auch der Umgang mit Symbolen kulturabhängig ist.
-