Psychologie - Forschungsmethoden (Subject) / Teil 5 Weitere Verfahren der Datenerhebung und Datenanalyse (Lesson)
There are 10 cards in this lesson
Teil 5 Weitere Verfahren der Datenerhebung und Datenanalyse
This lesson was created by mosaicpilz.
This lesson is not released for learning.
- 23 Explorative Datenanalyse (EDA): Weitere Verfahren 23.1 Robustheit von EDA-Verfahren: Box-Plots 23.2 Varianten von Streuungsdiagrammen 23.2.1 Streuungsdiagramme mit Box-Plots 23.2.2 Influence-Plot 23.2.3 Bubble-Plot 23.3 „Aufspüren“ und „Geradebiegen“ nichtlinearer Zusammenhänge 23.3.1 Lowess 23.3.2 Potenzleiter 23.4 Multivariate Zusammenhänge auf einen Blick: Die Streuungsdiagramm-Matrix 23.5 Mehrdimensionale grafische Klassifikationen von Personen oder Objekten 23.5.1 Rechteck-Icons 23.5.2 Histogramm- und Profilplots 23.5.3 Star-Plots 23.5.4 Chernoff-Gesichter 23.6 EDA im Kontext Explorative Datenanalyse (EDA): Weitere Verfahren EDA (Begriff von John Tukey geprägt) -> Zum Entdecken von Muster, Zusammenhängen und Bedeutung von Daten. Meist sehr einfach und robust (gegen kleinere Anomalien der Daten, wie extreme Werte oder merkwürdige Verteilungen -> wirken sich kaum auf Ergebnisse aus). 2 Verfahren von Tukey (K6): Stamm-Blatt-Diagramme und Box-Plots. Es werden keine statischen 3-D-Abbildungen verwendet und empfohlen, da diese stark von der Perspektive abhängig sind. Robustheit von EDA-Verfahren: Box-Plots Wichtige Eigenschaft vieler EDA-Verfahren: sehr robust gegenüber Ausreißern und ungewöhnlichen Verteilungen. BSP. 1 zusätzlicher Ausreißer-Wert bei 8-Werten: starker Einfluss auf Mittelwert (arithemtisches Mittel) und Standardabweichung (wird sprunghaft größer); Box-Plot: bei Median und Interquartilsabstand ändert sich hingegen überhaupt nichts. Da Analysen selten mit der Beschreibung einzelner Variablen enden, haben verfälschte Mittelwerte und Standardabweichungen die Tendenz sich „fortzupflanzen“, weil sie Bestandteile vieler komplexer Kenngrößen wie etwa Korrelationskoeffizienten sind. Deshalb sollte man die Verteilungen von Variablen zunächst immer erst überprüfen (ZB mit Hilfe von Box-Plots), bevor man andere Maße berechnet, die auf Mittelwerte und Varianzen beruhen. Varianten von Streuungsdiagrammen Flexible Methode zur Darstellung bivariater Zusammenhänge (von 2 Variablen): Sonnenblumendiagramm: Darstellung bei Mehrfachvorkommen von identischen Werten. Streuungsdiagramme mit Box-Plots: Nützlich bei der Identifikation von Ausreißern – geben einen schnellen Eindruck davon, ob die beiden Variablen gleich oder unterschiedlich verteilt sind. Influence-Plot: Stärke von Einfluss einzelner Punkte. Größe der Kreise = Ausmaß, in dem sich die Korrelation verändern würde, wenn man den entsprechenden Punkt aus den Daten entfernte. Gefüllter Kreis = Korrelation würde ansteigen; ungefüllter Kreis = Korrelation würde sich durch das Entfernen des Datenpunktes verringern. Bubble-Plot: Bei Vermutung, dass der Zusammenhang zwischen zwei Variablen von einer dritten beeinflusst sein könnte. Dieser Einfluss wird durch die Größe der Bubbles (Kreise) sichtbar gemacht. (größeres Bubble -> evtl. Einfluss von Drittvariablen) „Aufspüren“ und „Geradebiegen“ nichtlinearer Zusammenhänge Nur wenn der Zusammenhang zwischen zwei Variablen (einigermaßen) linear ist, ist der Korrelationskoeffizient aussagekräftig. Wenn schon ein Blick etwas anderes verrät, sollte man nach einer genauen Beschreibung des Zusammenhangs suchen. Ein Weg dazu ist, eine Lowess-Kurve (Locally Weighted Scatterplot Smoother) in das Streuungsdiagramm einzuzeichnen; diese liefert jedoch noch keine Gleichung des Zusammenhangs. Diese kann man evtl. durch die Kombination der Lowess-Prozedur mit der sogenannten Potenzleiter erhalten. Mithilfe der Potenzleiter kann man feststellen, ob die bivariate Werteverteilung einer Form folgt, die mittels einer Potenzfunktion beschrieben werden kann. Wenn ja, kann der Zusammenhang durch die Transformation der Werte einer oder beider Variablen nachträglich „linearisiert“ werden. Für die transformierten Werte können dann wiederum Standardverfahren für lineare Zusammenhänge (zB. Regressionsrechnung) angewandt werden. - Lowess-Kurve (Locally Weighted Scatterplot Smoother) Die Lowess-Prozedur ist im Prinzip eine wiederholte Regressionsrechnung für jeden einzelnen Datenpunkt. In jedem Schritt der Prozedur erhält man, auf der x-Achse von links nach rechts fortschreitend, die Vorhersage für den entsprechenden y-Wert dadurch, dass man die Regressionsgerade für einen bestimmten Ausschnitt um den aktuellen Datenpunkt herum konstruiert und den vorhergesagten y-Wert auf diese Regressionsgerade „setzt“. (Bei der „normalen“ linearen Regression bezieht man zur Bestimmung der Regressionsgerade die Abweichungsquadrate aller Datenpunkte gleichmäßig mit ein). Zweiter Unterschied zur normalen LR: Man benutzt in jedem Rechenschritt nicht alle Punkte im Streuungsdiagramm, sondern jeweils nur einen Ausschnitt aus den benachbarten Punkten (deswegen locally). Der Ausschnitt wird durch einen Parameter (Tension, ƒ) festgelegt (variiert zwischen 0 und 1, manchmal 0 und 100). ZB. n = 20, ƒ = 0.5 -> n * ƒ = 10 Datenpunkte. Außerdem werden nicht alle Punkte gleich gewichtet, sondern der Einfluss eines Datenpunkts nimmt mit seiner Entfernung zum aktuellen Punkt ab (deswegen weighted). Schritt 1: Wahl eines Teils der benachbarten Datenpunkte um einen Punkt Schritt 2: Diese werden unterschiedlich stark gewichtet (Nähe des Ausgangswerts -> höheres Gewicht, und vice versa) Schritt 3: Berechnung der Regressionsgerade für ausgewählte und gewichtet Punkte Schritt 4: Der ursprüngliche Punkt wird senkrecht „verschoben“, so dass er auf dieser Regressionsgeraden zu liegen kommt Die auf diese Weise bestimmten „neuen“ Datenpunkte (Ergebnis) sind die Grundlage für die Zeichnung der Lowess-Kurve. Am Schluss der Prozedur werden die „geglätteten“ (smoothed) vorhergesagten y-Werte mit einer Linie verbunden. Das Ausmaß der Glättung wird durch die Höhe des Parameters ƒ bestimmt. Bei ƒ = 0 (wird nie benutzt) würde keine Glättung erfolgen, weil die Nachbarpunkt ja in diesem Fall keinerlei Einfluss haben und bei ƒ = 1 wäre die Glättung maximal. Lowess-Kurve kann jede Art von bivariaten Zusammenhängen sichtbar machen. Bei perfektem Zusammenhang wir die Lowess eine Gerade liefern, die identisch zur Regressionsgeraden bei der lineare Regression ist. Aber auch jede Art von nicht-linearem Zusammenhang wird mithilfe der Lowess-Kurve aufgedeckt. Vor allem bei kleinen Stichproben, die häufig Ausreißer beinhalten, kann es sein, das die Regressionsgerade eine völlig falsche Beschreibung des bivariaten Zusammenhangs liefert, auch wenn dieser grundsätzlich linear ist. Die Lowess-Kurve wird von solchen Anomalien kaum beeinflusst. - Potenzleiter Wenn die Lowess-Kurve eine monotone Krümmung aufdeckt, d.h. eine Kurve, deren Steigung kontinuierlich zu- oder ,abnimmt und dabei nicht das Vorzeichen wechselt, kann das Benutzen der Potenzleiter sehr sinnvoll sein. Ziel: Art des Zusammenhangs der beiden Variablen feststellen und dann die Kurve durch entsprechende Werte-Transformation(en) begradigen. Diese begradigten Werte können mithilfe konventioneller Verfahren (zB Regressionsrechnung) weiter verarbeitet werden. Potenzleiter bedeutet, dass man bei einer oder beiden Variablen ausgehend von einem Exponenten von 1 (x1 = 1) den Exponenten entweder in beliebig weiten Stufen erhöht (zB x², x³, x4, …) oder erniedrigt (zB y0,5, y0,25, y0, y-0.5, …). Ein Exponent von Null wird dabei als Logarithmus behandelt: x0 = ln(x). Durch Erhöhung oder Erniedrigung der jeweiligen Exponenten kann man monotone Krümmungen begradigen. Abbildung mit Anweisungen, welche Variable erniedrigt oder erhöht werden muss, um den Zusammenhang linear zu machen. Multivariate Zusammenhänge auf einen Blick: Die Streuungsdiagramm-Matrix Multivariate Zusammenhänge (Zusammenhänge zwischen mehr als zwei Variablen) sind grafisch nicht leicht darzustellen, weil man nur zwei Dimensionen zur Verfügung hat. Eine Möglichkeit, diese trotzdem sichtbar zu machen, besteht darin, mehrere bivariate Zusammenhänge gemeinsam in Form einer Matrix abzubilden: die Streuungsdiagramm-Matrix. Zwecks Vergleichbarkeit werden alle Werte standardisiert oder z-transformiert. Die Matrix erlaubt es, den Zusammenhang zwischen einer Variable und mehreren anderen Variablen schnell abzuschätzen. Mehrdimensionale grafische Klassifikationen von Personen oder Objekten Ein weiteres Anwendungsgebiet der EDA ist die Klassifikation von Personen und Objekten in Kategorien; hierzu kann man numerische Verfahren wie die unterschiedlichen Ansätze der Clusteranalyse benutzen. Nachteil: Sie erlauben wenig spezifische Aussagen über einzelne Personen oder Objekte (dazu sind grafische Verfahren, als Ergänzung oder alleine, sehr nützlich, vor allem bei kleinen Stichproben). Verfahren können auch zur Darstellung der durchschnittlichen Werte von Personen oder Objekten benutzt werden. Rechteck-Icons: Bei der Beschreibung von Personen / Objekten durch ihre Ausprägungen in genau drei Variablen: Rechteck-Icons zur grafischen Darstellung. Rechteckige Gefäße, bei denen Höhe, Breite und Füllungsgrad variieren und die damit die relative Ausprägung je einer Variablen beschreiben. Histogramm- und Profilplots: Zur Darstellung der Ausprägungen von mehr als drei Variablen pro Objekt / Person gleichzeitig. Dabei werden alle Variablen z-transformiert und der Reihe nach entweder als aneinander liegende Balken (Histogrammplots) oder als durch Linien verbundene Punkte (Profilplots) dargestellt. Star-Plots: Sind noch leichter differenzierbar. Manchmal sind auch Mittelpunkt und Verbindungslinien eingezeichnet; hier nur Umrisslinien. Chernoff-Gesichter: Alle bisher beschriebene Verfahren zur mehrdimensionalen grafischen Klassifikation sind gut zur Exploration der Daten geeignet; die Chernoff-Gesichter nur bedingt – sind eher zur Kommunikation von Ergebnissen geeignet. Nutzt, dass wir in der Lage sind, schon kleinste Veränderungen in Gesichtern und vor allem im Gesichtsausdruck anderer Menschen wahrzunehmen EDA im Kontext Es gibt keine empirische Fragestellung, deren Untersuchung nicht von der Anwendung von EDA-Verfahren profitieren könnte. Entdeckung von Details, Mustern. Manchmal wird in der Statistik noch ein Unterschied zwischen EDA und deskriptiver Statistik gemacht, doch tatsächlich existiert keine klare Trennlinie zwischen Verfahren der deskriptiven Statistik wie etwa Histogrammen oder Balkendiagrammen und EDA-Verfahren. Am ehesten noch bei der Verwendung von Lage- und Streuungsmaßen: Die EDA-Verfahren benutzen sehr häufig robuste Maße wie Median und Interquartilsabstand und so gut wie nie leicht beeinflussbare Maße wie Mittelwert und Standardabweichung.
- 24 Effektgrößen: Erweiterungen und Ergänzungen 24.1 Populations- versus Stichprobeneffektgrößen 24.2 Effektgrößenschätzung bei unvollständigen Angaben 24.2.1 Nur p-Werte und Stichprobengröße(n) angegeben 24.2.2. Nur „globale“ Angaben 24.3 Die Vergleichbarkeit von Effektgrößen 24.3.1 Effektgrößen aus Rohdaten vs. Signifikanztestergebnisse 24.3.2 Die Vergleichbarkeit von unterschiedlichen korrelativen Maßen 24.3.3 Abstandsmaße vs. korrelative Maße 24.3.4 Unabhängige vs. abhängige Stichproben 24.3.5 Signifikanztest auf Unterschied zweier Effektgrößen Effektgrößen: Erweiterungen und Ergänzungen Populations- versus Stichprobeneffektgrößen Konventionelle Unterscheidung in griechische Buchstaben für Populationsmittelwerte und arabische Buchstaben für Stichprobenmittelwerte wird oft nicht eingehalten (z.B. d bezeichnete ursprünglich den standardisierten Unterschied zwischen zwei Populationsmittelwerten, wird mittlerweile aber auch für Mittelwertsunterschiede empirischer Stichproben verwendet). Der Unterschied zwischen Stichproben- und Populationseffekt wird manchmal bei der post hoc-Poweranalyse übersehen -> kann sehr sinnvoll sein – sollte aber mit einem theoretisch gut fundierten Populationseffekt und nicht (wie häufig der Fall) mit dem Stichprobeneffekt durchgeführt werden. Letzteres ist keine gute Idee, weil: >> Das post hoc-Poweranalyse-Ritual Ähnlich wie das Signifikanztest-Ritual (automatisierte und gedankenlose Durchführung eines Signifikanztests). Besteht aus 3 Schritten: Schritt 1: Wenn das Testergebnis nicht signifikant ist, führe eine post hoc–Poweranalyse durch. Schritt 2: Benutze dazu den empirisch gefundenen Effekt als Schätzung des Populationseffekts (sowie das α und die Stichprobengröße aus der Studie). Schritt 3: Finde heraus, dass die Power zu niedrig war, um diesen Effekt (= geschätzter Populationseffekt) zu entdecken (bei symmetrischen Prüfverteilungen: Power < 50%). Problem lässt sich schon bei Schritt 3 erkennen: Man weiß schon ohne Rechnung, was das Ergebnis der Poweranalyse sein wird -> siehe Prüfverteilung: Untergrenze für einen signifikanten Effekt liegt genau auf dem für α festgelegten Kriterium. Wie groß wäre hier die Power? Bei Annahme einer symmetrischen Prüfverteilung wäre sie genau 50%. Tatsächlich wurde jedoch ein nicht-signifikanter Effekt gefunden – der Wert für die Alternativhypothese und damit auch die dazugehörige Stichprobenverteilung würden also nach links verschoben werden. Da das Kriterium konstant bleibt, heißt das, die Power nimmt ab. => Eine Poweranalyse mit dem empirisch gefundenen Effekt durchzuführen wäre also nicht notwendig, weil man von vornherein weiß, dass die Power für diesen Effekt kleiner als 50% war. Trotzdem kann eine post hoc-Poweranalyse manchmal sehr sinnvoll sein, z.B. wenn man zeigen will, dass sich Therapie A und B in ihrer Wirkung nicht unterscheiden. Angenommen, man hat eine entsprechende Studie durchgeführt und bei der Vorbereitung nicht auf die Power geachtet (keine gute Idee). Ein nicht-signifikantes Ergebnis würde man gerne im Sinn von „sie unterscheiden sich nicht“ interpretieren. Das ginge aber nur, wenn sie nachweisen könnten, dass Sie einen sehr kleinen Unterschied zwischen den beiden Therapiearten mit sehr hoher Wahrscheinlichkeit aufdecken konnten. Sie müssten überlegen: Wie groß darf der Unterschied zwischen den beiden Therapien höchstens sein, um immer noch inhaltlich irrelevant zu sein. Das wäre die Populationseffektgröße, die sie zur Poweranalyse benutzen müssten. Wenn die allerdings statt des oben beschriebenen Hybrid-Ansatzes des Signifikanztestens den Neyman-Pearson Ansatz gewählt hätten, wäre eine post hoc-Poweranalyse nicht sinnvoll: Man hätte vor der Studie die (a priori-)Poweranalyse mit einem sehr kleinen Populationseffekt durchgeführt und dann durch die Wahl einer geeigneten Stichprobengröße sichergestellt, dass man auch einen sehr kleinen Effekt mit einer hohen Wahrscheinlichkeit (Power) entdecken können würde. Wenn das Testergebnis dann immer noch nicht-signifikant gewesen wäre, könnten man sich tatsächlich so verhalten, wie wenn die zwei Therapiearten sich nicht unterscheiden würden. << Effektgrößenschätzung bei unvollständigen Angaben Vernünftige Schätzungen sind auch bei unvollständigen Angaben möglich – jedoch sollte immer beschrieben werden, wie das Resultat bestimmt wurde. Im Zweifelsfall sollte man besser auf die Effektgrößen solcher Studien verzichten. - Nur p-Werte und Stichprobengröße(n) angegeben Exakte p-Werte + Stichprobengröße(n) -> Man benötigt nur die Art des Tests bzw. die Art der Testverteilung und entsprechende Tabellen / Software zur Bestimmung des Werts der Teststatistik. Wenn man zu den p-Werten korrespondierende t-, F-, χ²- oder z-Werte zur Verfügung hat, können die in den Kapiteln 13-17 angeführten Formeln benutzt werden. Hat man keine Angaben über die Art des Tests, weiß aber, dass Werte aus zwei Gruppen miteinander verglichen wurden, dann kann man entweder das Maß requivalent berechnen oder aber die Standardnormalverteilung zu Hilfe nehmen. requivalent und t-Verteilung Das Maß requivalent liefert in Annäherung auch brauchbare Werte bei Resultaten aus verteilungsfreien oder nonparametrischen Verfahren: requivalent = √ ( t² / t² + (N – 2) ) Bestimmung des t-Werts aus p (Benutzung einseitiger p-Werte wird empfohlen; wenn man nicht weiß, ob einseitig oder zweiseitig, ergibt die Behandlung als des Werts als einseitig im Falle eines zweiseitigen die konservativere Schätzung, weil zweiseitiger p-Wert bei identischer Größe immer zu größerem t-Wert und somit zu größerer Effektstärke führt). Potenzieller Nachteil des Verfahrens: Berrechnung mit Computerprogramm. Effektgrößenberechnung mithilfe der Standardnormalverteilung In Fällen, in denen ohnehin eine z-Verteilung benutzt werden kann (und generell bei allen Signifikanztests mit hohen Stichprobengrößen), kann man die entsprechenden z-Werte benutzen, um eine Effektgröße zu berechnen. Diese korrelative Effektgröße ist bei einer Gesamtstichprobe von N: r = z / √N Falls kein z-Wert vorliegt, kann dieser über den p-Wert aus der Tabelle für die Standardnormalverteilung berechnet werden. - Nur „globale“ Angaben Bei sehr globalen Angaben (Ergebnis war signifikant) und noch Angaben über die Stichprobengröße vorliegen, kann man zumindest Ober- und Untergrenze für Effektgrößen abschätzen. Z.B. signifikantes Ergebnis: t-Wert für p = 0.05 bestimmen (weil Maximum für p bei signifikantem Test; alle anderen Ergebnisse würden kleinere p-Werte und somit größere Effekte nach sich ziehen). Bei nicht-signifikantem Ergebnis war p größer als α, man könnte p = α als Grundlage für die Berechnung einer Obergrenze für den Effekt benutzen. Die Vergleichbarkeit von Effektgrößen Eine wichtige Funktion von Effektgrößen ist es, die Ergebnisse aus unterschiedlichen Studien vergleichbar zu machen. Ansonsten nur bei Verwendung der Originaleinheiten bei gleichem Design und identischen Messinstrumenten der Studien möglich. Bei Unterschieden: Zuerst klären, ob ein Vergleich inhaltlich sinnvoll ist. In vielen Fällen gerechtfertigt, z.B. unterschiedlich normierte IQ-Tests zur Untersuchung derselben Fragestellung: Die essentielle Grundlage für die Vergleichbarkeit ist immer eine Entscheidung über die inhaltliche Vergleichbarkeit. - Effektgrößen aus Rohdaten vs. Signifikanztestergebnisse Berechnung der Effektgrößen aus Rohdaten oder Signifikanzdaten -> kein Unterschied. Aber aus praktischen Gründen spricht vieles für die Verwendung von Signifikanztestergebnisse, vor allem deren universelle Verfügbarkeit. - Die Vergleichbarkeit von unterschiedlichen korrelativen Maßen K17: unterschiedliche korrelative Maße haben nicht immer gleiche Bedeutung (z.B. kann Cramers Phi nur unter bestimmten Umständen den Maximalwert 1 erreichen – trifft hingegen bei der üblichen Korrelation immer zu). Anhand von Cramers Phi (Χ²-Test, wenn mind. eines der beobachteten Merkmale mehr als zwei Ausprägungen aufweist) kann die Höhe der entsprechenden Pearson-Korrelation abgeschätzt werden. Auch die Korrelationen, die wir bisher für die Berechnung von Effektgrößen für den Unterschied zwischen zwei Mittelwerten verwendet haben, sind eine Spezialform der Pearson-Korrelation. Sie werden oft als punktbiseriale Korrelation oder rpb bezeichnet, weil die zwei Werte der unabhängigen Variablen, die zur Gruppeneinteilung benutzt wird, nur Punktwerte sind, wie z.B. 0 und 1 (oder beliebige andere unterschiedliche Werte) für die zwei Gruppen. So noch kein Problem – wenn diese zweiseitige Variable aber künstlich dichotomisiert wurde, wenn also tatsächlich mehr Ausprägungen vorhanden sind, diese aber in zwei Gruppen geteilt wurden, dann wird die Größe des korrelativen Effekts systematisch unterschätzt. Um diesen Effekt der Unterschätzung auszugleichen wird häufig ein Korrekturfaktor vorgeschlagen: r = 1.253 rpb Den Zusammenhang zwischen rpb bei einer dichotomisierten unabhängigen Variablen und r (Pearson-Korrelation) benutzt Cohen auch als Begründung für die Vergleichbarkeit seiner Konventionen für Effektgrößen (K9). Falls man künstlich dichotomisierte Variablen für die Effektgrößenberechnung benutzt und diese mit anderen korrelativen Effektgrößen vergleichen möchte, sollte man den oben erwähnten Umrechnungsfaktor benutzen. - Abstandsmaße vs. korrelative Maße Welche Effektgröße – Abstandsmaß oder korrelatives Maß – berechnet wird, hängt davon ab, welche Information zur Verfügung steht. Eine Korrelation (r) aus dem Signifikanztestergebnis zu berechnen empfiehlt sich, wenn Angaben über Gruppengrößen fehlen, aber Freiheitsgrade erwähnt sind wenn man Ergebnisse aus Kontrastanalysen mit mehreren Gruppenmittelwerten und Ergebnisse aus t-Tests für einen Unterschied zwischen zwei unabhängigen Gruppen miteinander vergleichen möchte Sowohl Abstandsmaße als auch Korrelationsmaße kann man verwenden beim Vergleich zweier Gruppenmittelwerte (Umrechnungsformeln für d -> g und g -> d in K9) Liefern aber beide nicht immer äquivalente Ergebnisse, insbesondere wenn sich die Stichprobengrößen in den beiden Gruppen deutlich voneinander unterscheiden: Wenn man solche Unterschiede berechnen möchte, sollte man auf alle Fälle eine Korrelation berechnen. - Unabhängige vs. abhängige Stichproben Wenn man Effektgrößen als standardisierte Abstandsmaße ausdrückt, hat man es immer mit einem Quotienten aus dem systematischen Effekt (z.B. einem Unterschied zwischen zwei Mittelwerten) im Zähler und dem „unsystematischen Rauschen“, also der Variation der Messwerte im Nenner zu tun. Unsystematische Variation = experimenteller Fehler -> ist bei abhängigen Stichproben, wie man sie im Within-Subjects-Design untersucht in der Regel geringer als bei unabhängigen Stichproben. Dies wiederum führt dazu, dass die Effektgrößen in der Regel (wenn die Werte in den beiden Stichproben positiv korrelieren) größer sind als in vergleichbaren Studien mit unabhängigen Stichproben. [Falls Vergleich inhaltlich überhaupt Sinn macht.] Vor Kombination oder Vergleich: Frage, ob inhaltlich sinnvoll? Wenn ja: Wie für die Ergebnisse des t-Tests (K13.3.4): Die Korrelation bei abhängigen Stichproben wird im Nachhinein statistisch kontrolliert und die Stichproben werden dadurch so behandelt, als ob sie unabhängig wären. Ähnlich bei Kontrastanalysen: Man behandelt die abhängigen Stichproben, als ob sie unabhängig wären. Das heißt z.B. bei einem Kontrast für vier abhängige Messungen, dass man die Lambdagewichte nicht dazu benutzen würde, jeweils einen kombinierten Wert (z.B. L) pro Person zu bestimmten. Anstelle dessen würde man die Werte für die vier Messungen wie vier unabhängige Stichproben betrachten. Die entsprechende Korrelation würde dann zwischen Lambdagewichten und Messwerten berechnet (K16). - Signifikanztest auf Unterschied zweier Effektgrößen Unterscheiden sich zwei Effektgrößen signifikant voneinander? -> Es bietet sich ein Signifikanztest an, den man auch benutzt, wenn man den Unterschied zwischen zwei Korrelationen auf Signifikanz prüfen möchte. Da die Stichprobenverteilungen von Korrelationen nicht symmetrisch sind (außer für ρ = 0), ist auch die Stichprobenverteilung der Differenz zweier Korrelationen nicht symmetrisch. Eine Lösung von Fisher: r wird in ein annähernd normalverteiltes Korrelationsmaß, Fisher-z oder zr transformiert. Diese Fisher-z-Transformation muss für beide Effektgrößen durchgeführt werden. Wenn man dann die Differenz (z1 – z2) durch die gemeinsame Streuung teilt, erhält man wieder einen z-verteilten Wert.
- 24 Effektgrößen: Erweiterungen und Ergänzungen 24.4 Konfidenzintervalle für r und g 24.4.1 Approximative Konfidenzintervalle für r und g 24.4.2 Bootstrap-Konfidenzintervalle 24.4.3 Exakte Konfidenzintervalle 24.5 Konfidenzintervalle für weitere Effektgrößen 24.5.1 Konfidenzintervalle für Anteile 24.5.2 Konfidenzintervalle für Relative Risiken (RR) und Odds Ratios (OR) Konfidenzintervalle für r und g => Identische Effektgrößen in unterschiedlichen Studien besagen, dass die Größe des gefundenen Effekts gleich war, aber sie bedeuten nicht automatisch, dass sie dieselbe Aussagekraft haben. Z.B. ist Effekt bei einer größeren Stichprobe aussagekräftiger. Die Genauigkeit von Schätzungen spiegelt sich im Konfidenzintervall wieder: kleineres Intervall = genauere Schätzung. Die Berechnung von Konfidenzintervallen bereitet – im Gegensatz zu Effektgrößen, die meist standardmäßig in Statistikprogrammen mitberechnet werden – einige Schwierigkeiten, insbesondere wenn man exakte Intervalle bestimmen möchte. - Approximative Konfidenzintervalle für r und g r = korrelatives Maß (Zusammenhangsmaß) g = auf Stichprobenergebnis bezogenes Abstandsmaß (d für Populationsparameter) Für die Maße r und g muss jeweils auch ein sogenannter Nonzentralitätsparameter (grob gesagt ist das die Abweichung von der Nullhypothese) geschätzt und in die Berechnung miteinbezogen werden, wodurch die Stichprobenverteilung nicht mehr symmetrisch ist (deswegen kann man nicht die bisher verwendete t-Verteilung nehmen). Man benötigt nun sogenannte nonzentrale Stichprobenverteilungen. Trotzdem kann man auch ohne zu große Verzerrungen entsprechende approximative Konfidenzintervalle für r und g berechnen. Konfidenzintervall für r Die standardisierte Stichprobenverteilung für r ist nur bei r = 0 symmetrisch. Kein Problem bei der Berechnung von p-Werten, da diese ja unter der Annahme berechnet werden, dass die Nullhypothese (ρ = 0) zutrifft. Bei der Berechnung von Konfidenzintervallen muss man aber in der Regel von r ≠ 0 ausgehen. Eine Lösung: Fisher-z Transformation (K24.3.5). Da zr für nicht zu kleine Stichproben und nicht zu große Effekte normalverteilt (und symmetrisch) ist, kann man entsprechende Konfidenzintervalle leicht berechnen: r in zr umrechnen (oder in entsprechender Tabelle nachsehen) Obere und untere Grenzen des gewünschten Konfidenzintervalls in z-Werten bestimmen und mit σzr multiplizieren. Werte aus 2) zu zr addieren. Die in 3) erhaltenen Ober- und Untergrenzen des Konfidenzintervalls für zr wieder in r zurücktransformieren. Ein solches Konfidenzintervall kann auch als „Signifikanztest“ dafür benutzt werden, ob sich eine Korrelation signifikant von einem bestimmten Wert (ρ = c) unterscheidet. Wenn bspw. ein 90%-Konfidenzintervall den Wert r = c nicht beinhaltet, dann wäre der entsprechende Test bei einem α = 0.05 (einseitig) signifikant (siehe auch K12.8.3). Konfidenzintervall für g Kann gut approximativ berechnet werden. Dazu benutzt man die Schätzung für den Standardfehler von g. Berechnung der Ober- und Untergrenze erfolgt auf übliche Weise unter Zuhilfenahme der Standardnormalverteilung. Diese Approximation ergibt zwar symmetrische Konfidenzintervalle, aber Cumming und Fiedler konnten zeigen, dass die Intervalle sich unter den üblichen Bedingungen (nicht zu kleine Stichproben und „normale“ Effekte) nicht wesentlich von exakten Konfidenzintervallen (s.u.) unterscheiden. - Bootstrap-Konfidenzintervalle Konzeptionell für Effektgrößen sehr einfach + können genauso erstellt werden wie etwa Konfidenzintervalle für Mittelwerte (K19). Man muss sich keine Gedanken darüber machen, ob die Stichprobenverteilungen für die Effektgrößen symmetrisch sind oder nicht: Man erstellt empirische Stichprobenverteilungen für die gewünschten Statistiken und nimmt die entsprechenden Perzentile [1] der Stichprobenverteilungen als Endpunkte des Konfidenzintervalls. Für ein 90%-KI sind das bspw. die Werte, die 5% und 95% der Fläche der Stichprobenverteilung abschneiden und für ein 95%-KI sind es die 2.5%- und 97.5%-Quantile. [1] Das Perzentil P (1 ≤ P ≤ 99) einer Verteilungsfunktion ist der Wert, für den P% aller anderen Werte gleich sind oder darunter fallen und (100-P)% aller Werte gleich sind oder darüber fallen; Spezialform z.B. Quantil. Wann Bootstrap-Konfidenzintervalle berechnen? Kann man immer berechnen, wenn man Zugriff auf die Originalstichprobe hat. Wichtige Vorteile gegenüber anderen Methoden: man kann sich selbst Effektgrößen beliebiger Art konstruieren und dafür Konfidenzintervalle berechnen, selbst wenn keine theoretisch abgeleiteten Stichprobenverteilungen dafür existieren. Bei schwerwiegenden Verletzungen der Voraussetzungen für die Anwendungen parametrischer Inferenzverfahren (z.B. die Verteilung der Populationswerte weicht stark von einer Normalverteilung ab oder die Varianzen der Kontroll- und der Experimentalgruppe unterscheiden sich deutlich) dürften Bootstrap-Konfidenzintervalle bessere Lösungen liefern als exakte Konfidenzintervalle. - Exakte Konfidenzintervalle Standardisierte Stichprobenverteilungen für Effektgrößen entsprechen in der Regel nicht exakt den Stichprobenverteilungen, die beim Signifikanztesten oder beim Erstellen von Konfidenzintervallen für Stichprobenstatistiken (wie Mittelwerte und Mittelwertsunterschiede) verwendet werden. Stattdessen benötigt man hierzu sogenannte nonzentrale Stichprobenverteilungen, die als zusätzlichen Parameter (zusätzlich zu den Freiheitsgraden) noch einen sogenannten Nonzentralitätsparameter – häufig als δ (delta) bezeichnet – haben. Der Nonzentralitätsparameter ist ein Populationswert, der als Lagemaß für die entsprechende Stichprobenverteilung dient und der aus den Stichprobenergebnissen geschätzt werden kann. Kann beliebige Werte annehmen, weswegen es kaum möglich ist, nichtzentrale Stichprobenverteilungen zufriedenstellend zu tabellieren, weil sich durch die zahlreichen Kombinationsmöglichkeiten von df und δ auch bei gröberen Abstufungen von δ schon eine Unzahl von Tabellen ergeben würde. Leider werden die Werte für nichtzentrale Stichprobenverteilungen bislang entweder nicht oder nur über relativ komplizierte Umwege berechnet. Bestimmung exakter Konfidenzintervalle mithilfe der t-Verteilung r, g und d lassen sich aufgrund der t-Werte berechnen (K11). Diese t-Werte dienen dabei als Schätzung für die entsprechenden Populationswerte (Nonzentralitätsparameter). K11 – Standardmethode zur Bestimmung von Konfidenzintervallen -> Das so konstruierte Konfidenzintervall beinhalt bspw. die Werte von 95% aller möglichen Populationsparameter, aus denen die gefundene Stichprobenstatistik stammen könnte. Die zwei „extremsten“ dieser Populationsparameter sind die, die bei einem zweiseitigen Signifikanztest mit α gerade noch signifikant wären. BSP: Sehr große Stichprobe, bei der sich zwei Mittelwerte nicht unterscheiden (Mittelwert von Null). Wenn wir ein zweiseitiges α = 0.05 benutzen würden, dann wären die Grenzen des Konfidenzintervalls in z-Werten -1.96 und 1.96. Die Standardmethode ergibt immer exakte Konfidenzintervalle, wenn die entsprechenden Stichprobenverteilungen symmetrisch sind. Auch noch annähernd, wenn die Stichprobenverteilung streng genommen nicht mehr symmetrisch ist, aber die Stichproben groß und die Effekte eher klein sind. Werte der entsprechenden nonzentralen t-Verteilung würden kaum von den exakten Werten abweichen. Je kleiner aber die Stichprobengröße und je größer der Effekt (und damit auch δ), desto asysmmetrischer sind die nonzentralen t-Verteilungen. Um auch hier exakte Konfidenzintervalle zu bestimmen, muss man die „extremsten“ δ links und rechts vom gefundenen t-Wert finden, aus denen der gefundene Effekt noch stammen könnte. Bspw. für Abbildung oben: solange die z-Werte links und rechts von z = 0 „durchprobieren“ bis man diejenigen Werte findet, für die z = 0 gerade noch signifikant ist. Das sind bei einem zweiseitigen Test mit α = 0.05 nun gerade wieder z = -1.96 und z = 1.96. Der (gefundene) Wert 0 schneidet von beiden Verteilungen (um z = -1.96 und z = 1.96) die obersten bzw. untersten 2.5% ab. Wie berechnet man diese exakten Konfidenzintervalle im Prinzip? Exakte Konfidenzintervall für g Da die Effektgröße g (wie auch die Effektgrößen d und r) als Funktion von t-Werten berechnet werden kann (K13), muss das im vorigen Abschnitt beschriebene Verfahren nur mehr um die Berechnung von g aus t erweitert werden. Die Schritte zur Berechnung eines exakten Konfidenzintervalls für g sind somit [Alle t-Werte sind gleichzeitig auch Schätzungen der entsprechenden Nonzentralitätsparameter, was aber für die praktische Berechnung keine Rolle spielt]: Empirischen t-Wert (tempirisch) für g bestimmen (liegt natürlich schon vor, wenn ein Signifikanztest berechnet wurde, aus dem dann das g bestimmt wurde). Den t-Wert (tunten) bestimmen, dessen oberes entsprechendes Quantil dem tempirisch entspricht. Den t-Wert (toben) bestimmen, dessen unteres entsprechendes Quantil dem tempirisch entspricht. Die in 3) und 4) erhaltenen Ober- und Untergrenzen des Konfidenzintervalls für die nichtzentrale t-Verteilung wieder in g zurücktransformieren. Konfidenzintervalle für weitere Effektgrößen Wenn die abhängige Variable in einer Studie intervallskaliert ist, wird man in den meisten Fällen eine der bisher diskutierten Effektgrößen (r, g oder d) benutzen. Aber auch bei dichotomen Ereignissen lassen sich Effektgrößen und Konfidenzintervalle bestimmen – die bekanntesten Effektgrößen sind: Anteile, Relative Risiken, Odds Ratios (K9). BSP: Eine Effektgröße, die man direkt aus der Vierfeldertafel berechnen kann, ist eine Variante des Pearson-Korrelationskoeffizienten, der Phi-Koeffizient (K7.7.1, Maß für die Stärke des Zusammenhangs zweier dichotomer Merkmale). Das Quadrat dieser Korrelation kann als Ausmaß der erklärten Varianz interpretiert werden (z.B. Wie gut erklärt die Unterscheidung zwischen Experimental- und Kontrollgruppe den Unterschied in den Ergebnissen?). Ein Konfidenzintervall für den Phi-Koeffizienten kann man wie das einer „normalen“ Korrelation berechnen. - Konfidenzintervalle für Anteile Wie in K11. Wenn man annehmen kann, dass die Binomialverteilung gut durch eine Normalverteilung beschreibbar ist, dann kann man die „Standardmethode“ anwenden. Binomialverteilungen sind streng genommen nur symmetrisch für p = 0.5, deswegen gelten hier ähnliche Überlegungen wie bei den nonzentralen t-Verteilungen. Für die Berechnung exakter Konfidenzintervalle gilt es wieder, die „extremsten“ (Populations-)Anteile zu finden, aus denen der gefundene Anteil mit der vorgegebenen Konfidenz noch stammen könnte. Diese Anteile sind dann die Endpunkte des entsprechenden Konfidenzintervalls. - Konfidenzintervalle für Relative Risiken (RR) und Odds Ratios (OR) Die Stichprobenverteilung für RR ist schwierig zu bestimmen, aber die logarithmierten RRs sind in guter Annäherung normalverteilt. Deswegen benutzt man für die Berechnung von Konfidenzintervallen als Zwischenschritt die logarithmierten (Logarithmus naturalis mit Basis e ≈ 2.7183) RRs und deren Standardfehler (ähnlich wie bei der Berechnung von Konfidenzintervallen für r, K24.4.1). Danach werden diese Werte (für die Unter- und Obergrenze) in RR-Werte zurückgerechnet, indem man sie als Exponenten zur Basis e (Euler’sche Zahl) einsetzt (eOGln bzw. eUGln). Auch bei den Odds Ratios (OR) benutzt man wieder die Tatsache, dass die logarithmierten Odds Ratios in Annäherung standardnormalverteilt sind. Zunächst berechnet man wieder die Unter- und Obergrenze des Konfidenzintervalls für die logarithmierten Werte. Danach werden diese Werte wieder in OR-Werte zurückgerechnet.
- 25 Metaanalyse 25.1 Metaanalyse in Grundzügen 25.1.1 Empirische Stichprobenverteilungen als Ausgangsbasis 25.1.2 Metaanalyse vs. „Signifikanzen-Zählen“ 25.1.3 „Fixed effects“ versus „random effects“ 25.1.4 Wichtige Einflussgrößen 25.2 Praktische Durchführung 25.2.1 Suche nach passenden Studien 25.2.2 Auswahl von Studien: Kriterien 25.2.3 Berechnung und Kombination von Effektgrößen 25.2.4 Analyse potenzieller Moderatorvariablen Metaanalyse Signifikante Ergebnisse zählen ist keine gute Idee -> sagen nichts Größe und Stärke von Effekten aus. Würden bspw. viele Studien mit niedriger Teststärke vorliegen, wären die Chancen für ein signifikantes Ergebnis auch bei substanziellen Effektgrößen gering. Metaanalyse in Grundzügen Hauptergebnis einer MA: präzise Schätzung des jeweiligen Populationseffekts – erhält man durch die Berechnung eines gewichteten Mittelwerts aller vorliegenden Effektgrößen. Vergleichbares wurde schon in den 1930ern gemacht, der Ausdruck Metanalyse geht aber auf Glass (1976) zurück, der die erste Metaanalyse zur Wirksamkeit der Psychotherapie publizierte (Glass & Smith, 1977). Hauptergebnis war der mittlere, mit den Stichprobengrößen gewichtete Unterschied zwischen Gruppen, die PT erhalten haben und den jeweiligen KG, ausgedrückt in Standardabweichungen (Glass' Δ (Delta) = 0.68 = 0.68 Standardabweichungen der NV). [1] Ergebnisinterpretation: Effekt von PT nicht überwältigend hoch, aber Wirkung wurde zweifelsfrei nachgewiesen. [1] Delta Δ verwendete im Unterschied zu d im Nenner nicht die gepoolte Standardabweichung von Therapie- und Kontrollgruppe, sondern die Standardabweichung der Kontrollgruppe. Internet: dCohen: Diese Effektstärke wird beispielsweise bei einer Prä-Post-Messung mit einer Gruppe angewandt. Sind die Standardabweichungen beider Gruppen sehr unterschiedlich, so schlägt Glass vor, nicht auf die gepoolte Standardabweichung zurückzugreifen, sondern auf die Standardabweichung der Kontrollgruppe (Glass' Delta). Dahinter steckt die Logik, dass die Standardabweichung der Kontrollgruppe nicht durch eine Intervention beeinflusst wurde. Bei Demonstration des Effekts in der Abbildung wird vereinfachend angenommen, dass das Ausmaß der psychischen Gesundheit in den untersuchten Populationen normalverteilt ist. Bedeutung von d hier: Gruppe der Therapierten erreicht im Mittel einen „Gesundheitswert“, den nur 25% der Nichttherapierten erreichen (unterhalb von 0.68 Standardabweichungen liegen 75% der Fläche der Standardnormalverteilung und oberhalb die restlichen 25%). [2] [2] Jede NV lässt sich in eine SNV transformieren. 0.68 Standardabweichungen in Originaleinheiten (diese Einheiten können beliebige Werte haben) entsprechen also 0.68 Standardabweichungseinheiten der z-Verteilung und ein z-Wert von 0.68 entspricht einem Flächenanteil von 75%. Empirische Stichprobenverteilungen als Ausgangsbasis K10: empirische Stichprobenverteilungen erhält man durch das aggregieren von Werten von wiederholten Zufallsstichproben. -> dasselbe Prinzip bei MA (nur sinnvoll bei vergleichbaren Studien, die so behandelt werden können, als seien sie durch wiederholte Stichprobenziehungen aus derselben (oder denselben) Population(en) entstanden). Metaanalyse vs. „Signifikanzen-Zählen“ Auch wenn tatsächlich ein Populationseffekt vorhanden ist, können einzelne Studien zum gegenteiligen Ergebnis kommen. Diese Ergebnisse im BSP kamen aber ausschließlich durch den Stichprobenfehler, also durch Zufallseinflüsse bei der Auswahl der Stichproben zustande. Aber auch, wenn man statt den Effektgrößen alle Ergebnisse des Signifikanztests als Ausgangsbasis benutzte, würde man falsche Schlussfolgerungen ziehen. Bei einem zweiseitigen α = 0.05 wären alle Korrelationen, die bei df = 28 kleiner als r = 0.36 sind, also 33 von 60 in der Abb. nicht signifikant. [3] [3] Entspricht ca. dem Prozentsatz von nicht-signifikanten Ergebnisse, den man aufgrund einer Powerberechnung bei einem zweiseitigen α = 0.05 und N = 30 erwarten würde, wenn der tatsächliche Populationseffekt etwas ρ = 0.33 betragen würde. Würde zu der Argumentation führen, dass die Ergebnisse der Mehrheit der Studien gegen die Effektivität der Therapie sprächen oder man keine fundierten Schlüsse ziehen könne -> beides falsch. „Fixed effects“ versus „random effects“ Bei MA: Unterscheidung zwischen Modellen mit festen Effekten und Zufallseffekten. Feste Effekte (fixed effects): geht davon aus, dass alle Studien denselben Populationseffekt untersucht haben (oder dass alle untersuchten Effekte gleich sind). Zufallseffekte (random effects): lässt Möglichkeit unterschiedlicher Populationseffekte offen Man könnte das FEM auch als Spezialfall des REM betrachten, bei dem die Varianz der Populationseffekte Null beträgt. Wenn das nicht der Fall ist und man doch ein FEM gewählt hat, kommt man zu falschen Schlussfolgerungen, weswegen man immer ein REM benutzen sollte. (z.B: Heterogenitätstest (Q-Test) -> signifikant: REM oder Subgruppen nach Ursachensuche, nicht signifikant: FEM) Wichtige Einflussgrößen Idealfall -> alle Studien sind perfekt miteinander vergleichbar. In der Praxis kaum der Fall: es unterscheiden sich auch Studien, die identische Fragestellungen untersuchen, hinsichtlich einiger Variablen (nicht im Sinne von UV / AV). In MA versucht man entweder den Einfluss solcher Variablen zu kontrollieren oder ihren Einfluss zumindest herauszufinden. Zu den wichtigsten gehören: - Stichprobengröße Effekte aus großen Stichproben sind genauere Schätzungen des Populationseffekts als solche aus kleinen. Deswegen in MA: Bei der Mittelung der Effektgrößen wird jede Effektgröße (EG) durch die Stichprobengröße (N) oder eine Funktion der Stichprobengröße gewichtet: - Methodische Qualität der Studie (Garbage-in-Garbage-out-Problem) Studien zur selben Forschungshypothese können stark unterschiedlich sein – Ergebnisse aus (richtigen) Experimenten (zufällige Zuteilung der Patienten auf TG und KG) sollten stärker gewichtet werden als Ergebnisse aus Quasiexperimenten (Vergleich TG mit Krankenhausangestellten, auch bei Parallelisierung). Oder unterschiedliche Zeitabstände bei Vorher-Nachher-Messungen. Indiz für methodische Qualität ist nicht selten die Art des Publikationsorgans -> Studien in führenden Zeitschriften (z.B. APA- oder APS[4]-Zeitschrift in der Psychologie) -> Review-Prozess bei solchen Zeitschriften ist sehr selektiv (Methodische Mängel sind höher bei lokalen Zeitschriften, Buchbeiträgen, grauer Literatur (= nicht publiziert; etwa unveröffentlichte Literatur oder Literatur, die keinem Review-Prozess unterworfen wurde, oder Diplomarbeiten / Dissertationen -> methodische Unzulänglichkeiten bleiben häufiger unentdeckt)). [4] APA = American Psychological Association; APS = Association for Psychological Science Berücksichtigung der methodischen Qualität: Gewichtungen oder (bei ausreichender Studienzahl) separate Analysen. - Inhaltliche Unterschiede Exakt replizierte Studien wären der Idealfall für eine MA – bisher findet man diese jedoch selten, da wenig Anreize dafür vorhanden sind (Publizierbarkeit, Rezeptionswahrscheinlichkeit bei anderen Forschern). Deswegen unterscheiden sich Studien zur selben Fragestellung in der Regel. Tlw. vernachlässigbare Unterschiede, wie die Verwendung unterschiedlicher Parallelformen desselben psychometrischen Testverfahrens. Unterschiede können aber auch deutliche Auswirkungen haben, bspw. wenn Angst einmal mit Fragebogen und einmal mit Verhaltensmaßen gemessen wird. Neben abhängigen können auch unabhängige Variablen unterschiedlich operationalisiert sein, z.B. KG die Gespräche führt vs. KG die sich Film ansieht. Wenn man Grund zur Annahme hat, dass solche Unterschiede als Moderatorvariablen wirken, also die Ergebnisse systematisch beeinflussen, sollte man sich bei der MA auch deren Auswirkungen ansehen. BSP: Smith & Glass (1977) untersuchten Einflüsse folgender Moderatorvariablen: Art der Therapie, Dauer, Einzel- vs. Gruppentherapie, Erfahrung des Therapeuten, IQ der Klienten, Ähnlichkeit des sozialen Hintergrunds zwischen Therapeut und Klient als auch die „Reaktivität“ [2] der abhängigen Maße . [2 Ausmaß, in dem die Messungen durch die Klienten beeinflusst werden konnten z.B. Arbeitsleistung = wenig reaktives Maß, Selbsteinschätzung der Verbesserung mittels FB = sehr reaktives Maß] Praktische Durchführung Suche nach passenden Studien Suche nach relevanten Studien / Publikationen. Eine MA kann nur sinnvoll durchgeführt werden, wenn die Untersucher sich schon eingehend mit dem inhaltlichen Gebiet befasst haben oder willens sind, das zu tun. D.h. ein Teil der relevanten Studien sollte schon bekannt sein. Wie findet man fehlende Studien? Benutzung psychologischer Fachdatenbanken (z.B. PSYNDEX -> deutschsprachige Länder, PSYCINFO (APA), oder Fachdatenbanken für Dissertationen): Man benötigt aussagekräftige Deskriptoren, die in inhaltlich zentralen, schon bekannten Artikeln schon verwendet wurden. Bei wenigen bedeutsamen Artikel -> diese als Ausgangsbasis für die Suche (Zitationsdatenbanken, z.B. SSCI-(Social Science Citation Index) oder SCI(Science Citation Index); interdisziplinär); Web of Science: Zitationsdatenbank] Fachspezifische Zeitschriften: Durchsehen der letzten Jahrgänge Durchsuchen der Literaturverzeichnisse entsprechender Artikel „Suchmaschinen" insbesondere für relativ neue, noch nicht publizierte Arbeiten Anschreiben von Forschergruppen Auswahl von Studien: Kriterien Wie wählt man die passenden Studien aus? BSP. Welche Behandlungsmethode soll als Psychotherapie betrachtet werden (z.B. auch Meditationstechniken?)? Welche Moderatorvariablen? Welche methodischen Mindestanforderungen? Liste von Kriterien, ergibt sich meist nach dem genauen Lesen der gesamten Arbeit, sollte dann aber für die gesamte Analyse verbindlich sein. Jeder Interessierte sollte im Prinzip mithilfe dieser Kriterien eine identische Analyse durchführen können (und auch zu denselben Ergebnissen gelangen). Berechnung und Kombination von Effektgrößen Man muss sich für eine Art von Effektgröße entscheiden; in der Regel entweder ein korrelatives Maß (r) oder ein standardisiertes Abstandsmaß (d oder g). - Abhängige vs. unabhängige Effektgrößen Bei Studien mit unabhängigen Stichproben kann man auch mehrere Effektgrößen berechnen, die alle in die MA eingehen. Werden jedoch mehrere abhängige Variablen (!nicht abhängige Messungen!) einer Stichprobe überprüft und kann man davon ausgehen, dass die entsprechenden Messungen dasselbe Merkmal messen (Z.B. Intelligenz gemessen durch zwei unterschiedliche IQ-Tests) dann sollte nur einen Wert für die weiteren Berechnungen benutzt werden. Es empfiehlt sich dabei häufig, die abhängigen Effektgrößen zu mitteln und die gemittelte Effektgröße in der MA zu verwenden. - Aggregation von Effektgrößen Die mittlere gewichtete Effektgröße ist das zentrale Ergebnis der MA. BSP. Aus Mittelwerten und Standardabweichungen lässt sich d berechnen, aus d, t(df) und F(dfwithin) lässt sich r berechnen. Dann noch Berechnung des gewichteten Mittelwerts. - Korrektur von Effektgrößen Auswirkungen von Art und Weise der Messungen: Bei unreliablen Messungen kann man eine größere Fehlerstreuung erwarten und das führt in der Regel zu (unzuverlässigerweise) verminderten Effektgrößen. Unterschiede im Wertebereich der abhängigen Variable können die Größe von Effekten beeinflussen (Spezialfall der Einschränkung des Wertebereichs ist die Dichotomisierung -> Aufteilung der Werte in eine kleinere und eine größere Hälfte: Mediansplit). Für diese und weitere potenzielle Beeinträchtigung der Messgenauigkeit existieren Korrekturformeln, für die allerdings oft Informationen benötigt werden, die aus den Berichten nicht immer zur Verfügung stehen. Analyse potenzieller Moderatorvariablen Die Analyse potenzieller Moderatorvariablen besteht in der Regel darin, die Kovariation zwischen den Ausprägungen der Moderatorvariable und den jeweiligen Effektgrößen zu analysieren. Dazu eignen sich generell korrelations- und regressionsanalytische Verfahren. Bei normalverteilten Moderatorvariablen bietet sich auch die Verwendung von Konfidenzintervallen für (über entsprechende Ausprägungen der Moderatorvariable) aggregierte Effektgrößen an. Die Analyse von Moderatorvariablen kann wichtige Zusatzinformationen liefern, die manchmal auch eine nach Ausprägungen der Moderatorvariablen getrennte Analyse und Interpretation nahelegen. - Korrelation und Regression Smith & Glass (1977) korrelierten die Effektgrößen mit allen Moderatorvariablen und fanden einen nennenswerten Zusammenhang zum IQ-Wert: Das Ausmaß des Therapieerfolgs wurde offensichtlich durch den IQ der Klienten beeinflusst (je höher, desto höher der Therapieeffekt), durch die Ähnlichkeit des sozialen Hintergrunds (je ähnlicher bei Therapeuten und Klienten, desto mehr profitieren die Klienten) und durch die Reaktivität (deutlich geringere positive Auswirkungen der Therapie bei nicht-reaktiven Maßen). (Einfach-)Korrelationen: liefern ersten Eindruck über mögliche Effekte von Moderatorvariablen Multiple Regression (direkte Einflüsse) oder Pfadanalyse (indirekte Einflüsse): Zur Untersuchung der Einflüsse mehrerer Moderatorvariablen auf die Effekte gleichzeitig - Konfidenzintervalle für aggregierte Effektgrößen Wenn sich Ergebnisse der MA (etwa aufgrund der Analyse von Moderatorvariablen) in Subgruppen aufteilen lassen, kann es informativ sein, sich die Ergebnisse für diese Subgruppen separat anzusehen und sie miteinander zu vergleichen. Gute Methode dafür: Berechnung von Konfidenzintervallen für aggregierte Effektgrößen. Man berechnet also die mittleren (anhand der Stichprobengrößen gewichteten) Effektgrößen für jede Subgruppe und konstruiert dann die entsprechenden Konfidenzintervalle (K24 für einfache Effektgrößen -> Verwendung nonzentraler Stichprobenverteilungen). Aggregierte Effektgrößen -> Standardnormalverteilung (hier wirkt der zentrale Grenzwertsatz, K10.5.2). Für die Berechnung des Standardfehlers muss man auch noch die ungleichen Stichprobengrößen der Einzelstudien berücksichtigen.
- 25 Metaanalyse 25.3 Potenzielle Probleme und Möglichkeiten zu ihrer Kontrolle 25.3.1 Selektive Auswahl von Studien: Funnel Plot 25.3.2 „Äpfel und Birnen“: Psychometrische Metaanalyse 25.4 Metaanalyse im Kontext 25.4.1 Varianten von Metaanalysen 25.4.2 Verhältnis von Einzelstudien und Metaanalysen 25.4.3 Die Aussagekraft von gemittelten Effektgrößen Potenzielle Probleme und Möglichkeiten zu ihrer Kontrolle Die Güte einer MA steht und fällt mit den Daten, die verwendet werden. Schlechte Studien = schlechte MA Selektive Studienauswahl = selektive MA Vermischung unterschiedlicher Populationseffekte = eingeschränkt brauchbare Schätzung eines mittleren Populationseffekts 2 Methoden, mit deren Hilfe man entscheiden kann, ob die Analyseergebnisse brauchbar sind oder ob es evtl. möglich ist, präzisere Aussagen zu machen: Selektive Auswahl von Studien: Funnel Plot „Äpfel und Birnen“: Psychometrische Metaanalyse 1) Selektive Auswahl von Studien: Funnel Plot Selbst wenn man alle publizierten Studien zu einer Fragestellung findet und sie alle aus einer Population stammen, kann es sein, dass sie eine selektive Auswahl darstellen. Möglicher Grund: Publikations-Bias, wonach Studien mit signifikanten Ergebnissen eine deutlich höhere Chance haben, publiziert zu werden als solche mit nicht-signifikanten Ergebnissen. Starke Verzerrungen dieser Art kann man relativ leicht mithilfe des Funnel-Plots aufdecken. Idee (Name kommt von Trichterform der Punktewolke; funnel = Trichter): Je größer die Stichproben, desto genauer sollte der Populationseffekt geschätzt worden sein. Bei kleinen Stichproben sollte es eher zu großen Abweichungen vom wahren Wert kommen als bei großen. Diese Abweichungen sollten jedoch, wenn es sich um eine repräsentative Auswahl von Studien handelt, symmetrisch um den wahren Wert herum streuen. Funnel-Plot = Streuungsdiagramm mit den Variablen „Effektgröße“ (x-Achse, links -> rechts: klein -> groß) und „Stichprobengröße“ (y-Achse). Eine Studie = ein Punkt. Repräsentativen Auswahl von Studien: Studien mit den größten Stichproben liegen in der Mitte der Verteilung und die weniger reliablen Studien sind symmetrisch darum verteilt. Wenn die Auswahl der Studien deutlich unrepräsentativ war, ist das im Funnel-Plot deutlich erkennbar. Z.B. Wenn kleinere Effektgrößen aus kleineren Stichproben systematisch fehlen. Studien mit signifikanten Ergebnissen haben eine höhere Chance publiziert zu werden. Je kleiner die Stichprobengröße, desto größer muss ein empirisch gefundener Effekt sein, damit das Ergebnis eines entsprechenden Tests signifikant wird. Kleinere Effekte würden dann vor allem bei kleineren Stichproben kaum publiziert worden sein. Funnel-Plots können für eine informelle Analyse der Werte einer Metaanalyse benutzt werden; es gibt jedoch auch eine Möglichkeit, die Effektgrößen der nicht vorhandenen Studien zu schätzen, bekannt unter der Bezeichnung Trim-and-fill-Methode: Dazu wird nicht wie beim Funnel-Plot die Stichprobengröße, sondern eine Funktion davon, der Standardfehler, für die y-Achse des Diagramms benutzt. Die Trim-and-fill-Methode kann Auskunft darüber geben, wie stark das Ausmaß der Fehleinschätzung für den Effekt (meist: Überschätzung aufgrund von Publikations-Bias) sein könnte. -> Die Trim-and-fill-Methode beschreibt das Weglassen kleiner Studien zwecks Erlangung der Symmetrie des Funnel Plots und den anschließenden Austausch dieser Studien mit anhand des Summeneffekts berechneter Ersatzstudien, welche die symmetrische Gegenstudie zu diesen echten, aber kleinen Studien darstellen. Jedoch stellt der Publikationsbias auch hier nicht die einzig denkbare Ursache dar. Eine weitere Möglichkeit zur Kontrolle des Publikationsbias bieten Selektionsmodelle. Sie berechnen die Gesamteffektstärke, indem sie den einzelnen Studien basierend auf Basis der geschätzten Wahrscheinlichkeit, nach welcher diese publiziert wurden (v.a. in Abhängigkeit des p-Werts und der Stichprobengröße), Gewichte zuteilen. 2) „Äpfel und Birnen“: Psychometrische Metaanalyse Problem: Studien sind selten perfekt miteinander vergleichbar, da es sich fast nie um eindeutige Replikationen handelt. Bezieht sich auf unterschiedliche Operationalisierungen. Kleinere Unterschiede – ähnliche „Apfelsorten“ (z.B. Verschiedene Paralleltests zur Messung des IQs) – haben allerdings keinen wesentlichen Einfluss auf das Ergebnis. Wenn aber die Ergebnisse der Studien aus unterschiedlichen Populationen stammen, wenn man also tatsächlich „Äpfel und Birnen“ im Korb hätte (z.B. unterschiedliche Therapierichtungen), könnte das die Interpretierbarkeit der Metaanalyse-Ergebnisse stark in Mitleidenschaft ziehen. Ob das der Fall ist, lässt sich jedoch auch im Nachhinein feststellen: Mithilfe der psychometrischen Metaanalyse. Die psychometrische Metaanalyse ist ein bekanntes Random-Effects-Modell und hat ihren Namen von der Grundgleichung der klassischen Testtheorie: Xp = Tp + ep Dieses Konzepte „wahrer Wert“ und „Fehler“ wurde von Hunter & Schmidt (1990) [1] in folgende Gleichung übernommen: [1] Im Folgenden wird die Notation von Hunter & Schmidt verwendet, obwohl die gegen die verbreitete Konvention verstößt, Populationswerte mit griechischen Buchstaben zu bezeichnen und Stichprobenwerte mit lateinischen. σ²r = σ²ρ + σ²e -> die Varianz der gefundenen Effektgrößen setzt sich zusammen aus der Varianz der Populationseffektgrößen (der wahren Werte) und der Fehlervarianz. Wenn nun alle Effektgrößen aus einer Population stammen (und das Fixed-Effects-Modell der MA anwendbar wäre), dann sollte die Varianz der Populationseffektgrößen Null sein, da es ja nur eine Population gibt und die Populationseffektgröße somit nicht variieren kann. Die Varianz der gefundenen Effektgrößen sollte also auf die Fehlervarianz (Fehler beim Stichprobenziehen) zurückzuführen sein. Wenn die Varianz aber >> 0 („deutlich größer“) -> dann liegen tatsächlich „Äpfel und Birnen“ in einem Korb. In diesem Fall sollten getrennte Analysen für plausible Subgruppen durchgeführt werden. Sind die Populationsvarianzen für die Subgruppen deutlich kleiner als in der ursprünglichen Analyse, repräsentieren die Subgruppen unterschiedliche Populationen mit unterschiedlichen Effektgrößen. Metaanalyse im Kontext Metaanalyse ist ein Sammelname für verschiedene Verfahren, von denen sich die meisten allerdings nicht wesentlich voneinander unterscheiden. Verhältnis von Einzelstudien und Metaanalysen Nachteil von Einzelstudien: Ergebnis kann aufgrund des Stichprobenfehlers weit vom Populationswert entfernt liegen. Zwar ist das plausibelste Resultat für gebräuchliche Stichprobenstatistiken der Wert des entsprechenden Populationsparameters. Jedoch kann man sich nicht ganz sicher sein, mit der Statistik auch nahe an diesem zu liegen, da größere Abweichungen zwar unwahrscheinlich aber möglich sind (vgl. Funnel-Plot). Aussagekraft einer Metaanalyse ist deswegen deutlich höher, da sich extreme Werte bei der Berechnung des Mittelwerts gegenseitig „neutralisieren“. Argumentation für Priorität von Metaanalysen im Forschungsprozess: Die Metaanalytiker sollten die Theorieentwicklung betreiben und individuelle Studien haben hauptsächlich den Sinn, Daten für diese Theoriebildung zu liefern. Die Aussagekraft von gemittelten Effektgrößen Zentrales Ergebnis einer MA = gemittelte Effektgröße -> relativ genaue Antwort auf Forschungsfragen. Jedoch: die Antwort kann nur so gut sein wie die Frage war. Garbage-in-Garbage-out-Problem: Kritisiert wird, die Ergebnisse einer Metaanalyse seien wenig valide, weil jede beliebige Untersuchung unabhängig von ihrer methodischen Qualität in die Metaanalyse eingeht. Äpfel-Birnen-Problem: Kritisiert wird, dass Metaanalysen Untersuchungen mit unterschiedlichen Operationalisierungsvarianten zusammenfassen. Schubladenproblem (engl. File Drawer Problem): Häufig werden nur Ergebnisse publiziert, die angenommene Hypothesen bestätigen oder signifikante Ergebnisse aufweisen, während Untersuchungen mit nicht-signifikanten Ergebnissen nicht veröffentlicht werden (Publikationsbias). Dadurch erfolgt eine Verzerrung der metaanalytischen Ergebnisse, da diese die Existenz eines Effekts zu oft (öfter als realistisch) nachweisen. Unveröffentlichte Literatur bezeichnet man auch als graue Literatur. Problem der abhängigen Messungen: Dieses Problem tritt auf, wenn verschiedene (abhängige) Teilergebnisse an der gleichen Stichprobe erhoben worden sind. Da Untersuchungseinheiten von Metaanalysen aber Einzelstudien und nicht Teilstichproben sind, darf immer nur ein Ergebnis einer Untersuchung in die Metaanalyse mit eingehen, da andernfalls diese Untersuchung ein größeres Gewicht erhalten würde, als eine Untersuchung, die nur mit einem Ergebnis in die Metaanalyse eingeht.
- 26 Besonderheiten der Datenerhebung 26.1 Die Problematik fehlender Daten (missing data) 26.1.1 Fehlende Daten: drei unterschiedliche Fälle 26.1.2 Diagnosemöglichkeiten: Fehlen die Daten zufällig? 26.1.3 „Traditioneller“ (suboptimaler) Umgang mit fehlenden Daten 26.1.4 Empfehlenswerte Ergänzungsverfahren 26.1.5 Der Umgang mit fehlenden Daten: Rekapitulation Besonderheiten der Datenerhebung Wenn die Stichprobe auf irgendeine Weise verfälscht oder nicht repräsentativ ist, dann sind alle Schlüsse auf die Population mit Vorsicht zu genießen. Die Problematik fehlender Daten (missing data) Weniger in experimenteller als vielmehr bei Fragebogenforschung. Entsprechende Umfragen enthalten oft viele Items und sind auf sehr große Stichproben angewiesen, weil in der Regel geplant ist, multivariate Verfahren wie etwa Strukturgleichungsmodelle oder Mehrebenenanalysen (K22) zu verwenden, die nur bei sehr großen Stichproben interpretierbare Ereignisse liefern. Wenn ganze Fragebögen fehlen, kann man relativ wenig dagegen tun. Oft fehlen jedoch nur Teile; wenn man auch noch die unvollständigen Fragebögen nicht verwenden kann, schrumpft die Stichprobe, manchmal auf einen problematisch kleinen Umfang. Außerdem könnten sich die Personen, die Fragebögen nicht oder unvollständig ausfüllen, systematisch von den anderen unterscheiden -> mögliche fehlerhafte Schlüsse. Problem minimieren: Vor Befragung: Welche Informationen braucht man? Evtl. können Fragen weggelassen werden. Welche Fragen können / wollen evtl. nicht beantwortet werden? [1 Möglicher Vorteil elektronischer Fragebögen: man ist „gezwungen“ Fragen zu beantworten; möglicher Nachteil: höherer Abbruchquote] Fehlende Daten: s.u. Überlegen, warum die Daten fehlen -> zufällig oder systematisch? Wenn systematisch, kann man relativ wenig dagegen tun; wenn zufällig, kann man argumentieren, dass sich diese Personen eben nicht systematisch unterscheiden. Wenn diese Annahmen zutrifft, kann man das Fehlen dieser Werte korrigieren, z.B. durch Ersetzungsverfahren (fehlende durch geschätzte Werte). Fehlende Daten: drei unterschiedliche Fälle Folgende 3 Kategorien entstammenden Fälle sollen die Unterscheidung zwischen zufälligen und systematischen fehlenden Daten und somit Entscheidung für die Anwendung von Ersetzungsverfahren erleichtern: - Missing completely at random (MCAR) Wenn Daten komplett zufällig fehlen (MCAR), dann können die vorhandenen Daten als Zufallsstichprobe aus der ursprünglichen vollständigen Stichprobe betrachtet werden. Werte die für eine Variable Y fehlen sind unabhängig von den Werten aller anderen Variablen im Datensatz. Wäre bspw. nicht der Fall, wenn durchschnittlich jüngere Personen die Frage nach dem Einkommen nicht beantworten würden. Kann auch gezielt zur Gestaltung von Untersuchungsdesigns angewandt werden, etwa bei sehr teurer / aufwendig zu erhebender Variable (Z.B. teurere Gen-Tests): Man könnte Werte für eine bestimmte Variable nur für eine zufällig ausgewählte Subgruppe aus der Gesamtstichprobe erheben und deswegen (weil Zufallsstichprobe), postulieren, dass die Daten für diese Variable im Rest der Gesamtstichprobe zufällig entstehen. - Missing at random (MAR) “Nur” zufällig (MAR) fehlende Daten einer Variable Y, wenn das Fehlen (wie auch bei MCAR) nicht von der Ausprägung der Y-Werte selbst abhängt, sondern nur von der Ausprägung mindestens einer weiteren Variable X. Für jeden Wert von X repräsentieren die entsprechenden Y-Werte im MAR-Fall zwar eine Zufallsstichprobe, aber insgesamt sind die Y-Werte nicht notwendigerweise eine Zufallsstichprobe aus der (hypothetischen) Gesamtstichprobe von Y-Werten. Die Bedingung MAR wäre erfüllt, wenn für eine bestimmte Altersgruppe (X) mehr Angaben zum Einkommen (Y) fehlen als für andere, wenn aber die vorhandenen Y-Werte innerhalb jeder Altersgruppe eine Zufallsstichproben aller Y-Werte innerhalb dieser Altersgruppe sind. - Not missing at random (NMAR) Wenn die Werte der Variable Y in Abhängigkeit der Werte in anderen Variablen X und zusätzlich in Abhängigkeit der fehlenden Werte Y selbst fehlen (NMAR), dann ist es schwierig, diese fehlenden Werte auf sinnvolle Weise zu ersetzen. Es könnte sein, dass die Befragten mit sehr hohen Gehältern dazu tendieren, die Frage nach dem Einkommen nicht zu beantworten (Abhängigkeit von den Werten in Y selbst). Es könnte aber auch sein, dass jüngere Befragte eher dazu tendieren, die Frage nach dem Einkommen nicht zu beantworten, wenn sie sehr wenig verdienen, und bei älteren Befragten könnte das umgekehrt sein (Abhängigkeit von X). Anhand der Muster könnte man Mutmaßungen anstellen, aber die zur Verfügung stehenden Daten würden es nicht erlauben, die Werte sinnvoll zu ersetzen. Diagnosemöglichkeiten: Fehlen die Daten zufällig? Das Fehlen der Daten sollte durch einen Zufallsprozess beschrieben werden können (zumindest MAR sein), um Ersetzungsverfahren rechtfertigen zu können: theoretische Argumente oder Argumente, die sich aus Design ergeben oder aus früheren empirischen Untersuchungen zusätzlich kann man aber auch die Daten „befragen“ -> zuerst Blick in die Datenmatrix – deutliche Muster könnten Indikator für Nicht-Zufälligkeit sein Zwei weitere Diagnosemöglichkeiten (Hair et al., 1995): Man könnte für eine Variable Y die Werte in fehlende und nicht-fehlende Werte einteilen und dann bei den anderen Variablen überprüfen, ob sich deren Werte systematisch in Abhängigkeit des Fehlens oder Nicht-Fehlens der Y-Werte unterscheiden. Ausgeprägte mittlere Unterschiede in anderen Variablen können auf einen nicht-zufälligen Selektionsprozess hindeuten. Zunächst muss jede Variable in Bezug auf das Fehlen von Werten dichotomisiert werden (z.B. fehlend = 0, vorhanden = 1). Wenn diese dichotomisierten Variablen korreliert werden und sich hohe Korrelationen ergeben, könnte man das als Indikator für nicht-zufällige Selektionsprozesse interpretieren. Diese Methoden liefern aber keine eindeutigen Ergebnisse und Mittelwertsunterschiede und ausgeprägte Korrelationen können unter Umständen auch konsistent mit MAR-Werten sein. Wenn jedoch keine dieser Methoden deutliche Anzeichen für nicht-zufällig fehlende Werte liefert -> Entscheidung für Ersetzungsverfahren besser als auch Bauchgefühl heraus getroffen. „Traditioneller“ (suboptimaler) Umgang mit fehlenden Daten - Fallweises Löschen Werte, für die eine oder mehr Variablen fehlen, werden von der Analyse ausgeschlossen. Nachteil: Teststärke und Schätzgenauigkeit (für KI und EG) sinken, weil die Stichprobe kleiner wird. Außerdem können, wenn die Daten „nur“ zufällig fehlen, auch Parameterschätzungen (z.B. Mittelwerte) systematisch verzerrt sein. Bei manchen Analysen sollte man aber keine systematische Verzerrung bei Löschung erwarten (z.B. bei Regressionsanalysen mit fehlenden Y-Werten). Methode wird nicht empfohlen. - Paarweises Löschen Paare von Werten löschen, wenn der Wert einer der beiden Variablen fehlt. Bspw. bei untersuchten Korrelationen (z.B. Alter – Einkommen). Bei univariaten Analysen werden hingegen alle vorhandenen Werte genutzt. Abstriche bei Teststärke sollen kleiner sein, jedoch kann es auch hier zu einer deutlichen Verzerrung von Parameterschätzungen (Kovarianzen, Varianzen und Mittelwerte) und zu mathematischen Schwierigkeiten kommen, weil diese Schätzungen oft auf stark unterschiedlichen Fallzahlen und auch unterschiedlichen Fällen beruhen. Problematisch ist auch die Schätzung von Standardfehlern, die ja sowohl von Standardabweichungen als auch den Stichprobengrößen abhängen. Außer bei CMAR-Bedingungen wird diese Methode nicht empfohlen. - Mittelwertsimputation Wenn man keine Daten verlieren möchte – was wäre der plausibelste Schätzwert für den fehlenden Wert? Schätzung = Mittelwert der betreffenden Variablen -> Imputation. Nachteile: Variabilität der Werte sinkt; diese führt auch dazu, dass Varianzen und Kovarianzen systematisch unterschätzt werden; ebenso die Standardfehler, weil die Freiheitsgrade unter Einbeziehung der imputierten Mittelwerte berechnet werden. [2] Außerdem: Wenn fehlende Daten nicht MCAR sind, kann man verzerrte Parameterschätzungen erwarten. Wird nicht empfohlen. [2] Wenn die Varianz im Vergleich zur Stichprobe ohne fehlende Daten sinkt, aber das n gleich bleibt, dann verringert sich der Wert für den Standardfehler. - Regressionsbasierte Imputation Mögliches Argument: Schätzungen wären weniger grob, wenn man nicht die Mittelwerte der Y-Variablen verwendet, sondern regressionsanalytische Vorhersagen aufgrund weiterer Variablen. Einfachster Fall: Regressionsanalyse durchführen -> die resultierende Gleichung für die Regressionsgerade benutzt man dann, um fehlende Werte in Y durch entsprechenden Vorhersagen aufgrund der X-Werte zu ersetzen. Problem: Normalerweise korrespondieren zu einem bestimmen X-Wert immer mehrere Y-Werte. Da bei regressionsbasierter Imputation jedoch bei bestimmten X-Werten immer dieselben Y-Werte vorhergesagt werden, sind auch bei diesem Verfahren Unterschätzungen von Varianzen und Standardfehlern sowie systematische Verzerrungen von Parameterschätzungen zu erwarten. Wird nicht empfohlen. Empfehlenswerte Ergänzungsverfahren Zentrales Problem traditioneller Verfahren: eingeschränkte Variabilität der Schätzwerte. 2 Verfahren zur Abhilfe (hoher Rechenaufwand -> Programm): - EM Algorithmus [3] [3] Algorithmus = Lösungs-, Bearbeitungsschema Der Expectation-Maximization(EM)-Algorithmus ist ein iteratives (wiederholt durchgeführtes) Verfahren in zwei Schritten, das alle zur Verfügung stehenden Variablen benutzt. Schritt 1 (Expectation): Regressionsbasierte Imputation: Berechnung von Mittelwerten und Kovarianzen, wobei man entweder fallweises oder paarweises Löschen anwendet -> Erstellung einer Regressionsgleichung ->Durchführung dieser Imputationsprozedur bis alle fehlenden Werte ersetzt sind. Aber: noch gleiche Probleme wie oben beschrieben, insbesondere unterschätzte Variabilität der Schätzwerte. Abhilfe: Schritt 2 (Maximization): Erneut Berechnung von Mittelwerten, Varianzen und Kovarianzen der Variablen aufgrund der vorhandenen und neu geschätzten Werte: Mittelwerte auf übliche Weise, aber zu den Varianzen und Kovarianzen wird Varianz basierend auf den Residuen der Regressionsschätzungen hinzugefügt. Diese neue berechneten Mittelwerte und Kovarianzen werden nun im nächsten Durchgang des EM-Algorithmus benutzt, um erneute Vorhersagen für die fehlenden Daten zu machen. Beide Schritte werden so lange wiederholt, bis die Schätzprozedur konvergiert (sich also keine nennenswerten Änderungen in den Schätzungen der fehlenden Daten mehr ergeben). Die endgültigen Schätzungen sind hinsichtlich ihrer Variabilität nicht mehr prinzipiell eingeschränkt. - Multiple zufallsbasierte Imputation Unterschied zwischen EM-Algorithmus und multipler zufallsbasierter Imputation: Die Varianz der Schätzungen für die fehlenden Werte wird vergrößert. Der EM-Algorithmus ist ein deterministischer Prozess: Die Varianz wird durch eine Korrekturformel (für die Hinzunahme der Residualvarianzen) vergrößert. Multiple zufallsbasierte Imputation: Varianz der Schätzungen der fehlenden Daten wird durch zwei andere Vorgehensweisen erhöht: Zum einen werden bei jeder Schätzung (Imputation) zufällig Werte aus der Verteilung der Residualwerte (mit Mittelwert Null) gezogen (daher „zufallsbasiert“) und zu den imputierten Werten addiert. Zum anderen werden diese Schätzungen wiederholt durchgeführt (daher „multiple“). Für die multiple zufallsbasierte Imputation wird oft ein Bayesianischer Ansatz (K19) vorgeschlagen. Während im vorherrschenden Maximum-Likelihood-Ansatz [4] nur jeweils ein (fester) Populationsparameter (z.B. ein Mittelwert oder eine Kovarianz) postuliert wird, nimmt man im Bayesianischen Ansatz eine Wahrscheinlichkeitsverteilung für den Populationsparameter an. Der Bayesianische Ansatz bei der multiplen zufallsbasierten Imputation besteht - grob gesagt - darin, dass bei der wiederholten Erzeugung von Imputationen zufällig aus dieser Wahrscheinlichkeitsverteilung ausgewählte Werte für die entsprechenden Populationsparameter (und damit für die zu erzeugenden Imputationen) benutzt werden. [4] Das grundlegende Prinzip der Maximus-Likelihood-Schätzung für Populationsparameter besteht darin, die für den vorliegenden Datensatz plausibelsten Parameterwerte als Schätzwerte zu wählen. Das sind diejenigen Werte, die die Wahrscheinlichkeit der Daten (aufgrund derer man die Schätzung vornimmt) maximieren würden.
- 26 Besonderheiten der Datenerhebung 26.2 Verfälschte Stichproben 26.2.1 Selektive Stichproben 26.2.2 „Nonsampling Error“: Verfälschung durch „Nichtziehen“ 26.2.3 Ziehen nach Ergebnis 26.3 Unverfälschte Antworten bei sensiblen Fragen: Randomized Response 26.3.1 Randomized Response für Anteile I 26.3.2 Randomized Response für Anteile II 26.3.3 Randomized Response für Mittelwerte Verfälschte Stichproben Viele Gründe: Prozess der Stichprobenziehung zwar auf Repräsentativität oder zumindest Vergleichbarkeit ausgelegt, aber aus irgendeinem Grund wird das Ziel nicht erreicht; es könnte aber auch nur nach bestimmten Werten gesucht worden sein, oder notwendige Werte treten systematisch nicht in der Stichprobe auf. Beispiele: - Selektive Stichproben Rücklaufquote bei schriftlichen Umfragen häufig unter 50% -> selbst bei zufälliger Auswahl der Befragten kann eine geringe Rücklaufquote dazu führen, dass die Antworten nicht repräsentativ für die untersuchte Population sind; insb. bei sehr heterogener Population. BSP. Radiohörgewohnheiten bei 30-50-Jährigen geringer als bei jüngeren und älteren ->evtl. keine Zeit / Lust an der Befragung teilzunehmen, und nicht etwa wenig ansprechende Sendungen. Möchte man trotzdem Statistiken für die gesamte Stichprobe berechnen, müsste man die Werte für die einzelnen Subgruppen anhand ihrer Populationsanteile gewichten -> gewichtete Mittelwerte. Meist ist es aber besser, bei nicht repräsentativen Subgruppen, die Ergebnisse separat für die Subgruppen anzusehen. -> A priori möglich: Man kann die Stichprobenziehung so auslegen, dass gezielt aus den relevanten Subpopulationen Teilstichproben gezogen werden -> man erhält geschichtete Stichproben. Andere Möglichkeiten für nicht-repräsentative Stichproben: Z.B. sind die Personen mit „normalen Todesfällen“ im Durchschnitt sehr viel eher geboren (und später gestorben, da Menschen, die an natürlichen Todesursachen sterben, in der Regel älter sind als S-Personen) als die Personen, die Suizid verübt haben. Die jeweils kleinere Stichprobe ist nicht vergleichbar mit der größeren. Nichtrepräsentative Stichproben müssen aber nicht in jedem Fall wertlos sein. So werden viele Studien mit Psychologiestudierenden in den Anfangssemestern durchgeführt – brauchbare Ergebnisse? Kommt auf die Fragestellung an. Wenn es sich bei den untersuchten Variablen um solche handelt, bei denen man davon ausgehen kann, dass kaum Unterschiede zwischen unterschiedlichen Bevölkerungsgruppen existieren, dann kann eine nicht-repräsentative Stichprobe durchaus brauchbar sein (z.B. Fragestellungen zur Wahrnehmung oder zu Aufmerksamkeits-, Gedächtnis-, Urteils- und Denkprozessen). Wenn sich die Fragestellung jedoch auf Themengebiete wie soziale Einstellungen oder Persönlichkeitsvariablen bezieht, dann sind studentische Stichproben manchmal wenig brauchbar für Schlüsse auf die Gesamtbevölkerung. - „Nonsampling Error“: Verfälschung durch „Nichtziehen“ Wainer (1999) berichtet von dem Schweizer Arzt Lombard, der 1835 aufgrund der Einträge in Sterberegistern eine Tabelle veröffentlichte, die Aufschluss über die Lebenserwartung von Angehörigen verschiedener Berufe geben sollte. Gefährlichster Beruf: Student, mit durchschnittlichem Todesalter von 20.7 Jahren (Verkaufsassistenten: 39.4; Geschäftsinhaber: 63.0; Professoren: 66.6). Die wohl gesündesten „Berufe“ hatte Lombard nicht auf seiner Liste: Rentner und Pensionäre. Offensichtlich bezieht sich die Selektivität dieser Stichprobe auf das Altersintervall, das typisch für einen Beruf ist. Studenten „wechseln“ ihren Beruf meist nach einigen Jahren und Verkaufsassistenten können selbst Geschäftsinhaber werden. Weiteres Beispiel für einen Nonsampling Error: Anekdote über den Statistiker Abraham Wald (Erfinder des Sequenzialtests, arbeitete im 2WK für die britische Armee). Sollte herausfinden, an welchen Stellen die Flugzeuge der Royal Airforce eine extra Panzerung erhalten sollten. Dazu analysierte er die Einschüsse an den Kampfflugzeugen, die von den Einsätzen zurückkamen. Diese waren überall getroffen, außer am Cockpit und an den Seitenrudern -> nur an anderen Stellen panzern? Gegenteil, Cockpit und Steuerruder sollten verstärkt werden – die heimkehrenden Flugzeuge sind natürlich eine selektive Stichprobe: Es lag nahe, zu vermuten, dass die Flugzeuge, die den weißen Bereichen getroffen waren, es nie zum Heimatflughafen zurück geschafft hatten. Drittes Beispiel für eine (anfänglich) selektive Stichprobenziehung: Der Grund für die Challenger-Katastrophe: Space-Shuttle, das 1986 kurz nach Start explodiert ist. Dichtungsringe funktionieren bei niedrigen Temperaturen möglicherweise nicht richtig? Aufbereitung über Temperaturen bei allen Starts, bei denen es zu Problemen gekommen war – Problemfälle waren über das ganze mögliche Temperaturspektrum verteilt. Kein Hinweis, dass Temperatur eine Rolle gespielt hat? Doch: Wie sah es bei Flugzeugen aus, die keine Probleme hatten? -> Temperatur hatte doch die ursprünglich vermutete Auswirkung, denn keiner der Flüge ohne Zwischenfälle war bei niedriger Temperatur gestartet worden. Selektive Stichproben sind in der Psychologie oft nicht so leicht zu erkennen. Sie entstehen häufig, wenn man auf Daten zurückgreift, die sowieso vorliegen. So haben es Therapeuten oft mit selektiven Stichproben zu tun: Erstens sehen sie hauptsächlich Patienten und vermehrt die Patienten, bei denen sich die Erkrankung nicht gebessert hat und die deswegen immer wieder kommen. Das könnte zu einer Überschätzung des Anteils an Problemfällen in der Bevölkerung führen. Auch bei Auswahlverfahren: Man weiß in der Regel nicht, was aus den nicht genommenen Bewerbern geworden wäre. Die relativ seltenen Untersuchungen, in denen repräsentative Studien verwendet wurden, deuten darauf hin, dass viele Auswahlverfahren suboptimal sind. - Ziehen nach Ergebnis Eine nicht so leicht zu entdeckende Art einer nichtrepräsentativen Stichprobe kann entstehen wenn man eine Stichprobe aufgrund von Ereignissen oder Auswirkungen erhebt. BSP. Zusammenhang zwischen Rauchen und Lungenkrebs: -> Repräsentativität von Stichproben hängt maßgeblich von der untersuchten Fragestellung ab. Dieses BSP. soll zeigen, dass naheliegende Kausalwirkungen (z.B. Rotwein beugt Herzinfarkt vor) bei Stichproben, die nach "Ergebnis" gezogen wurden (z.B. Herzinfarkt oder kein Herzinfarkt), mit Vorsicht betrachtet werden müssen. Wenn man gute Schätzungen über Zusammenhänge in der Population machen möchte, führt an einer Zufallsstichprobe oder zumindest einer repräsentativen Stichprobe kein Weg vorbei. Wenn man Kausalaussagen machen möchte, kann man die Stichprobe nicht nach Ergebnis (der abhängigen Variable – BSP: Lungenkrebs) aussuchen, sondern muss die Einteilung nach der möglichen Ursache (der unabhängigen Variable – BSP: Rauchen) vornehmen. Ähnliche Probleme entstehen, wenn man etwa die Ursachen von sexueller Delinquenz, Depression oder Autismus dadurch zu ergründen versuchte, dass man Erwachsenen, die an solchen Problemen leiden (Ergebnis) nach ihren Kindheitserinnerungen (potenzielle Ursache) befragt und daraufhin Kausalerklärungen „konstruiert“. Diese Erklärungen müssen nicht falsch sein, besagen aber für sich genommen noch nichts. BSP. frühere (falsche) Erklärung für Autismus: gefühlskalte Mütter -> Man müsste bei den Müttern beginnen und versuchen, herauszufinden, ob die Kinder von „gefühlskalten Müttern“ (auch was das ist, müsst erst sauber definiert werden) sich systematisch anders entwickeln, als die von anderen Müttern. Unverfälschte Antworten bei sensiblen Fragen: Randomized Response „Sensible“ Fragen, bei denen man nicht davon ausgehen kann, dass sie immer wahrheitsgemäß beantwortet werden (z.B. Haben Sie schon mal gestohlen / bei der Klausur abgeschrieben / Ihren Partner betrogen?). Wahrscheinlichkeit ist höher, wenn man erwarten kann, dass vollständige Anonymität gewährleistet ist. Beteuerung der Anonymität scheint hierbei oft nicht zu genügen. Vorgehensweise – Randomized Response – die es erlaubt, die tatsächlichen Anteile und (mit Einschränkungen Mittelwerte) gut zu schätzen. Methode ist aber nicht nur zum Schätzen von Anteilen und Mittelwerten geeignet, sondern im Prinzip auch zur Untersuchung von Zusammenhängen zwischen mehreren „sensiblen“ (und nicht-sensiblen) Variablen, wenn nicht nur einzelne Fragen, sondern Fragenkomplexe mit der Methode bearbeitet werden. Wie der Name schon sagt (randomized), spielt der Zufall bei dieser Methode eine entscheidende Rolle. Wie funktioniert das? - Randomized Response für Anteile I BSP: Wahrheitsgetreue Antwort, wenn zweifacher Münzwurf der vorher (für sich) bestimmten Kombination entspricht (4 Möglichkeiten: Kopf-Kopf, Kopf-Zahl, Zahl-Kopf, Zahl-Zahl); Lüge, wenn eine der 3 übrigen Kombinationen -> Weil man die Wahrscheinlichkeiten für „die Wahrheit sagen“ und „lügen“ kennt (25% und 75%), kann man aufgrund der Ergebnisse aller Befragten den tatsächlichen Anteil trotzdem gut schätzen, obwohl für die einzelnen Befragten volle Anonymität gewährleistet ist. Bei 124 Studenten – Haben Sie bei Ihrer Klausur abgeschrieben? 2 Extremfälle: a) niemand hat abgeschrieben, b) alle haben abgeschrieben. Im ersten Fall erwarten wir 93 Ja-Antworten: Alle Befragten antworten nur JA, wenn sie durch den Ausgang des Zufallsprozesses zum Lügen gezwungen werden; die Wahrscheinlichkeit dafür ist 75% -> 75% von 124 sind 93. Wenn tatsächlich alle abgeschrieben haben, antworten die Befragten nur JA, wenn sie die Wahrheit sagen müssen (Wahrscheinlichkeit 25%: 31). -> Weniger JA-Antworten deuten auf einen höheren tatsächlichen Ja-Anteil hin. Im BSP. haben 84 Studierende mit JA geantwortet -> Formel (p darf dabei nicht 0.5 betragen!): - Randomized Response für Anteile II Nachteil der oberen Formel: funktioniert nicht bei p = 0.5 (dann ist der Nenner Null und die Gleichung nicht definiert). Kann man auf Kosten einer aufwendigeren Befragung vermeiden: 2 vorgegeben Fragen: eine kritische (Abgeschrieben?) und eine, die erwartungsgemäß von allen mit JA beantwortet wird (Studieren Sie?). Das Randomized bezieht sich in diesem Fall darauf, welche der beiden Fragen beantwortet werden soll. Z.B. Festlegung der Wahrscheinlichkeit für Beantwortung der ersten Frage (p = 0.5), und die Komplementärwahrscheinlichkeit (1 – p), mit welcher auf die zweite Frage, immer mit JA, geantwortet werden soll. -> Formel. Zusätzlich Instruktion, dass die Studierenden die möglichen Ergebnisse eines Münzwurfs den beiden Fragen zuordnen sollen, z.B. Kopf für die Beantwortung der Frage 1 und Zahl für Frage 2, und vice versa. Diese zweite Methode kann auch angewandt werden, wenn man die zu erwartende Antwort auf die nicht-sensible Frage als Zufallsprozess mit einer bekannten Wahrscheinlichkeit betrachten kann. In diesem Fall kann man sich den Zufallsprozess bei der Befragung sparen, z.B. bei: Trifft mindestens eine der beiden folgenden Aussagen auf Sie zu? Ich habe schon einmal illegale Drogen konsumiert. Die letzte Zahl meiner Telefonnummer ist eine gerade Zahl. - Randomized Response für Mittelwerte Die Idee des Randomized Response lässt sich im Prinzip auch zur Schätzung von Mittelwerten benutzen, allerdings benötigt man hierzu zwei Stichproben. Wieder vergleicht man die Ergebnisse für eine sensible und eine nicht-sensible Frage. Für die Schätzung von Mittelwerten mithilfe von Randomized Response muss die nicht-sensible Frage allerdings nach ähnlichen Werten fragen (z.B. „Was ist das Durchschnittseinkommen in Ihrem Berufszweig?“ statt „Wie hoch ist Ihr Einkommen?“). Wieder muss die Wahrscheinlichkeit p dafür festgelegt werden, dass die Befragten auf die sensible Frage antworten. Grundlage für die Schätzung ist nun, dass eine Gruppe von Befragten mit der Wahrscheinlichkeit p1 auf die sensible Frage antwortet (und mit der Wahrscheinlichkeit 1 – p1 auf die andere) und eine weitere Gruppe mit der Wahrscheinlichkeit p2 (und 1 – p2 auf die andere Frage). Da man diese zwei Wahrscheinlichkeiten vorgibt und damit kennt, kann man anschließend aus den Differenzen der Mittelwerte in den beiden Gruppen den Mittelwert für die Antworten auf die sensible Frage schätzen (die zwei Zufallsstichproben müssen in diesem Fall natürlich aus derselben Population stammen). Bei der Schätzung von Mittelwerten gibt es allerdings in der Praxis Probleme: Befragte sind sich in ihrer Schätzung des nichtsensiblen Werts nicht einig (kein großes Problem, wenn die Schätzfehler in beiden Stichproben vergleichbar sind) Gravierender: Wenn der sensible Wert sehr stark vom nicht-sensiblen abweicht, dann entfällt möglicherweise der große Vorteil der Randomized Response-Technik: die Gewährleistung der Anonymität. Jemand, der weiß, dass das Durchschnittseinkommen 2400€ beträgt, kann damit rechnen, dass der Untersucher sofort erkennt, dass er mit der Antwort 1600€ die sensible Frage beantwortet hat, weil dieser Wert deutlich vom Durchschnittseinkommen abweicht. Das könnte dazu führen, dass manche Befragten vielleicht doch wieder dazu tendieren, nicht die volle Wahrheit zu berichten.
- 27 Computermodellierung als Forschungsmethode 27.1 Warum Computermodellierung? 27.1.1 „Reichere“ Modelle 27.1.2 Präzisere Vorhersagen 27.1.3 Aufhebung künstlicher Trennungen 27.2 Was kann man wie modellieren? 27.2.1 Art der Repräsentation: Symbolisch vs. subsymbolisch 27.2.2 Art der modellierten Prozesse: Kognition, Sozialverhalten und Evolution 27.3 Produktionssysteme 27.3.1 Architektur und Funktionsweise 27.3.2 Ein spezifisches Modell: ACT-R 27.3.3 Wofür sind Produktionssystem-Modelle geeignet? Computermodellierung als Forschungsmethode -> Erstellen von Computerprogrammen mit der Absicht, menschliches Verhalten nachzubilden oder zu modellieren. In manchen Bereichen hervorragend zur Theorieentwicklung geeignet. Computermodelle sind dynamische Theorien, aus denen oft sehr spezifische Vorhersagen abgeleitet werden können. Dabei werden die in den Theorien postulierten psychischen und sozialen Strukturen und Prozesse als Computerprogramme nachgebildet. Das Ideal ist letztlich, eine umfassende Theorie des Menschen in seiner Umwelt darzustellen. Deswegen ist Computermodellierung oft auch die Methode der Wahl bei interdisziplinär arbeitenden Forschergruppen. Entsprechende Forschergruppen sind häufig unter den Bezeichnungen „Künstliche Intelligenz“, „Kognitionswissenschaft“ oder „Artificial Life“ zu finden. Hier: Computermodelle die zur Modellierung kognitiver, sozialer und evolutionärer Prozesse gebräuchlich sind. Aber auch Computermodelle müssen (anhand ihrer Vorhersagen) immer empirisch überprüft werden. Dazu können im Prinzip alle bisher beschriebenen Methoden verwendet werden. Warum Computermodellierung? Computermodellierung = Aspekt der Theorienbildung Computersimulationen = Nachbildung menschlichen Verhaltens; Vorteil: können Modelle reichhaltiger und präziser darstellen; verdeutlichen, dass Trennlinien zwischen verschiedenen Bereichen der Psychologie relativ willkürlich gezogen sind. „Reichere“ Modelle Ideal experimenteller Forschung: Aufzeigen von eindeutigen Kausalwirkungen, indem man alle alternativen Erklärungen für das beobachtbare Verhalten ausschließt und die Auswirkung entsprechender Störvariablen kontrolliert. Diese Tendenz zur Vereinfachung hilft den Wald vor lauter Bäumen nicht zu verlieren, hat aber auch dazu geführt, dass viele Theorien so aufgebaut sind, dass man sie eben auf diese Weise prüfen kann. Nachteil dieser Betonung auf Kontrolle sind relativ enge Fragestellungen oder Hypothesen, weil man schon aus Gründen der Komplexität systematische Variation nur in der oder den (wenigen) unabhängigen Variablen zulässt, nicht aber in möglicherweise bedeutsamen zusätzlichen Variablen. In eine Computersimulation könnte man hingegen sämtlich relevanten Variablen mit potenziellen Auswirkungen integrieren. Meist beginnt man wenigen zentralen Variablen; sobald man ein grundlegendes Verständnis über deren Zusammenwirken hat, kann man beliebig viele Variablen hinzufügen. Wechselwirkungen zwischen den Variablen (nicht die statischen Interaktionen wie bei Varianzanalyse oder Regressionsrechnung) werden jedoch schon von Anfang an so genau wie möglich spezifiziert und in die Modellierung miteinbezogen. Präzisere Vorhersagen Versucht man „Kästchendiagramm“ (Darstellung von Variablen als Kästchen und Kausalbeziehungen als Pfeile in herkömmlichen Theorien und Modellen)als Computermodelle abzubilden, zeigt sich, dass die Beziehungen zwischen den Variablen nur sehr unscharf definiert sind oder dass weitere Aufnahmen getroffen werden müssen, um einen Sachverhalt zu erklären. Computerprogramme funktionieren jedoch nur, wenn alle Prozesse genau spezifiziert sind. Dieser Zwang zur genauen Spezifikation aller Variablen und Prozesse führt zwangsläufig auch zu präziseren Modellen. Das bedeutet – zumindest in der ersten Version eines solchen Modells nicht unbedingt, dass das Modell menschliches Verhalten genau abbildet. Aber ein solches Modell kann leichter falsifiziert werden, weil sich leichter überprüfen lässt, ob seine Vorhersagen zutreffen oder nicht. Weiterer Grund für präzisere Vorhersagen: Moderatorvariablen können mit in die Vorhersage einbezogen werden. Im Extremfall lassen sich dadurch Vorhersagen für einzelne Personen machen, was bei herkömmlichen Theorien schon aus Komplexitätsgründen nahezu unmöglich ist. Computermodelle ermöglichen außerdem Vorhersagen über alle Stadien der untersuchten Prozesse (z.B. Lernverläufe in Abhängigkeit eines dynamischen Lernkontextes), nicht nur über Endprodukte (wie bei Experimenten, z.B. Lernerfolg). Zusätzlich interessant: Manchmal führen Computersimulationen zu unerwarteten Vorhersagen, was bei der herkömmlichen Theorienbildung von vornherein ausgeschlossen ist. Aufhebung künstlicher Trennungen Akademischen Psychologie: Spezifizierung, d.h. menschliches Erleben und Verhalten wird von unterschiedlichen Perspektiven her erforscht. Vorteil: da menschliches Erleben und Verhalten komplex ist und so leichter untersucht werden kann, wenn nur bestimmte Aspekte betrachtet werden. Flut an Forschungsergebnissen machen es schwer, einen Überblick zu behalten. Es könnte leicht der Eindruck entstehen, bestimmte Dinge würden unabhängig voneinander funktionieren. Die Computersimulation macht deutlich: solche Grenzen gibt es nicht (BSP. für Grenzen: Experten für Lernvorgänge, Gedächtnis, Urteils- und Entscheidungsverhalten). Diese Zusammenhänge müssen in Computersimulationen zumindest ansatzweise spezifiziert werden. Zusätzlich: Persönlichkeitseigenschaften, Sozialverhalten, Umweltereignisse. Außerdem: Trennung zwischen Individuen kann aufgehoben werden -> In Computersimulationen kann man definieren, wie sich Individuen in Abhängigkeit des Verhaltens anderer Individuen verhalten und dann ohne zusätzlichen theoretischen Aufwand betrachten, wie sich das Verhalten der Gruppen dadurch verändert und welche Rückwirkungen das Gruppenverhalten auf das Individualverhalten hat. Was kann man wie modellieren? Ziel der Forschungsmethode Computermodellierung ist identisch mit dem generellen Ziel der Psychologie: die möglichst vollständige Beschreibung, Erklärung und Vorhersage menschlichen Erlebens und Verhaltens. Computermodellierung bietet sich vor allem für Theorien über Gegenstandsbereiche mit komplexen Sachverhalten und dynamischen Interaktionen zwischen Personen und/oder intraindividuellen psychischen Prozessen an. Insbesondere bei Theorien zum Lernen oder Wissenserwerb, zum Problemlösen, zur individuellen Entwicklung, zur sozialen Interaktion und zur Evolution menschlichen Verhaltens. Dazu müssen Annahmen über psychische und soziale Strukturen (wie Gedächtnisinhalte, angeborenen und erlernte Fähigkeiten) sowie Annahmen über psychische und soziale Prozesse (nach denen Urteilen, Denken oder Problemlösen verläuft) getroffen werden. Diese Annahmen bestimmen die in Computermodellen benutzten Strukturen und Prozesse. Unterschiede in der Grobstruktur solcher Modelle – zwei gebräuchliche Klassifikationsmöglichkeiten: nach Art und Weise, wie Inhalte im Computerprogramm repräsentiert werde nach den Prozessen, modelliert werden sollen zu 1) Art der Repräsentation: Symbolisch vs. subsymbolisch Die Welt (z.B. gegenwärtiger Gemütszustand) wird auch hier mit Variablen beschrieben (z.B. Fröhlichkeit, Angst, Hunger). Die Ausprägungen der Variablen beschreiben wird mithilfe von Symbolen, etwa Zahlen oder Wörtern. Computermodellen mit symbolischer Repräsentation: Jedes simulierte Objekt, jede simulierte Person, jeder simulierte Gefühlszustand usw., also jegliche Variable und ihre Ausprägung wird mithilfe eines oder mehrere Symbole repräsentiert. Man könnte argumentieren, dass Wahrnehmungs- oder Denkvorgänge tatsächlich nicht mithilfe von Symbolen funktionieren (z.B. Was wir denken setzt sich schwerlich aus Symbolen zusammen; genauso wenig ist die Information, die unseren Genen steckt, symbolischer Natur ist). Der Unterschied zwischen einer symbolischen Beschreibungsebene und einer darunter liegenden, neuronalen oder genetischen Ebene wird auch in der konventionellen Forschung problematisiert. Die Computersimulation erlaubt es, subsymbolische Repräsentationsformen zu verwenden, die mit dieser Art von Information umgehen können. „Subsymbolisch“ bedeutet hierbei, dass der Informationsgehalt einer Variable zu gering ist, als dass sinnvoller Weise ein Symbol zur Beschreibung verwendet werden könnte. Z.B. könnte eine Computersimulation dessen, wie eine Touristin einen Nasenbär im Urwald wahrnimmt, das retinale Abbild des Nasenbärs als eine Ansammlung von verschieden farbigen Punkten simulieren. Ein Punkt für sich hätte dann keine Bedeutung, nur das Muster der Punkte repräsentierte den Nasenbären. In einer symbolischen Repräsentation könnte die durch einen Nasenbär hervorgerufene Wahrnehmung durch das Wort (Symbol) Nasenbär repräsentiert werden. Unterschied zwischen symbolischer und subsymbolischer Repräsentation manchmal fließend. zu 2) Art der modellierten Prozesse: Kognition, Sozialverhalten und Evolution Wenn kognitive Prozesse (Psychologie), wie Lernen, Denken, Urteilen oder Problemlösen simuliert werden sollen, lehnen sich die Modelle häufig an das Abbild des Gehirns an. Zwei im Folgenden näher beschriebene Ansätze: Produktionssysteme (bei denen im Hintergrund die Idee eines Computers durchschimmert und die mit symbolischer Repräsentation arbeiten) Künstliche neuronale Netzwerke (zur Nachbildung neuronaler Funktionsweisen des Gehirns; meist subsymbolische Repräsentationsform) Simulation sozialer Prozesse: Modelle, die Hilfen zur Repräsentation von Individuen zur Verfügung stellen: Verteilte Modelle (jede „Einheit“ repräsentiert eine Person samt ihrer Ausprägungen in den für die Simulation relevanten „Eigenschaften“) Modellierung evolutionärer Prozesse: Genmaterial als Grundlage Genetische Algorithmen => Hybride Modelle: Kombination mehrerer Typen von Simulationsmodellen Produktionssysteme Produktionssysteme haben ihren Namen von den Produktionen (productions) oder Produktionsregeln („Wenn-Dann-Regel“). Auf Basis solcher Produktionsregeln kann man einen erstaunlich großen Anteil menschlichen Erlebens und Verhaltens nachbilden. Architektur und Funktionsweise Häufig Modellierung von Denk- und Problemlöseprozessen, Prozess des Wissenserwerbs. Dazu werden verschiedene Arten von „Gedächtnis“ benutzt (meist konsistent mit Gedächtnisforschung und Funktionsweise von Computern). Zwei Bestandteile von Produktionssystemen: Inferenzmechanismus: steuert Ablauf Mechanismus zur Konfliktresolution: wird benutzt, wenn das Programm eine Auswahlmöglichkeit von mehreren Vorgehensweisen hat Zwei generelle Funktionsweisen von Produktionssystemen: Vorwärtsverkettung oder Bottum-Up-Strategie: Bei dieser Art von Inferenzmechanismus wird das Verhalten des Produktionssystems durch die Daten, also Gedächtnisinhalte oder „Wahrnehmungen“ gesteuert, bewegt sich also vom Elementaren hin zum Komplexen (deswegen bottum up), BSP. R3 -> R2 -> R1. Bei der Vorwärtsverkettung überprüft das Programm also immer, ob die schon bekannten Fakten irgendeine Produktionsregel zum Feuern bringen und das so lange, bis das Ziel erreicht ist (oder bis keine Regeln mehr ausgeführt werden können, die das Programm dem Ziel näher bringen). Rückwärtsverkettung oder Top-Down-Strategie: Bei dieser Strategie beginnt das Produktionssystem mit dem Ziel (deswegen top down) und würde in unserem Beispiel zuerst R1 „interpretieren“ und dann „versuchen“, den WENN-Teil von R1 mit dem vorhandenen Wissen abzugleichen. Dazu würde es sowohl Fakten als auch die DANN-Teile anderer Produktionsregeln benutzen. Dieser Suchprozess kann sich über mehrere Stufen erstrecken. Im BSP. würde das Produktionssystem „bemerken“, dass zur Ableitung von Y mithilfe von R2 immer noch das Faktum D fehlt und deswegen auch noch auf R3 zurückgreifen, bevor das Ziel erreicht werden kann. In der Regel sind Wissensinhalte im Produktionssystem deutlich komplexer und nicht selten können mehrere Regeln ausgeführt werden oder es kann für keine der Regeln der WENN-Teil zur Gänze erfüllt sein. Für dieses Problem enthalten die meisten Produktionssysteme einen Mechanismus zur Konfliktresolution; Kriterien: Ausmaß an Übereinstimmung: die Regel mit der höchsten Übereinstimmung wird gewählt (Ausmaß der Übereinstimmung zwischen WENN-Teil von Regeln und aktuellem Wissen) Spezifität des WENN-Teils: die Regel mit den spezifischeren Bedingungen wird gewählt (z.B. Appetit auf Suppe vs Appetit) „Geschichte“ einer Produktionsregel: Regeln die bereits mehrfach erfolgreich angewandt wurden, werden eher ausgewählt Es kann aber auch sein, dass keine Regel passt, dann stoppt auch die Verarbeitung des Produktionssystems, evtl. ohne das Ziel zu erreichen. Ein spezifisches Modell: ACT-R Die erfolgreichste Produktionssystem-Theorie in der Psychologie: ACT-R (Adaptive Control of Thought-Revised) von Anderson et al. (z.B. 1993). Annahme, dass Menschen immer irgendwelche Ziele verfolgen. Das jeweils aktuelle Ziel (das Ziel ist dabei je nach Formulierung entweder im WENN- oder im DANN-Teil von Produktionsregeln enthalten) sind in einem Arbeitsspeicher archiviert (symbolisiert durch Kreis). Wenn ein Ziel abgearbeitet ist, wird das nächste aus dem „Zielstapel“ gezogen. Das ACT-R greift zwecks Zielerreichung auf das prozedurale Gedächtnis (mithilfe geeigneter Konfliktresolutionsmechanismen werden geeignete Regeln gewählt) und deklarative Gedächtnis (Suche nach entsprechenden Fakten für die Ausführung aktueller (zur Zielerreichung ausgewählter) Regeln + Kontrolle, ob Ziel schon erfüllt ist: Gezogenes Ziel) zurück. Die entsprechenden Gedächtnisinhalte (Abrufergebnis) werden dann im Arbeitsspeicher zum Erreichen des momentanen Ziels verwendet. Außerdem: Annahme, dass deklaratives Wissen in prozedurales umgewandelt werden kann, durch den Prozess der „Produktionsregel-Kompilation“. Entspricht in etwa menschlichen Lernvorgängen, bei denen man zur Lösung eines Problems anfangs suboptimale Vorgehensweisen, unterstützt durch Instruktionen, benutzt, aus denen sich im Laufe der Zeit eine optimale Vorgehensweise entwickelt (BSP. Anfangs umständliche Lösung von Algebra-Aufgaben durch Schüler, später müssen sie über diese Zwischenschritte kaum mehr nachdenken und sind in der Lage solche Aufgaben mehr oder weniger automatisch zu lösen). Produktionsregeln können in ACT-R auch direkt auf das deklarative Gedächtnis zurückgreifen (Abrufanfrage). ACT-R-Theorie ist gutes BSP. dafür, wie eine Theorie verbessert werden kann (durch Modifikation der Architektur und der Verarbeitungsregeln), indem man sie immer wieder testet und die Testergebnisse als Grundlage für die Modifikationen benutzt, aus denen wieder neue testbare Vorhersagen abgeleitet werden (entsprechend der in K1 vorgestellten wissenschaftlichen Methode). Langlebigkeit der ACT-R-Theorie als Indiz dafür, dass sie immer wieder in der Lage war, neuere Forschungsergebnisse zu integrieren. Außerdem, außergewöhnlich für psychologische Grundlagenforschung: Theorie hatte praktische Auswirkungen -> es wurden Tutorsysteme erstellt und immer wieder aufgrund empirischer Ergebnisse modifiziert (z.B. zum Lernen von Programmiersprachen, in US-Schulen eingesetzt). Inhaltliche Grundlage von Tutorsystemen: Sammlungen von Produktionsregeln, die das Verhalten von „idealen Lernern“ und mögliche Fehler von „tatsächlichen Lernern“ widerspiegeln, sowie eine Sammlung von Interventionsmöglichkeiten, aus denen das System die passenden auswählt. Grundlage für diese Auswahl ist das aktuelle Modell des Lernenden, welches aufgrund der Produktionsregeln erzeugt wird. Wenn Schüler mithilfe der Tutoren nicht gut lernen, heißt das, dass irgendetwas mit der zugrunde liegenden (durch ACT-R modellierten) Theorie nicht stimmt. Das Wiederum war des Öfteren Ausgangsbasis für die Modifikation entsprechender Modelle. Wofür sind Produktionssystem-Modelle geeignet? Andere Ansätze als ACT-R-Theorie (am besten ausgearbeitet): SOAR - State Operator Apply Result (Laird et al., 1987) in Psychologie Eine der ersten Anwendungen von Produktionssystemen: Expertensysteme, mithilfe derer man versuchte, das Verhalten von Experten nachzubilden. Großes Problem: Experten sind sich nicht immer bewusst, warum sie was machen; das von ihnen erfragte Wissen (Grundlage der Produktionsregeln) ist dann häufig eine Erklärung im Nachhinein. Heutiger Einsatz: Industrie (Produktionsplanung und Steuerung, oder Analyse und Synthese chemischer Verbindungen), Vorgehensweise entspricht aber nicht mehr der tatsächlichen Vorgehensweise eines menschlichen Experten. Diese Divergenz zwischen Maschinenwissen und Menschenwissen führte zu gescheiterten Versuchen, Expertensysteme als Grundlage für Tutorsysteme zu benutzen. Viele Produktionssysteme sind interessant für die Praxis, jedoch weniger für die Theoriebildung, wenn sie die Produktionsregeln menschlichen Verhaltens oder Theorien darüber nicht angemessen wiedergeben. Falls doch, dann sind Produktionssysteme gut geeignet für die Modellierung kognitiver Prozesse: Vor allem solcher, die valide erfasst und mithilfe von Wenn-Dann-Regeln abgebildet werden können.
- 27 Computermodellierung als Forschungsmethode 27.4 Verteilte Modelle 27.4.1 Architektur und Funktionsweise 27.4.2 Beispiele 27.4.3 Wofür sind einfache verteilte Modelle geeignet? 27.5 Neuronale Netzwerke 27.5.1 Architektur und Funktionsweise 27.5.2 Beispiele 27.5.3 Wofür sind neuronale Netzwerke geeignet? 27.6 Genetische Algorithmen 27.6.1 Architektur und Funktionsweise 27.6.2 Beispiele 27.6.3 Wofür sind genetische Algorithmen geeignet? 27.7 Praktische Vorgehensweise 27.7.1 Bewertung von Simulationsergebnissen 27.7.2 Programmierung 27.7.3 Simulationsumgebungen 27.8 Möglichkeiten und Grenzen der Computermodellierung Verteilte Modelle Einfaches Individualverhalten kann zu komplexem Verhalten im Aggregat führen (nicht anhand Beobachtung des Verhaltens einzelnen ersichtlich, z.B. sieht man anhand einer Ameise nicht, wie daraus eine Ameisenstraße werden kann; Computersimulationen können dies zeigen). BSP. Jeder Vogel befolgt 3 Regeln: Vermeide Kollision mit Vögeln, die in deiner Nähe fliegen Versuche, deine Fluggeschwindigkeit der der anderen Vögel anzugleichen und Versuche, in der Nähe der anderen Vögel zu bleiben. -> Pfeilform eines Vogelschwarms Gruppen- und Individualverhalten bedingen sich weiterhin gegenseitig. Lassen sich solche Einflüsse auch auf den Menschen übertragen? Zwar häufige Untersuchung von Gruppeneinflüssen auf Individuen / andere Gruppen, aber wie sich Gruppenverhalten aufgrund des Verhaltens einzelner Individuen herausbildet, ist aufgrund der vielfachen Interaktionsmöglichkeiten der Individuen anhand herkömmlicher Kästchentheorien nur schwer abbildbar. Deswegen Computersimulationen. Aufbau und Funktionsweise entsprechender Programme: Architektur und Funktionsweise Verteilte Modelle bestehen oft aus einer ein- oder mehrdimensionalen Anordnung von Zellen, die unterschiedliche Zustände einnehmen, in Abhängigkeit der Zustände der Nachbarzellen. Solche Modelle = zelluläre Automaten. Meist einfache Architektur: zweidimensionale rechteckige Anordnung von Zellen. Manchmal sind die Ränder des Rechtecks wieder mit den gegenüberliegenden Rändern verbunden = Torus. Das wird dann gemacht, wenn die äußeren Zellen nicht anders behandelt werden sollen als die inneren. Zustandsveränderungen einer Zelle hängen ausschließlich von den Zuständen der Nachbarzelle ab. Demonstration der Funktion: Eindimensionales Modell mit drei Zellen. Jede Zelle hat nur zwei Nachbarn und die Zelle 1 ist wieder mit der Zelle 3 verbunden. 3 Zellen = 3 Nachbarn im Gefängnis Weiße Zelle = zufrieden Grüne Zelle = unzufrieden Veränderungsregel 1: Zustand einer Person im jeweils nächsten Zeitschritt hängt nur vom Zustand der Person im Uhrzeigersinn links von ihr ab, d.h. davon ob sich deren Zustand ändert. Wenn man mehrere Zeitschritte durchspielt, wird deutlich, dass man bei dieser Regel immer wiederkehrende Muster erhält: Die Unzufriedenheit bewegt sich gewissermaßen kontinuierlich im Uhrzeigersinn. Veränderungsregel 2: Person ändert ihren Zustand nur, wenn beide Nachbarn sich in einem anderen Zustand befinden. Nach erster Veränderung bleibt die Konstellation jedoch stabil. Die Veränderung (Update) der Zustände in einfachen verteilten Modellen wird entweder synchron oder asynchron durchgeführt. Im BSP: synchrones Update -> bei allen beteiligten Zellen hat man zuerst nachgesehen, ob und wie sie sich ändern müssten, und dann erst die Änderung für alle Zellen auf einem (synchron) durchgeführt. Ein asynchrones Update wird in der Regel so gemacht, dass zufällig eine Zelle ausgewählt und die etwaige Änderung für diese Zelle sofort vorweggenommen wird, bevor wieder die nächste Zelle zufällig ausgesucht wird usw. Bei vielen Anwendungen führen diese beiden Arten der Veränderung zu praktisch identischen Resultaten. Beispiele Der Einfluss leicht erregbarer Individuen auf die Friedfertigkeit von Gruppen: Wie kann sich die „Aggressivität“ von Gruppen in Abhängigkeit der Ausgangskonfiguration innerhalb einer Gruppe systematisch entwickeln? Simulation: Gruppen von 36 Individuen, die am Anfang zur Hälfte feindlich und zur Hälfte friedliebend waren. In jedem Zeitschnitt verändert sich das Verhalten eines Individuums, wenn die Mehrzahl der Nachbarn ein anderes Verhalten zeigte. […] Eine dynamische Variante der Social Impact Theory: Latanés (1981) Social Impact Theory postuliert, dass die Meinungen von Menschen durch die Meinungen ihrer Mitmenschen stark beeinflusst werden und spezifiziert einige Regeln hierzu + später: Modifikation, sodass Veränderungen auch über die Zeit hinweg untersucht werden können. Simulation: Jedes Individuum hatte eine von zwei Meinungen (z.B. Pro und Contra Abtreibung, senkrecht = pro, waagrecht = contra), darüber hinaus zwei Attribute (Überzeugungskraft und Unterstützungskraft, 0 bis 100). Links: 70% vertreten Pro-Einstellung, 30% Contra-Einstellung -> Was geschieht mit dieser Minderheit, wenn die Personen auf dem Spielfeld wiederholt miteinander kommunizieren und dabei versuchen, Personen mit anderer Meinung zu überzeugen und Personen mit gleicher Meinung zu unterstützen? In jedem Zeitschritt der Simulation wurde für jedes Individuum der unterstützende und der überzeugende Einfluss der benachbarten Individuen berechnet, die nicht mehr als 10 Schritte auf dem Spielfeld (kein Torus) entfernt waren. Der Einfluss wurde durch die Entfernung gewichtet (weiter entfernt -> weniger Einfluss). Für jedes Individuum wurde dann bestimmt, ob der überzeugende Einfluss (von Individuen anderer Meinung) größer war als der unterstützende Einfluss (von Individuen selbiger Meinung) -> dementsprechend änderte sich die Meinung oder nicht. Nowak et al. verwendeten synchrones Update, sie bestimmten also die entsprechenden Werte zunächst für alle Personen auf dem Spielfeld, bevor die Meinungsänderungen stattfanden. Wenn ein Individuum seine Meinung änderte, wurden seine Werte für Unterstützungs- und Überzeugungskraft wieder zufällig neu belegt. Simulationen wurden so lange fortgesetzt, bis sich keine Änderungen mehr ergaben, also das System stabil war. Ein typisches Ergebnis (rechts): Mehrheitsmeinung nahm deutlich zu, die Meinungen polarisierten sich in der Regel (Gruppen wurden homogener). Minderheitsmeinung konnte aber nicht verdrängt werden. Dieses Ergebnis war über viele Simulationen hinweg stabil. Nowak et al.: spiegelt empirische Befunde zum Anwachsen von Mehrheitsmeinungen durch erhöhte Kommunikation (z.B. vor Wahlen) und zur Polarisierung von Meinungen gut wieder. In Simulationen bildeten sich die Minoritätsgruppen häufig (aber nicht immer) an den Rändern und Ecken des Spielfelds. Empirische Untersuchung, dass Bewohner von Eckhäusern weniger Kontakt mit anderen Bewohnern hatten und mit höherer Wahrscheinlichkeit von der Majoritätsmeinung abwichen. Wofür sind einfache verteilte Modelle geeignet? Sehr einfache individuelle Verhaltensweisen können schwer vorhersagbare Verhaltensweisen im Aggregat erzeugen; dazu nicht immer zentrale Kontrollinstanz nötig, wie oft spontan angenommen (wie Terroranschläge, Verschwörungstheorien). Die meisten verteilten Modelle arbeiten mit symbolischen Repräsentationsformen, aber subsymbolische Repräsentation ist durchaus auch möglich. Neuronale Netzwerke Genauer sind künstliche neuronale Netzwerke (manchmal auch konnektionistische Modelle) -> Computermodellierung, die in der Psychologie in den letzten Jahren am meisten Aufmerksamkeit erfahren hat. Sind wirklichen neuronalen Strukturen nachgebaut (in der Psychologie meist auf sehr abstraktem Niveau), Z.B. Auf das Auge treffen Lichtstrahlen, die auf der Retina Aktionspotenziale auslösen, die wiederum der Sehnerv über das Corpus geniculatum laterale an den visuellen Kortex weiterleitet.-> Reduktion auf 3 Schichten: Eingabeschicht, mittlere (Verarbeitungs-)Schicht (oft als hidden layer bezeichnet) und Ausgabeschicht Analogie legt nahe: neuronale Netzwerke können (sollen) im Prinzip alles modellieren, was das Gehirn macht. Architektur und Funktionsweise Generell besteht ein neuronales Netzwerk aus Zellen und Verbindungen zwischen Zellen (entsprechen Kombination von Axonen oder Dendriten mitsamt den Synapsen in wirklichen Gehirnen). Rekurrente Modelle: Nur eine Schicht, deren Zellen untereinander verbunden sind In psychologischen Modellen typisch: drei Schichten (siehe Abbildung) Generelle Lernmechanismus: Lernen = Modifikation der Verbindungsstärken zwischen Zellen. Unterschiedliche Lernregeln, z.B. Hebb’sche Regel: Assoziationen zwischen Zellverbänden erhöhen sich, wenn diese gleichzeitig feuern. Wie könnte ein neuronales Netz die Zuordnung zwischen Speisen und dazu passenden Getränken lernen? Netz mit 4 Eingabezellen (eckig) und 4 Ausgabezellen (rund), Netz a) ohne Gedächtnisinhalte. Speisen & Getränke sind symbolisch durch jeweils 4 Merkmale repräsentiert. Neue Lerndurchgänge bauen dabei immer auf dem schon Gelernten auf. Es wird (über die Aktivierung von Steak hinaus) noch eine Zusatzannahme benötigt, nämlich die, dass der Reiz eine bestimmte Schwelle überschreiten muss. Bei Hebb’scher Lernregel: bei komplexeren Wissensinhalten reicht ein Lerndurchgang nicht aus. Beispiele Das Erlernen unregelmäßiger Vergangenheitsformen Gängige Lehrmeinung: Nach erstem Stadium der korrekten Anwendung von Past-Tense Formen (durch Imitation) folgt eine Phase der Überregularisierung (charakteristische Fehler wie he goed statt he went), dann Fähigkeit beide Arten auseinander zu halten. Sollte U-förmiger Kurve folgen; Modell (Phase 2: Vernachlässigung der linken Route): Plunkett & Marchman bezweifeln dieses Modell und erstellen ein neuronales Netzwerk, das als Eingabe entsprechende Wortstämme bekam und als Ausgabe Past-Tense Formenliefern sollte (beides subsymbolisch). Dritte mittlere Schicht diente der zusätzlichen Verarbeitung. […] Die Verbindungsschichten werden so geändert, dass bei einer wiederholten Vorgabe des Wortstamms sich die Vorhersage der Past-Tense-Form verbessern sollte. Andere und bessere (den empirischen Daten entsprechende) Vorhersage als altes Modell. Erkennen von Wortgrenzen Wort KANAL -> Wenn das Netzwerk den Buchstaben K liest, dann sagt es den nächsten Buchstaben vorher (Idealfall: A), produziert also ein Aktivierungsmuster an den Zellen der Ausgabeschicht. Eine Kopie des Aktivierungsmusters in der mittleren Schicht wird an die Kontextzellen weitergereicht. Wenn das neuronale Netzwerk A „liest“, wird auch die „Erinnerung“ an K aus den Kontextzellen mit verarbeitet. Je mehr Phoneme des Wortes aber bekannt sind, desto geringer sollte der Vorhersagefehler für den nächsten Buchstaben sein. Elman: Wenn das Netz in der Lage war, Wortgrenzen zu erkennen, so hätte das Ausmaß des Vorhersagefehlers über die Buchstaben eines Wortes hinweg immer kleiner werden müssen, bevor er für das folgende Wort wieder deutlich anstieg. Das Netzwerk machte aber auch typische Fehler, zB. wenn ein Wort in einem anderen enthalten ist wie bspw. „the“ in „they“. Wofür sind neuronale Netzwerke geeignet? Wie zwei Beispiele oben; Sprachpsychologie ist eines der Parade-Anwendungsfelder für neuronale Netze. Unabhängig der Inhalte ist der Kern immer ein (assoziativer) Lernprozess und ein sich daraus entwickelndes Gedächtnis. Trotz ihrer Einfachheit sind neuronale Netzwerke im Prinzip zur Modellierung aller Leistungen geeignet, die auch das Gehirn vollbringt. Neuronale Netzwerke sind hauptsächlich zur Simulation individueller kognitiver Prozesse geeignet, es gibt aber ernsthafte Ansätze, damit auch soziale Interaktionen zu modellieren. Genetische Algorithmen Werden verwendet, um die Evolution von Aspekten des Verhaltens von Menschen und anderen Lebewesen am Computer nachzubilden. Die „treibenden Kräfte“ der Evolution, zufällige Variation (Mutation, Rekombination des Erbguts) und natürliche Selektion, finden sich auch in den unterschiedlichen Varianten von genetischen Algorithmen wieder. Kleine Rolle in Psychologie, große in Biologie. Prozesse, die durch Computermodelle der Evolution von Verhalten nachgebildet werden, starten mit einem oder mehreren „adaptiven Problemen“, d.h. mit Problemen, die in irgendeiner Weise mit der Weitergabe von Genen zu tun haben (z.B. Nahrungssuche, Partnersuche, Vermeidung von Raubtieren). Ausgehende von vermuteten adaptiven Problemen und weiteren Annahmen über den früheren Zustand von Organismen und Umwelt versucht man jetziges Verhalten nachzubilden oder Vorhersagen darüber zu machen, indem man evolutionäre Prozesse nachbildet. Möglichkeiten: Theorien über menschliches Verhalten entwickeln; nahtlose Anbindung von Psychologie / SW an Nachbarwissenschaften, vor allem an die Biologie. Architektur und Funktionsweise Der Unterschied zwischen Phänotyp (beobachtbares Verhalten) und Genotyp (darunter liegendes genetisches Material) spielt in vielen Simulationen mit genetischen Algorithmen eine bedeutsame Rolle. Repräsentationsarten: einer von mehreren möglichen Zuständen (plus optionale Attribute) -> Individuum kann unterschiedliche Zustände oder eine Kombination von Zuständen annehmen; der Genotyp (z.B. 1) wird im Phänotyp inhaltlich interpretiert (z.B. Pro-Meinung); bei solchen einfachen Repräsentationen ist allerdings die Lernfähigkeit des Individuums stark eingeschränkt „Chromosom“ -> meist wird nur Chromatid (Hälfte des Chromosoms) verwendet, bei dem der korrespondierende Phänotyp oft ein neuronales Netzwerk („Gehirn“) ist. Erklärung, wie Genotyp in Phänotyp umgesetzt wird, folgt unten. gerichtete Grafen (vernachlässigbare Rolle in Psychologie und SW, eingesetzt in Computeranimation und Robotik) -> flexible Möglichkeit, simulierte Lebewesen aller Art, wie Lego-Figuren aus beweglichen Teilen zusammenzusetzen normierte Programmcodes (vernachlässigbare Rolle in Psychologie und SW; eingesetzt auf dem Gebiet maschinellen Lernens) -> ermöglicht das Zerstückeln und Wiederzusammensetzen von einem Programmcode mit dem Ziel, automatische Computerprogramme zu erzeugen, die ihre Aufgabenlösung optimieren Selektion greift auf Phänotyp zurück, Zufalls-Modifikation bezieht sich auf den Genotyp (Erbmaterial). Selektionsmechanismen werden dabei entweder implizit oder explizit in die Computerprogramme eingebaut. BSP für implizite Selektion: Individuen, die bei der Nahrungssuche erfolgreich sind und dadurch ein bestimmtes Energieniveau erreichen, können sich fortpflanzen. Alternativ: sterben. Diese implizite Fitnessfunktion wird meist im Zusammenhang mit einer variablen Populationsgröße benutzt, bei der im Prinzip auch die Möglichkeit besteht, dass die ganze Population ausstirbt. BSP für explizite Selektion: Wird eine explizite Fitnessfunktion angewandt, dann ist die Reproduktion eines Individuums umso wahrscheinlicher, je höher sein Wert gemäß einer voreingestellten „Fitnessfunktion“ ist; man benutzt meist konstante Populationsgrößen. Wird ein Individuum für die Reproduktion ausgewählt, dann tritt der Zufallsaspekt von genetischen Algorithmen in Aktion. Zwei Zufallsmechanismen bei simuliertem Genmaterial sind häufig: Mutation und Crossover. Wofür sind genetische Algorithmen geeignet? Genetische Algorithmen erlauben es, alle Arten von Evolutionsprozessen nachzubilden. In der Psychologie sind vor allem Simulationen interessant, in denen nicht nur Evolution, sondern auch Lernen eine Rolle spielt, also in der Regel eine Kombination genetischen Algorithmen und neuronalen Netzwerken. Praktische Vorgehensweise Zuerst Erstellen eines Computerprogramms -> diese ist aber immer nur so gut, wie der „Fit“, also die Übereinstimmung zwischen den aus der Theorie (dem Computermodell) abgeleiteten Vorhersagen und den empirischen Daten. Bewertung von Simulationsergebnissen Der Anfangszustand (z.B. Attributionsausprägungen) wird meist zufällig festgesetzt, kann aber Auswirkungen auf das Ergebnis der Simulation haben. Deswegen benutzt man in diesem Fällen gemittelte Vorhersagen als Simulationsergebnis. Simulationsumgebungen Relativ wenig Aufwand für die Erstellung von Computerprogrammen ist nötig, wenn man schon vorhandene Simulationsumgebungen benutzt. Kostenlos im Internet erhältlich: ACT-R Starlogo tlearn
- 28 Qualitative Methoden 28.1 Qualitative Methoden im Überblick 28.1.1 Zielstellung qualitativer Forschung: Drei Sichtweisen 28.1.2 Die wissenschaftliche Methode: Qualitative Version 28.1.3 Die Vielfalt qualitativer Ansätze 28.2 Spezifische Ansätze: Eine Auswahl 28.2.1 Qualitative Inhaltsanalyse 28.2.2 Grounded Theory Qualitative Methoden Führt Schattendasein in Psychologie – keine Einigkeit, was qualitative Methoden sind, auch nicht unter den qualitativen Forschern selbst. Nur begrenzt brauchbare Unterscheidungen, da oft nicht klar definiert und häufig nur auf Teilausschnitte des anderen Lagers bezogen: Qualitativ: verstehend, komplexe Wirklichkeit, Finden/Bilden/Erweitern von Theorien Quantitativ: erklärend, isolierte Daten, Überprüfen von Theorien Qualitative Methoden im Überblick Manche begrenzt und zB nur auf Datensammlung oder –analyse bezogen, andere fest in eine bestimmte Weltanschauung eingebunden. Zielstellung qualitativer Forschung: Drei Sichtweisen Unter qualitativen Forschern kein allgemeiner Konsens über die Antworten auf die zwei zentralen Fragen der Wissenschaftstheorie: Was ist die Wirklichkeit? Wie können wir sie erkennen? ZB Vertreter der Diskursanalyse: Es gibt keine unabhängig von uns existierende Welt – jeder Mensch konstruiert sich seine eigene Welt, in die andere nur begrenzt Einblick haben können. Will man etwas über andere Lebenswelten erfahren, muss man versuchen, die entsprechende Konstruktion zu verstehen, indem man zunächst versucht sie zu analysieren (Dekonstruktion) und sie dann wieder zusammensetzt (Rekonstruktion). Verstehen = Rekonstruieren von subjektiven Bedeutungswelten. Wissenschaftstheoretische Grundeinstellung von Forschern hat Auswirkung darauf, was als Ziel von Wissenschaft bzw. qualitativer Forschung betrachtet wird. Es gibt mindestens 3 Antworten: Ergänzung zu konventionellen Verfahren Qualitative Aspekte (wenn auch marginal), wie Befragung der Versuchsteilnehmer zu Eindrücken zu Experiment – Antworten werden bei Interpretation der Ergebnisse berücksichtigt. Gleichberechtigte Ansätze Bei manchen Fragestellung sei qualitative Vorgehensweise deutlich besser, ZB Fragen zu Bewusstsein, Einbeziehung von Kontext. Vor allem bei der Entwicklung von Theorien -> qualitative Forschung zeigt, wie man systematische Theorienbildung betreibt und somit die induktive Vorgehensweise weniger fehleranfällig machen kann. Welche Herangehensweise besser ist, wird im Idealfall durch die Fragestellung und den untersuchten Gegenstandsbereich bestimmt. Alternative zum konventionellen Ansatz Einige qualitative arbeitende Forscher lehnen den konventionellen Ansatz vollständig ab. Sie argumentieren, dass sich schon das naturwissenschaftliche Weltbild, das der konventionellen Methodik zugrunde liege, nicht aufrecht erhalten lasse: Wenn es keine von uns unabhängig existierende Welt inklusive gesetzmäßig ablaufender psychischer Prozesse gibt, hat es wenig Sinn, nach allgemeinen Gesetzmäßigkeiten für diese Welt zu suchen. Außerdem ist es wenig sinnvoll, etwas zu quantifizieren, das nicht quantifizierbar ist (ZB Inhalte eines Diskurses). Forschungsgegenstand: Weltbilder oder Konstruktionen der untersuchten Personen und deren Auswirkungen auf das Erleben und Verhalten. Trotzdem bleibt man bei diesen Ansätzen nicht bei der Analyse von Individuen stecken, sondern versucht in der Regel, allgemein Muster oder Strukturen aufzudecken. Die wissenschaftliche Methode: Qualitative Version Auch qualitative Forscher gehen systematisch vor und verfolgen eine „wissenschaftliche Methode“. Abgesehen von den Unterschieden bei der Wahl von spezifischen Methoden, sind beide Ansätze mehr oder weniger ineinander überführbar. Andere Version der „qualitativen wissenschaftlichen Methoden“, ohne vorstrukturierte Abfolge, mit der sich qualitative Forscher wohl eher identifizieren können : Nochmal Verdeutlichung der Nicht-Linearität des qualitativen Vorgehens: Die Vielfalt qualitativer Ansätze Und viele mehr Ansätze – manchmal auch mit unterschiedlichen Bezeichnungen, oder solche, die für spezifische Fragestellungen entwickelt wurden. Versuch, Typen qualitativer Forschung nach Schwerpunkt des Forschungsinteresses zu bilden: Merkmale der Sprache untersuchen Regelmäßigkeiten zu entdecken Bedeutung eines Textes oder einer Handlung verstehen Problematik: Grenzen oft unscharf, Begriffe nicht immer eindeutig definiert Spezifische Ansätze: Eine Auswahl Qualitative Inhaltsanalyse Die qualitative Inhaltsanalyse dient zur systematischen Bearbeitung von Protokollen kommunikativer Prozesse. Sie ist ein Analyseverfahren für Texte, aber auch musikalisches, bildliches, plastisches o.ä. Material, das in Form eines Protokolls festgehalten ist. Kritik: quantitative Inhaltsanalyse & „freie“ Textinterpretation. Mayring schlägt vier Arten von Inhaltsanalyse vor: Zusammenfassende Inhaltsanalyse: Reduktion des Materials, damit wesentliche Inhalte übrig bleiben -> überschaubarer Kurztext als Endergebnis Explizierende Inhaltsanalyse: soz. Gegenteil der zusammenfassenden Inhaltsanalyse. Bei unklaren Textteilen soll zusätzliches Material herangezogen werden, um die Textstellen zu explizieren oder verständlich zu machen -> systematische Suche nach „Explikationsmaterial“ Strukturierende Inhaltsanalyse: geht von zuvor festgelegten Ordnungskriterien aus; dient dazu, eine bestimmte Struktur aus dem Material herauszufiltern -> Strukturierungsdimensionen müssen aus einer Fragestellung abgeleitet und theoretisch begründet werden Induktive Kategorienbildung: um schrittweise Kategorien aus dem Material zu entwickeln. Intercoder-Reliabilität spielt große Rolle: formative (Anfangsphase: Vergleich der Codierergebnisse) und summarative Reliabilitätsprüfung; hierbei wird Einbezug quantitativer Analysen befürwortet Grounded Theory Am besten ausgearbeitet Ziel: auf empirische Forschung gegründete (grounded) Theorien zu entwickeln. Theorien bezieht sich hier nur auf Teilmenge der in der Psychologie möglichen Theorien. Systematische Analyse von Texten im weiteren Sinn (transkribierte Interviews, Notizen während Forschungsprozess, Beobachtungsprotokollen etc.) Aus Analyse resultieren Konzepte und Einsichten oder Schlussfolgerungen (sogn. Memos, die vernetzt werden und als Grundlage für die Entwicklung einer Theorie dienen) Meistens wird von unabhängig existierender Realität ausgegangen, manchmal aber von konstruierter Realität Bestandteile der Grounded Theory: Codieren Interaktion mit einem Text, bei der Interpretationen immer wieder am Text überprüft werden müssen. Reihenfolge: Zeilenweise Codierung (Line Coding) Memos schreiben Theoretical Sampling Theoriebildung Art der Theorien 28.2.3 Diskursanalyse 28.3 Der qualitative Forschungsprozes 28.3.1 Datensammlung 28.3.2 Datenanalyse 28.3.3 Gütekriterien 28.4 Qualitative Methoden: Eine kritische Bewertung 28.4.1 Qualitative „Messung“ 28.4.2 Qualitative Methoden und Falsifizierbarkeit 28.4.3 Wie man qualitative Forschung nicht betreiben sollte 28.4.4 Wann sind qualitative Methoden nützlich?