3. Signifikanztests - Forschungsmethoden learn online

Forschungsmethoden (Subject) / 3. Signifikanztests (Lesson)

There are 16 cards in this lesson

I - III

This lesson was created by Frena.

Learn lesson

This lesson is not released for learning.

Probleme von Signifikanztests Signifikanztests werden schon lange kritisiert und es werden schon lange Alternativen vorgeschlagen. Faktisch ändert sich wenig in der Forschungspraxis, die 5% gelten nach wie vor als Entscheidungsregel, es sei denn man erhält „noch signifikantere“ p-Werte, was dem Begriff der Signifikanz widerspricht. Mit der Replizierbarkeitskrise hat die Debatte eine neue Aktualität erhalten. Der „p-Wert“ gilt als Goldstandard, doch er führt in die Irre. Viele Forschungsergebnisse sind nicht replizierbar. Denn Signifikanztestergebnisse werden ohne die Berücksichtigung von Effektstärken interpretiert. In der Forschungspraxis findet man häufig „P-Hacking“ (= bewusstes oder unbewusstes Ausprobieren verschiedener Dinge, bis man schließlich das gewünschte Ergebnis erhält). Auswege: „Open Science“ und „präregistrierte Studien“ (= Kennzeichnung explorativer und hypothesentestender Studien).
Signifikanztest nach R.A. Fisher - Vorgehensweise und Interpretation Vorgehensweise: Aufstellen einer Hypothese, die widerlegt werden soll (H0). Festlegen des Risikos, mit dem der Fehler 1. Art begangen werden soll. Berechnen des p-Werts: Wahrscheinlichkeit, die Werte der vorliegenden Stichprobe (oder noch extremere Werte) zu erhalten, für den Fall, dass die H0 stimmt. Ist der p-Wert kleiner als das ?-Niveau?Ja --> lehne H0 ab.Nein --> keine Schlussfolgerung möglich. Wie interpretiere ich ein signifikantes Ergebnis? --> Entweder eine außergewöhnlich seltene Chance ist eingetreten, oder die Theorie ist nicht wahr. Wie interpretiere ich ein nicht signifikantes Ergebnis? --> Ist das Ergebnis nicht signifikant, kann man nicht schließen, dass die H0 zutrifft. Es lässt sich keine Aussage treffen.
Wie groß ist das Risiko, einen tatsächlich vorhandenen Effekt übersehen zu haben? --> ß-Fehler (Fehler 2. Art) 1 – ß --> Teststärke/Power (gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer gültigen Alternativhypothese entscheidet)
Signifikanztest nach Neyman & Pearson - Hypothesen Die statistische Alternativhypothese formuliert im Sinne der operationalen Forschungs-Hypothese die Relation der jeweiligen Populationsparameter. Diese statistische Alternativhypothese (H1) wird durch eine komplementäre statistische Nullhypothese (H0) zu einem Hypothesenpaar ergänzt. Alternative H1: p ≠ 0 Nullhypothese H0: p = 0 Ungerichteten Hypothesen: Werden durch einen zweiseitigen Signifikanztest geprüft. es besteht ein Zusammenhang / es gibt einen Unterschied H1: p ≠ 0 Gerichteten Hypothesen: Werden durch einen einseitigen Signifikanztest geprüft. es besteht ein negativer/positiver Zusammenhang, etwas ist mehr/weniger, größer/kleiner H1: p > 0 --> Gerichtete Hypothesen sind informationsreicher, da sie die Richtung der angenommenen Zusammenhänge, Unterschiede oder Veränderungen angeben. Unspezifische Hypothesen: Keine Größe des Zusammenhangs angegeben H1: p > 0 Spezifische Hypothesen: Größe des Zusammenhangs genannt H1: p > 0,3 --> Spezifische Alternativhypothesen sind informationsreicher als unspezifische, da sie die Größe der angenommenen Zusammenhänge, Unterscheide oder Veränderungen spezifizieren.
Signifikanztest nach Neyman & Pearson - Vorgehensweise und Interpretation Aufstellen einer Hypothese, die widerlegt werden soll (H0). Aufstellen einer dazu komplementären Alternativhypothese, sodass alle Fälle, die eintreten können, abgedeckt sind (H1). Festlegen des Risikos für den Fehler 1. Art und den Fehler 2. Art (Effektstärke? Sensitivität und Spezifität? Stichprobengröße?). Berechnen des p-Werts: die Wahrscheinlichkeit, die Werte der vorliegenden Stichprobe (oder noch extremere Werte) zu erhalten, für den Fall, dass die H0 stimmt. Interpretation: --> Wenn der p-Wert kleiner/gleich dem spezifizierten ? ist, verhalte dich, als wäre die H1 richtig (--> ist also signifikant, Merkmale unterscheiden sich). --> Wenn der p-Wert größer als das spezifizierte ? ist, verhalte dich, als wäre die H0 richtig (--> ist nicht signifikant, Merkmale unterscheiden sich nicht).
Mögliche Herangehensweisen an Poweranalysen – Zusammenfassung A Priori: gegeben: 𝛼, 𝛽, Effektgröße zu errechnen: Stichprobengröße (im Voraus) Post Hoc: gegeben: 𝛼, Stichprobengröße, Effektgröße zu errechnen: 𝛽 (nachträglich) Kriterium: gegeben: 𝛽, Stichprobengröße, Effektgröße zu errechnen: 𝛼 Sensitivität: gegeben: 𝛼, 𝛽, Stichprobengröße zu errechnen: Effektstärke Kompromiss: gegeben: 𝛼/𝛽-Verhältnis, Stichprobengröße, Effektgröße zu errechnen: 𝛼, 𝛽
Signifikanztests als Risiko-Nutzenanalyse: Sensitivität und Spezifität Sensitivität und Spezifität sind Begriffe zum Beschreiben diagnostischer Tests: Sensitivität = Die Fähigkeit eines Tests, die tatsächlich Betroffenen richtig zu identifizieren. Spezifität = Die Fähigkeit eines Tests, die nicht Betroffenen richtig zu identifizieren. Sensitivität und Spezifität verhalten sich komplementär zueinander. Ein Test kann entweder: sensitiv sein (--> Screeningverfahren) spezifisch sein (--> operative Verfahren zu Diagnose) einen Kompromiss eingehen (--> ärztliche Gespräche)
Auswirkungen der Festlegung des α- und β-Fehlerniveaus Der Fehler 1. Art und der Fehler 2. Art verhalten sich komplementär zueinander. Ein statistischer Test kann entweder: ein hohes Risiko eingehen, einen Fehler 1. Art zu begehen --> Wahl eines hohen α-Niveaus. ein hohes Risiko eingehen, einen Fehler 2. Art zu begehen --> Wahl eines niedrigen α-Niveaus. einen Kompromiss eingehen --> Wahl eines mittleren α-Niveaus. --> Bei einem ausreichend großen N oder einem entsprechend großen Effekt kann man auf einem geringen Niveau für den Fehler 1. und 2. Art testen. Festlegung des α- und β-Fehlerniveaus als Risiko-Nutzen Abwägung.
Stichprobenplanung: Optimale Stichprobe Hypothesenprüfende Untersuchungen sollten so angelegt werden, dass statistisch signifikante Ergebnisse auch praktisch bedeutsam sind und dass praktisch bedeutsame Ergebnisse auch statistisch signifikant werden können. Zu kleine Stichprobengröße --> zu niedrige Teststärke Zu große Stichprobengröße --> unbedeutende Effekte werden statistisch signifikant Die Stichprobe sollte so gewählt werden, dass signifikante Ergebnisse inhaltlich bedeutsam sind und inhaltlich bedeutsame Effekte signifikant werden. Hierfür müssen natürlich Informationen über die Größe des erwarteten Effekts vorliegen.
Power-Berechnung: Wann und wie werden post hoc-Tests durchgeführt? Was kann daraus resultieren? Oft ist die Bestimmung bzw. Ziehung von optimalen Stichprobengrößen im Voraus nicht möglich. Gründe hierfür können sein: Nutzung von vorhandenen Daten Keine Kenntnis über den erwarteten Effekt Nur eine bestimmte Anzahl an Versuchspersonen ist rekrutierbar (aus Verfügbarkeits- oder ökonomischen Gründen) Vorgehen: Im Nachhinein soll die Power berechnet werden, um zu prüfen, wie hoch die Wahrscheinlichkeit war, einen Effekt überhaupt zu finden (um Hypothesen nicht vorschnell zu verwerfen). Was kann aus der Powerberechnung resultieren? Zu kleine Stichprobe gezogen (sehr niedrige Teststärke): Replikation der Studie mit ausreichend großer Stichprobe, optimale Stichprobengröße ermitteln. Zu große Stichprobe gezogen (sehr hohe Teststärke): Berichten und Interpretieren der Effektgrößen; Testen an einer spezifischeren Hypothese --> Minimum-Effekt Hypothesen
Wie wahrscheinlich ist es, keinen Effekt zu finden (H0)? In der klassischen Nullhypothese wird ein Nulleffekt angenommen. --> Die Nullhypothese ist ein exakter Punktwert und die Alternativhypothese der Rest Das Auftreten von unsystematischen Mustern ist viel wahrscheinlicher als das Auftreten von absolut keinem Muster. Wenn wir in der Alternativhypothese annehmen, dass irgendein Effekt vorliegt, ist dies sehr viel wahrscheinlicher als „kein Effekt“. Mit zunehmender Stichprobengröße wird es wahrscheinlicher, dass dieser zufällige Effekt signifikant wird. Bei großen Stichproben ist es daher notwendig, dass die Nullhypothese spezifischer ist als „es gibt keinen Effekt“.
Minimum-Effekt-Hypothesen Minimum-Effekt-Nullhypothesen = praktisch bedeutsame Nullhypothesen Anstelle eines Nulleffekts wird ein spezifischer Effekt postuliert. Die Nullhypothese kann als zusammengesetzte Hypothese formuliert werden (μ ≤ spezifischer Wert). Das bedeutet eine Verschiebung der Prüfverteilung in die spezifizierte Richtung. Die Idee der Minimum-Effekt Hypothesen ist die Implikation einer Varianzaufklärung in der H0. Der spezifische Wert in der Nullhypothese ist also der Anteil der Varianzaufklärung. Dabei wird traditionell ein minimaler Effekt festgelegt, der praktisch unbedeutend ist (1% oder 5% Varianzaufklärung). Die traditionelle „Nil“-Nullhypothese, die überhaupt keinen Effekt postuliert (H00: μ = 0), wird ergänzt durch Minimum-Effekt-Nullhypothesen: Nil-Nulleinshypothese: H01: μ ≤ Δ, mit η2 = 1% Varianzaufklärung Nil-Nullfünfhypothese: H05: μ ≤ Δ, mit η2 = 5% Varianzaufklärung --> Es wird eine einseitige spezifische Hypothese getestet. Es resultieren andere F-Werte, Tests werden testschwächer.
Vergleich Nil-Nullhypothese und 1%-Minimum-Effekt-Nullhypothese(/Nil-Nulleinshypothese) Nil-Nullhypothese: H00: μ = 0, geht von 0% Varianzaufklärung aus. Nil-Nulleinshypothese: H01: μ ≤ Δ, mit η2 = 1% Varianzaufklärung. Ein Signifikanztest zur Prüfung von H01 hat bei sonst gleichen Bedingungen eine geringere Teststärke als der entsprechende Signifikanztest zur Prüfung von H00.
Beispiele für Nullhypothesen als Wunschhypothesen Mittelwertsdifferenzen Korrelationen X2-Test auf Normalverteilung Modellgeltungstests
Was sagt der p-Wert aus? Der p-Wert gibt die Wahrscheinlichkeit an, die Werte der vorliegenden Stichprobe (oder noch extremere Werte) zu erhalten, für den Fall, dass die H0 stimmt. p = 0,01 bedeutet eine Wahrscheinlichkeit von 11%. p = 0,05 bedeutet eine Wahrscheinlichkeit von 29%. Insgesamt macht ein kleiner p-Wert die Hypothese, zu der er gehört, plausibler, aber nicht viel.
Welche Perspektiven gibt es in der Replikations-Krise? Strikte Unterscheidung von konfirmatorischen Studien und explorativer Forschung. Verwendung von Signifikanztests nur in konfirmatorischen Studien mit Stichprobenplanung (Teststärke) im Sinne einer Entscheidung (Neyman/Pearson). Registrierung von konfirmatorischen Studien. Verwendung von explorativen und deskriptiven statistischen Verfahren in explorativer Forschung, einschließlich dem Berichten von Effektstärken statt p-Werten. Open Science, Veröffentlichung von Forschungsdaten, transparente Datenanalyse, Korrektur von Fehlern.

Learn online - when and where you want!

Forschungsmethoden (Subject) / 3. Signifikanztests (Lesson)