Stichproben und Population
schließt von der Stichprobe (Mittelwert bekannt) auf die Population (Mittelwert unbekannt) unsichere Daten (geschätzt) je mehr das Stichprobenereignis vom Wert der Hypothese abweicht, desto weniger wahrscheinlich erscheint die Hypothese bei mehreren Stichproben erhält man unterschiedliche Werte je größer die Stichprobe, umso wahrscheinlicher ist es, dass die Stichproben-Statistik dem Populationswert nahekommt Grundvoraussetzung: Ziehungen müssen unabhängig voneinander sein (Zufallsprinzip) Stichprobenverteilung: egal ob aus normalverteilter oder gleichverteilter Stichprobe, die Verteilung der Stichproben-Mittelwerte wird eine Normalverteilung à zentraler Grenzwertsatz p-Wert: Signifikanzwert; die Wahrscheinlichkeit eines Stichprobenereignisses, wenn die H0 wahr ist Anteil der Stichproben, die den gleichen oder höheren Mittelwert haben Maß dafür, wie stark die Daten gegen die Hypothese sprechen
Nullhypothesen auf statistische Signifikanz testen (NHST)
- prüfen, ob man anhand der Stichproben-Daten einen bestimmten Wert (oft Null) in der Grundgesamtheit ausschließen („nullifizieren“) kann - liegt ein „Null-Effekt“ vor? (kein Unterschied zwischen den Gruppen, kein Zusammenhang zwischen den Variablen) Nullhypothesen (H0) testen: man vertritt eine Hypothese, die eine Ungleichheit behauptet · z.B. Frau parken schneller ein als Männer (zur Überprüfung zieht man eine Stichprobe) Ø man kann Hypothesen nur falsifizieren, nie bestätigen Ø H0 geht von einem „Null-Unterschied“/ „Null-Effekt“ aus Ø man hofft auf Daten, die gegen die Nullhypothese sprechen · wie wahrscheinlich sind die Daten der Stichprobe im Vergleich zu allen möglichen Stichproben, wenn die H0 gilt à p(D|H0) – p-Wert Ø sind die Daten unter der Hypothese unwahrscheinlich (also unwahrscheinlich als ein Grenzwert (alpha, Signifikanzniveau, häufig 5%), glaubt man lieber an H1 Ø Ergebnis ist demnach statistisch signifikant Ø sind die Daten mit H0 vereinbaren, sagt man sie habe sich bewährt
einseitiges & zweiseitiges Testen
zweiseitiger Test: H0 ablehnen, falls die Prüfgröße größer als der obere oder kleiner als der untere kritische Wert ist einseitiger Test „links“: H0 ablehnen, falls die Prüfgröße kleiner als der kritische Wert ist einseitiger Test „rechts“: H0 ablehnen, falls die Prüfgröße größer als der kritische Wert ist
Einflussgrößen auf den Standardfehler
Standardfehler (SE): Stichprobenverteilung des Mittels „Breite“ (Streuung) der Verteilungen aller möglichen Stichprobenergebnisse zum Mittelwert wird von 2 Faktoren bestimmt: 1. Standardabweichung in der Population je größer die Standardabweichung (oder Varianz) in der Population, desto größer der Standardfehler (SE) Stichprobengröße je größer die Stichprobe (n), desto kleiner der Standardfehler SE(x-quer) = sd(Pop) / √n
Logik des „Nullhypothesen testen“
1. Modell „unter H=“ erstellen 2. Daten erheben 3. Verrechnen der Daten zu einer Test-Statistik, die den Unterschied zwischen Modell und Empirie wiederspiegelt 4.Wahrscheinlichkeit errechnen, mit der diese Statistik auftreten würde, wenn kein Effekt vorliegt („unter H0“) 5. Entscheidung treffen: wenn p > alpha unwahrscheinlich, dass dieses Ergebnis eintritt, wenn H0 gilt H0 ablehnen wenn p >= alpha Ergebnis ist nicht unwahrscheinlich genug unter H0 H0 beibehalten
Alpha- und Beta-Fehler
beim inferenzstatistischen Testen kann man zwei Fehler machen man meint fälschlicherweise, einen Effekt entdeckt zu haben („Fehlalarm“) = Alpha-Fehler man entdeckt einen vorhandenen Effekt nicht („Übersehfehler“) = Beta-Fehler richtige Entscheidungen: man erkennt richtig, dass kein Effekt vorliegt man erkennt richtig, dass wirklich ein Effekt vorliegt
Teststärke (Power)
ist ein Effekt in der Population relativ klein, besteht die Gefahr, ihn zu übersehen je geringer die Teststärke (Power), desto größer ist diese Gefahr Stichprobe sollte groß genug sein, um „Unterpowerung“ zu vermeiden Power ist definiert als 1-beta
was der p-Wert nicht sagt
Beta-Fehler-Rate: z.B. 50% der Studien mit echtem Effekt werden fälschlicherweise als nicht signifikant eingeschätzt Alpha-Fehler-Rate: z.B. 10% der Studien mit „keinen Effekten“ werden fälschlicherweise als signifikant eingeschätzt
was der p-Wert nicht sagt
Beta-Fehler-Rate: z.B. 50% der Studien mit echtem Effekt werden fälschlicherweise als nicht signifikant eingeschätzt Alpha-Fehler-Rate: z.B. 10% der Studien mit „keinen Effekten“ werden fälschlicherweise als signifikant eingeschätzt Uns interessiert p(H|D), aber der p-Wert gibt stattdessen p(D|H) wieder beide Wahrscheinlichkeiten sind unterschiedlich p-Wert sagt nichts über die Wahrscheinlichkeit unserer Hypothese aus Missverständnisse zum p-Wert falsch: „signifikant heißt relevant“ bei großen Stichproben wird mit fast jedem Stichprobenergebnis die H0 verworfen jeder beliebig kleine nicht relevante Unterschied von Daten zu einer Hypothese kann bei großer Stichprobe signifikant werden ebenfalls wird ein starker (also relevanter) Effekt bei kleinen Stichproeben nicht signifikant falsch: „signifikant heißt, dass die H1 wahrscheinlich stimmt“ p-Wert gibt die Wahrscheinlich der Daten an, falls die H0 gilt ob die H0 gilt sagt der p-Wert nicht aus sagt nur, wie wahrscheinlich die Daten sind, falls die Hypothese gilt je kleiner der p-Wert, desto unwahrscheinlicher auch H0
Schätzen (Vertrauensintervalle)
Punktschätzung: x-quer ist der Schätzwert (Punktschätzer) für µ, den Mittelwert der Population ist fast nie genau richtig macht keine Aussagen über die Genauigkeit der Schätzung alternative Lösung: Schätzbereich angeben (Intervalllschätzung) Vertrauensintervall (Konfidenzintervall): µ +/- 2 SE wenn man unendlich viele Stichproben aus der Grundgesamtheit zeigt, werden 95% aller Stichproben höchstens 2 SE von µ entfernt sein Konfidenzintervall sagt nur, was passieren würde, wenn man unendlich viele Stichproben zieht ist für einzelne Stichprobenergebnisse nutzlos
Breite des Intervalls
untere Grenze (UG): x-quer – 2 SE ; Mittelwert der Stichprobe – 2x den Standardfehler obere Grenze (OG): x-quer + 2 SE ; Mittelwert der Stichprobe + 2x den Standardfehler allgemein: x-quer +/- z – a * SE je größer die Stichprobe und je kleiner die Streuung des Merkmals, desto präziser die Schätzungen è kleinerer Standardfehler und somit kleineres Vertrauensintervall ist die Null in einem 95%-Vertrauensintervall enthalten, bedeutet das, dass der Effekt nicht signifikant ist für alpha = 5% umgekehrt: ist die Null nicht im Vertrauensintervall enthalten, so ist der Effekt signifikant für das gegebene alpha Vertrauensintervalle enthalten also die Informationen eines Signifikanztests
Begriffe der Inferenzstatistik:
1. Stichprobenverteilung 2. Standardfehler 3. Signifikanzniveau, alpha 4. p-Wert 5. Alpha-Fehler, Beta-Fehler, Power 6. Vertrauensintervall 7. p (D|H) vs. p(H|D) 8. Nullhypothese 9. Bereich der Verwerfung, kritischer z-Wert 10. einseitiges vs. zweiseitiges Testen