Statistik (Fach) / Teil 1 (Lektion)

In dieser Lektion befinden sich 49 Karteikarten

.

Diese Lektion wurde von Susanita erstellt.

Lektion lernen

  • Bernoulli-Variablen = Zufallsvariablen mit zwei Werten
  • Voraussetzungen t-Test 1. normalverteilte Daten 2. kontinuierliche Daten 3. gleiche Varianzen (=Homoscedastizität) 4. unabhängige Stichproben
  • Was besagt p? umgangssprachlich: Wahrscheinlichkeit, dass die Nullhypothese zutrifft. exakt: Wahrscheinlichkeit, dass gefundene oder noch größere Unterschiede zwischen den Mittelwerten zufällig zustande kommen, ...
  • Nullhypothese und Alternativhypothese im zweiseitigen ... H0 = Die Mittelwerte der Grundgesamtheiten sind gleich = μA = μB HA = Die Mittelwerte sind nicht gleich =    μA ≠ μB
  • Bedeutung von Varianz und Standardabweichung = mathematische Maßnahmen zur Beschreibung der Streuung in den Daten
  • Bedeutung Standardfehler - zeigt an wie genau der Mittelwert geschätzt ist - wird kleiner, je größer die Stichprobe ist - Anhand der Standardfehler lässt sich die Signifikanz gefundener Unterschiede beurteilen!
  • α-Fehler und β-Fehler Typ-1 und Typ-2 Fehler: α-Fehler: wenn man etwas sieht, was es gar nicht gibt              Wahrscheinlichkeit für α-Fehler: 5% (bzw. entsprechendes Signifikanzniveau)   -> H0 fälschlicherweise abgelehnt β-Fehler: ...
  • Warum wird beim Testen immer von der H0 ausgegangen? ... 1. Es soll gegen falsche Schlüsse abgesichert werden: besser keine als falschen Schlüsse aus den Daten ziehen (konservatives Verfahren). 2. Nur mit einer konkreten Verteilungsannahme, wie sie bei der ...
  • Voraussetzungen ANOVA 1. normalverteilte Daten 2. kontinuierliche Daten 3. gleiche Varianzen (=Homoscedastizität) 4. unabhängige Stichproben
  • Ausgehend von zwei Stichproben, deren Mittelwerte ... - Durch die neue Stichprobe erhöht sich die Quadratsumme zwischen den Stichproben nicht, jedoch erhöhen sich die Freiheitsgrade. - Damit verringert sich die mittlere Quadratsumme (mean sum of square), ...
  • funktionelle Abhängigkeit eine Kenngröße hängt von der anderen ab, in festgelegter Reihenfolge (z.B. Alter beeinflusst Blutdruck, aber nicht anders herum)
  • Residuum die Abweichung vom gewünschten Ergebnis, welche entsteht, wenn in eine Gleichung Näherungslösungen eingesetzt werden
  • Voraussetzungen lineare Regression 1. x-Werte exakt bekannt 2. für jeden x-Wert gibt es eine Population normalverteilter y-Werte 3. gleiche Varianzen der y-/Residuen- Populationen 4. die Mittelwerte der y-Populationen zu verschiedenen ...
  • Lineare Regression, Pearson Korrelation, Spearman ... 3 Verfahren zur Bestimmung, ob eine Beziehung zwischen x und y besteht.
  • Lineare Regression - wann? - funktionelle Abhängigkeit zwischen x (Prädiktor) und y (Antwort)- verwendet, um eine lineare Beziehung zwischen x und y zu bestimmen.- Hypothesentest (oft: H0: b = 0) möglich, wenn bestimmte Anforderungen ...
  • Pearson Korrelation - wann? - keine funktionale Abhängigkeit zwischen x und y- verwendet, um die lineare Beziehung zwischen x und y zu bestimmen.- Hypothesentest (H0: rxy = 0) möglich, wenn bestimmte Anforderungen erfüllt sind.- ...
  • Spearman Rangkorrelationskoeffizient - wann? - keine funktionale Beziehung zwischen x und y- auch für nichtlineare Beziehungen; keine besonderen Anforderungen an Daten
  • indirekte Ordination = Ordnung, bzw. Anordnung; meint eine Anordnung von Objekten in einem Raum, in dem Gemeinsamkeiten der Objekte nicht verdeutlicht werden) indirekt meint, dass die untersuchten Objekte die relative Lafe ...
  • Rohdaten bereinigte Daten Rohdaten= nicht transformierte Ausgangsmatrix bereinigte Daten = evtl. transformierte Ausgangsmatrix
  • Homoskedastizität = gleiche Varianzen (nicht signifikant unterschiedlich)
  • Voraussetzungen Two-Way ANOVA - Normalverteilung der abhängigen Variablen - Varianzhomogenität - Unabhängigkeit der Werte der Gruppen untereinander, d.h. die Werte sind nicht verbunden - gleicher Stichprobenumfang der Gruppen (=balanciert) ...
  • SSG SSE SST SSG= Quadratsummen zwischen den Gruppen SSE= Quadratsummen innerhalb der Gruppen SST= Gesamt-Quadratsumme
  • Post-hoch Tests geben mit paarweisen Mittelwertvergleichen Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden
  • Korrelation = es gibt einen Zusammenhang von y und x, aber keine Abhängigkeit (das Vorhandensein einer Korrelation impliziert keinen kausalen Zusammenhang, schließt ihn aber auch nicht aus)
  • Voraussetzungen Pearson - intervallskalierte Daten - x und y Daten normalverteilt - linearer Zusammenhang zwischen x und y
  • Werte für rxy und rs können Werte von -1 bis 1 annehmen +1 -> perfekte positive Korrelation -1 -> perfekte negative Korrelation 0 -> keine Korrelation
  • Mann-Whitney U Test 1. Daten nach Rängen ordnen (Gruppen ignorieren) 2. Ränge der jeweiligen Gruppen zusammen rechnen 3. U für beide Gruppen berechnen 4. Teststatistik U: größerer der U Werte -> wenn U größer als ...
  • Mann-Whitney U Test - wann anwenden? - bei nicht normalverteilten Daten - Ordinaldaten - Verteilung der Daten sollte ähnlich sein 
  • Wilcoxon Test Median einer Stichprobe testen: signifikanter Unterschied vom Erwartungswert? H0: Median =  1. Differenz zwischen tatsächlichem und erwartetem Wert 2. absolute Differenz nach Rang ordnen 3. negative ...
  • Wilcoxon Test - wann? - bei nicht normalverteilten Daten - bei Einzelstichproben oder gepaarten Stichproben
  • Chi-quadrat Test auf Unabhängigkeit Weicht die beobachtete Frequenz deutlich von der erwarteten Frequenz ab? H0: die beobachtete Frequenz folgt der erwarteten Verteilung auf Unabhängigkeit: Wenn d.f.=1 und mind. ein erwarteter Wert ...
  • Tests auf Normalverteilung 1. grafische Methoden: Q-Q-Plot 2. statistische Tests: Shapiro-Wilk W-Test
  • wann Log-Transdormation? - wenn Effekte mehrerer Faktoren multiplikativ statt additiv - wenn Standardabweichungen der Gruppe proportional zu den Mittelwerten - wenn Daten "rechts-schiefe" Verteilung haben
  • Arten von Datentransformationen - Log-Transformation - Wurzel-Transformation - arc sin-Transformation - reziproke Transformation - Quadrat-Transformation
  • Wann Wurzel-Transformation? - wenn Varianzen der Gruppen proportional zu den Mittelwerten - wenn Daten der Poisson-Verteilung folgen
  • Voraussetzungen Multiple lineare Regression - lineare Zusammenhänge - einseitige Abhängigkeit der Variablen und unabhängige Variablen sollten untereinander möglichst nicht korreliert sein  - homogene Varianz der Residuen (Homoskedastizität) ...
  • Vorgehen Multiple lineare Regression - Festlegung von x (unabhängige Variable) und y - Schätzung der Regressionsfunktion auf Basis empirischer Daten - Ermittlung der Regressionsparameter - Prüfung der Güte der Schätzfunkzion
  • Vorgehen Multiple lineare Regression - Festlegung von x (unabhängige Variable) und y - Schätzung der Regressionsfunktion auf Basis empirischer Daten - Ermittlung der Regressionsparameter - Prüfung der Güte der Schätzfunkzion
  • Voraussetzungen gemischte lineare Modelle - identisch mit einfacher/multipler linearer Regression - feste und zufällige Effekte sind sehr sorgfältig auszuwählen - man sollte versuchen Abhängigkeiten aufzulösen - Stichprobe sollte hinreichend ...
  • Gemischte lineare Modelle - Verfahren - Festlegung von y und den festen und zufälligen Effekten - Datensatz einlesen, auf Vollständigkeit überprüfen - Konstruktion des 1. Modells  - Konstruktion des 2. Modells - Prüfung auf Signifikanzen ...
  • logistische Regression - Voraussetzungen - abhängige Variable muss dichotom sein - Beobachtungswerte der abhängigen Variable sollten sich nicht zu stark unterschreiden (gleich großes N) - keine Mutli-Kollinearität 
  • logistische Regression - Verfahren - Festlegung von x und y für die Modellbildung - Schätzung der logistischen Regressionsfunktion - Interpretation der/des Regressionskoeffizienten - Prüfung des Gesamtmodells - Prüfung der Merkmalsvariablen ...
  • PCA = Hauptkomponentenanalyse - Ordinationsverfahren, um mit Hilfe einer linearen Transformation der Variablen möglichst wenige neue "supervariablen" zu erzeugen, welche die Redundanz möglichst effektiv ...
  • PCA - Vorgehen die im Koordinatensystem angeordneten Daten, z.b: Art-Abundanzen, werden nicht verändert, aber das Koordinatensystem wird verändert, so dass auf die 1. Achse möglichst viel erklärte Varianz entfällt ...
  • Voraussetzungen PCA erfordern Vorkentnisse zum Datensatz - die Arten stehen linear oder monoton miteinander in Beziehung und auch mit den latenten Faktoren - Ausgangsvariablen sollten hoch korreliert sein - Daten müssen ...
  • Clusteranalyse - Forschungsfrage lassen sich in einer Vielzahl von Objekten Gruppen finden, innerhalb derer die Objekte möglichst ähnlich sind, aber zwischen den Gruppen möglichst unterschiedlich?
  • Clusteranalyse - Voraussetzungen - wenn auf Grundgesamtheit zurückgeschlossen werden soll, muss die Stichprobe hinreichend große sein (n=30, besser >50) - sofern Einzelwerte fehlen, müssen diese vor der Clusteranalyse bereinigt werden ...
  • Linkage - Methoden - single linkage = nächster Nachbar - complete linkage = Paarvergleich mit allen Objekten - average linkage = Paarvergleich zwischen den Gruppen - centroid = zentroid-Abstand
  • Intertia = erklärte Varianz