Statistik (Fach) / Basismodul (Lektion)

In dieser Lektion befinden sich 115 Karteikarten

..

Diese Lektion wurde von SOWI erstellt.

Lektion lernen

  • Daten Systematisch erfasste Informationen
  • Fall Eine Beobachtung/Untersuchungseinheit über die wir Daten haben
  • Variable Enthält Informationen über die gleiche Eigenschaft vieler Fälle
  • Kategoriale Variable Variable die in Kategorien unterscheidet
  • Kontinuierliche Variable : Variable die in Ausmaß oder Menge unterscheidet
  • Skalenniveau Differenziert zwischen kategorialen und kontinuierlichen Variablen und jeweils zwei Untertypen. Legt fest, welche Art von Vergleiche möglich sind.
  • Reliabilität Ist etwas Reproduzierbar?
  • Objektivität Ist etwas unabhängig vom durchfuhrenden ¨ Forschungsteam?
  • Validität  Misst etwas das, was es verspricht?
  • Verteilung : Die Verteilung einer Variable besteht aus deren Werte und (relative) Häufigkeit.
  • Häufigkeitstabelle Listet alle Kategorien einer Variable und die Anzahl der Fälle pro Kategorie auf.
  • 3 Typen von Häufigkeiten Absolute Häufigkeit/Anzahl, relative Häufigkeit & kumulierte Häufigkeit/
  • HIstogram Visualisiert Verteilung von kontinuierlichen Variablen mittels gleich großer Balken. Zentral sind die Anzahl und Höhe der Balken.
  • Form einer Verteilung Variablen können sehr unterschiedlich verteilt sein. Vor allem wichtig ist, ob sie symmetrisch oder schief sind. Außerdem ist die Frage, ob sie mehrere Hochpunkte haben, also multi-modal sind.
  • Lagemaß Ein Kennwert, der den typischen Wert, das Zentrum, einer Verteilung versucht anzugeben.
  • Modus Der häufigste Wert
  • Median Definiert das Zentrum einer Verteilung als den Wert, der die nach Werten sortierten Fälle einer Variable in zwei gleich große Hälften teilt. Eine Hälfte mit Werten über und eine unter dem Median.
  • Perzentil Verallgemeinerung des Medians für Werte, die in andere Einteilungen vornehmen, z.B. das 90% Perzentil teilt in die unteren 90% und obere 10%.
  • Arithmetrisches Mittel der klassische Durchschnitt: Alle Werte aufsummieren und durch die Anzahl der Fälle teilen.
  • Streuung Wird über den Inter-Quartilsabstand, die Standardabweichung und die Varianz gemessen.
  • Inter-Quartilabstand Das Werte-Intervall einer Variable, indem die mittleren 50% der Fälle liegen. Es befindet sich zwischen dem 25% & 75%-Quartil.
  • Boxplot Visualisiert die wichtigsten Perzentil-basierten Lage und Streuungsmaße
  • Varianz Die Summe der quadrierten Abweichungen vom arithmetischen Mittel, geteilt durch die Anzahl der Fälle minus 1
  • Standandabweichung Die Quadratwurzel der Varianz, damit die Skala wieder der ursprünglichen Variable entspricht.
  • z-Standardisierung : Nutzt das arithmetische Mittel und die Standardabweichung als Vergleichsmaßstab. Werte jenseits -1 und 1 sind (innerhalb der vorliegenden Daten) untypisch/“extrem”. Erlaubt unterschiedliche Variablen ...
  • Kreuztabelle Zeigt Häufigkeiten von Fällen, die in den Kategorien zweier Variablen. Die Tabelle kategorisiert die Fälle auf beiden Variablen gleichzeitig.
  • Bedingte Verteilung : Zeigt die Verteilung einer Variable innerhalb der Kategorie einer anderen.
  • Randverteilung Die unbedingte/univariate Verteilung einer Variable in einer Kreuztabelle.
  • Abhängige Variable /outcome Die Variable, deren Verteilung wir erklären möchten.
  • Prediktor/unabhängige /erklärende Variable Die Variable, deren Verteilung (unserer Ansicht nach) die Verteilung der abhängigen Variable vorhersagt/aufklärt.
  • Indifferenztabelle Hypothetische Kreuztabelle, die zeigt wie die bedingten Verteilungen aussehen, wenn zwei Variablen gar nicht im Zusammenhang miteinander stehen wurden.
  • Statistik/Kennzahl die die Stärke des Zusammenhangs zweier kategorialer Variablen angibt. Variiert zwischen 0 bis n.
  • Cramers V Standardisierung von chi2 auf eine Skala 0 bis 1 zur besseren Vergleichbarkeit.
  • Scatterplot Trägt die Variablenkombination yi, xi in einem Koordinatensystem ab. Visualisiert Richtung, Form & Stärke von Zusammenhängen zwischen kontinuierlichen Variablen.
  • Außreiser Ein Fall, der stark vom typischen Muster abweicht und somit alle Kennziffern stark beeinflusst und potentiell verzerrt.
  • Korrelation Kennzahl der Stärke des Zusammenhangs zwischen kontinuierlichen Variablen. Variiert zwischen -1 bis 1.
  • Kovarianz Summiert anstatt der z-standardisierten Variablen(Korrelation) die Produkte yi mal xi. Ist ebenfalls eine Kennzahl der Stärke des Zusammenhangs zwischen kontinuierlichen Variablen, hat aber eine schwer ...
  • Varianz-Kovarianz-Matrix Gibt die Kovarianzen zwischen Variablen an. Die Kovarianz einer Variable mit sich selbst ist die Varianz und diese finden sich daher auf der Diagonalen.
  • Statistische Modelle Eine mathematische Gleichung oder Formel, die die Realität in simplifizierter Form versucht abzubilden
  • Parameter/ Koeffizienten Numerische Werte des Modells, die ausgesucht werden müssen, damit das Modell explizit spezifiziert ist.
  • Lineare Modelle Gleichung der Form ˆy = – + —x
  • Vorhergesagte Werte Werte für ¨ y, die auf Grundlage eines statistischen Modells und x vorhergesagt werden. Im linearen Modell liegen alle vorhergesagten Werte genau auf der Gerade.
  • Residuen Die Unterschiede zwischen den vorhergesagten Werten und den tatsächlich beobachteten Werten, die meist nicht genau auf der Regressionsgeraden liegen.
  • Steigung Ein Wert in “y-Enits per x-Einheiten”. Veränderungen von 1 in x sind assoziiert mit Veränderungen von — Einheiten in den vorhergesagten Werten ˆy.
  • Intercept/ Konstante Der vorhergesagte Wert, wenn x = 0, hier schneidet die Regressionsgerade die Y-Achse.
  • OLS Die Parameter, die die beste Regressionsgerade spezifizieren, können identifiziert werden, indem die quadrierten Residuen minimiert werden: Ordinary Least Squares.
  • Regressionsgerade Die eine Gerade unter allen möglichen, die das OLS Kriterium erfüllt, ist die Regressionsgerade.
  • Residual sum of sqares Die aufsummierten Abweichungen von der Regressionsgerade.
  • Total sum of Sqares Die Aufsummierten Abweichungen vom Mittelwert ¯y.
  • Null-Modell Wenn wir gar kein Modell spezifizieren, ist die beste Vorhersage für yi der Mittelwert ¯y. Das ist das Nullmodell. Es ist der Standard, gegen den wir die Gute einer OLS Regression vergleichen.