SkalenniveauDifferenziert zwischen kategorialen und kontinuierlichen Variablen und jeweils zwei Untertypen. Legt fest, welche Art von Vergleiche möglich sind.
Verteilung: Die Verteilung einer Variable besteht aus deren Werte und (relative) Häufigkeit.
HäufigkeitstabelleListet alle Kategorien einer Variable und die Anzahl der Fälle pro Kategorie auf.
3 Typen von HäufigkeitenAbsolute Häufigkeit/Anzahl, relative Häufigkeit & kumulierte Häufigkeit/
HIstogramVisualisiert Verteilung von kontinuierlichen Variablen mittels gleich großer Balken. Zentral sind die Anzahl und Höhe der Balken.
Form einer VerteilungVariablen können sehr unterschiedlich verteilt sein. Vor allem wichtig ist, ob sie symmetrisch oder schief sind. Außerdem ist die Frage, ob sie mehrere Hochpunkte haben, also multi-modal sind.
LagemaßEin Kennwert, der den typischen Wert, das Zentrum, einer Verteilung versucht anzugeben.
MedianDefiniert das Zentrum einer Verteilung als den Wert, der die nach Werten sortierten Fälle einer Variable in zwei gleich große Hälften teilt. Eine Hälfte mit Werten über und eine unter dem Median.
PerzentilVerallgemeinerung des Medians für Werte, die in andere Einteilungen vornehmen, z.B. das 90% Perzentil teilt in die unteren 90% und obere 10%.
Arithmetrisches Mittelder klassische Durchschnitt: Alle Werte aufsummieren und durch die Anzahl der Fälle teilen.
StreuungWird über den Inter-Quartilsabstand, die Standardabweichung und die Varianz gemessen.
Inter-QuartilabstandDas Werte-Intervall einer Variable, indem die mittleren 50% der Fälle liegen. Es befindet sich zwischen dem 25% & 75%-Quartil.
BoxplotVisualisiert die wichtigsten Perzentil-basierten Lage und Streuungsmaße
VarianzDie Summe der quadrierten Abweichungen vom arithmetischen Mittel, geteilt durch die Anzahl der Fälle minus 1
StandandabweichungDie Quadratwurzel der Varianz, damit die Skala wieder der ursprünglichen Variable entspricht.
z-Standardisierung: Nutzt das arithmetische Mittel und die Standardabweichung als Vergleichsmaßstab. Werte jenseits -1 und 1 sind (innerhalb der vorliegenden Daten) untypisch/“extrem”. Erlaubt unterschiedliche Variablen ...
KreuztabelleZeigt Häufigkeiten von Fällen, die in den Kategorien zweier Variablen. Die Tabelle kategorisiert die Fälle auf beiden Variablen gleichzeitig.
Bedingte Verteilung: Zeigt die Verteilung einer Variable innerhalb der Kategorie einer anderen.
RandverteilungDie unbedingte/univariate Verteilung einer Variable in einer Kreuztabelle.
IndifferenztabelleHypothetische Kreuztabelle, die zeigt wie die bedingten Verteilungen aussehen, wenn zwei Variablen gar nicht im Zusammenhang miteinander stehen wurden.
x²Statistik/Kennzahl die die Stärke des Zusammenhangs zweier kategorialer Variablen angibt. Variiert zwischen 0 bis n.
Cramers VStandardisierung von chi2 auf eine Skala 0 bis 1 zur besseren Vergleichbarkeit.
ScatterplotTrägt die Variablenkombination yi, xi in einem Koordinatensystem ab. Visualisiert Richtung, Form & Stärke von Zusammenhängen zwischen kontinuierlichen Variablen.
AußreiserEin Fall, der stark vom typischen Muster abweicht und somit alle Kennziffern stark beeinflusst und potentiell verzerrt.
KorrelationKennzahl der Stärke des Zusammenhangs zwischen kontinuierlichen Variablen. Variiert zwischen -1 bis 1.
KovarianzSummiert anstatt der z-standardisierten Variablen(Korrelation) die Produkte yi mal xi. Ist ebenfalls eine Kennzahl der Stärke des Zusammenhangs zwischen kontinuierlichen Variablen, hat aber eine schwer ...
Varianz-Kovarianz-MatrixGibt die Kovarianzen zwischen Variablen an. Die Kovarianz einer Variable mit sich selbst ist die Varianz und diese finden sich daher auf der Diagonalen.
Statistische ModelleEine mathematische Gleichung oder Formel, die die Realität in simplifizierter Form versucht abzubilden
Parameter/ KoeffizientenNumerische Werte des Modells, die ausgesucht werden müssen, damit das Modell explizit spezifiziert ist.
Vorhergesagte WerteWerte für ¨ y, die auf Grundlage eines statistischen Modells und x vorhergesagt werden. Im linearen Modell liegen alle vorhergesagten Werte genau auf der Gerade.
ResiduenDie Unterschiede zwischen den vorhergesagten Werten und den tatsächlich beobachteten Werten, die meist nicht genau auf der Regressionsgeraden liegen.
SteigungEin Wert in “y-Enits per x-Einheiten”. Veränderungen von 1 in x sind assoziiert mit Veränderungen von — Einheiten in den vorhergesagten Werten ˆy.
Intercept/ KonstanteDer vorhergesagte Wert, wenn x = 0, hier schneidet die Regressionsgerade die Y-Achse.
OLSDie Parameter, die die beste Regressionsgerade spezifizieren, können identifiziert werden, indem die quadrierten Residuen minimiert werden: Ordinary Least Squares.
RegressionsgeradeDie eine Gerade unter allen möglichen, die das OLS Kriterium erfüllt, ist die Regressionsgerade.
Null-ModellWenn wir gar kein Modell spezifizieren, ist die beste Vorhersage für yi der Mittelwert ¯y. Das ist das Nullmodell. Es ist der Standard, gegen den wir die Gute einer OLS Regression vergleichen.