Statistik (Fach) / Statistik A (Lektion)
In dieser Lektion befinden sich 23 Karteikarten
Einführung in die Statistik
Diese Lektion wurde von Sorina erstellt.
Diese Lektion ist leider nicht zum lernen freigegeben.
- Deskriptive/Beschreibende Statistik Statistik, die beschreibt, was der Fall ist. Welche Muster verbergen sich in den Vorliegenden Daten? 1. Deskription 2. Zusammenhänge
- Inferenzstatistik Statistische Kennzahlen, die uns helfen, über die konkret vorliegenden Daten hinaus zu verallgemeinern. Können wir generalisieren, z.B. die Ergebnisse auf eine Allgemeinheit übertragen?
- Daten Systematisch erfasste Informationen
- Fall i Eine Beobachtung/ Untersuchungseinheit über die wir Daten haben.
- Variable x Enthält Informationen über die gleiche Eigenschaft vieler Fälle.
- Kategoriale Variable Variable, die in Kategorien unterscheidet. Pure Unterscheidung aufgrund Andersartigkeit (z.B. Demokratie/Autokratie, Staatsbürger/Ausländer) Diskret/Qualitativ, Nominal, Ordinal (Rang)
- Kontinuierliche Variablen Relative Unterscheidung basierend auf Ausmaß oder Menge (z.B. Alter, Bevölkerungsdichte, Einkommen). Variable, die in Ausmaß oder Menge unterscheidet. Der Informationsgehalt kontinuierlicher Variablen ist tendenziell größer. Metrisch/Quantitativ: Intervall (Rang, konstante Distanzen), Ratio (Rang, konstante Distanzen, natürlicher Nullpunkt)
- Skalenniveau Differenziert zwischen kategorialen und kontinuierlichen Variablen und jeweils zwei Untertypen. Legt fest, welche Art von Vergleichen möglich sind.
- Qualitätskriterien einer Skala Objektivität: ist die Kodierung unabhängig vom Kodierer? Reliabilität: Ist die Kodierung reproduzierbar? Validität: Misst die Skala, was sie verspricht?
- Kodierung Weil Statistik angewandte Mathematik ist, muss alles zu Zahlen kodiert werden. Ziel der Kodierung ist die Transformierung von Information in ein numerisches Verhältnis (Skala). Sind Daten objektiv, reliabel und auf hohem Skalenniveau gemessen, dann sind numerische Werte vielseitig vergleichbar: - Objektiv: Über Forscherteams vergleichbar - Reliabel: Über wiederholte Messungen vergleichbar - Skalenniveau: Relativ zu den Werten anderer Fälle vergleichbar Zentrale Abwägung: Wie viel qualitativ valide Information geht durch Kodierung verloren? VS. Wie viel quantitative Vergleichbarkeit wird durch die Kodierung gewonnen?
- Häufigkeitsverteilung Jedem Wert einer Variablen wird eine Häufigkeit zugewiesen. Grafisch lässt sich das durch ein Histogramm darstellen: Für jedem Wertebereich (x-Achse) wird eine (relative) Beobachtungshäufigkeit (y-Achse) abgetragen.
- Drei zentrale Charakteristika von Verteilungen 1. Welche Form hat die Verteilung? 2. Was ist der typische Wert der Verteilung? (Was ist das Zentrum?) 3. Wie stark gestreut sind die Werte einer Verteilung? (Wie stark streuen die Beobachtungen vom Zentrum?)
- Lagemaße: Modus Häufigster Wert einer Verteilung. Ignoriert alles außer den häufigsten Wert.
- Lagemaße: Median Ab ordinalem Skalenniveau sinnvoll. Wert, der in der Mitte liegt, wenn man die Werte aller Beobachtungseinheiten der Größe nach sortiert. Identifiziert also die unteren und oberen 50%. Teilt Histogramm in zwei gleich große Flächen. Von Extremwerten unbeeinflusst. Berechnung: Beobachtungen nach Werten sortieren; Ist n gerade oder ungerade?; Gibt eine grobe Orientierung über die Werte einer Variable.
- Lagemaße: Arithmetisches Mittel Durchschnitt. Gibt eine grobe Orientierung über die Werte einer Variable. Wahrscheinlich die häufigste Statistik im Alltag. Nur für kontinuierliche Variablen sinnvoll (Ausnahme sind binäre/dichotome Variablen (z.B. Geschlecht). In diesem Fall ist das arithmetische Mittel identisch mit der relativen Häufigkeit des als 1 kodierten Merkmals. Liegt in der Mitte der Werte, nicht der nach Werten sortierten Beobachtungen. Sensibel für Extremwerte.
- Streuung Ohne Streuung keine Statistik. Statistik: Beschreibung und Aufklärung von Streuungen. Je größer die Streuung, desto weniger sagen uns Lagemaße, was typisch ist.
-
- Interquartile Range (IQR) Orientiert sich an der Median/Perzentil Logik (Abstände zwischen Quantilen). Distanz zwischen 25%- und 75%-Quartil: In diesem Bereich liegen die mittleren 50% aller Fälle. Je größer der Wert, desto mehr streuen die "typischen" Fälle. Wie der MEdian ignoriert die IQR extreme Werte.
- Boxplot Wichtigste Perzentilbasierte Lage- und Streuungsmaße auf einen Blick. Median: Linie innerhalb der Box. 25%- und 75%-Quartil: Unteres und oberes Ende der Box. Whiskers: Letzte Beobachtung innerhalb von 1,5xIQR. Extremwerte/Ausreißer: Punkte. Eignet sich gut für Gruppenvergleiche.
- Varianz Durchschnittliche quadrierte Abweichung vom Mittel.
- Standardabweichung Wie viel Abweichung vom Durchschnitt ist standard/normal? Fokus auf die Abweichung vom arithmetischen Mittel. Was ist die durchschnittliche Abweichung vom arithmetischen Mittel? Aber, Abweichungen aufsummiert = 0, daher werden sie quadriert (Varianz). Die Quadratwurzel der Varianz transformiert zurück auf ursprüngliche Skala.
- Z-Standardisierung Ein neuer Vergleichsmaßstab: Durchschnitt wird neuer Nullpunkt und die Standardabweichung neue Maßeinheit. Anstatt als Abstand zur 0, drücken wir die Leistung relativ zum Durchschnitt und in Standardabweichungen aus (z=2 heißt, dass eine Beobachtung 2 SD vom Mittel der Daten entfernt liegt). Nutzt das arithmetische Mittel und die Standardabweichung als Vergleichsmaßstab. Werte jenseits -1 und 1 sind (innerhalb der vorliegenden Daten) untypisch/"extrem". Erlaubt unterschiedliche Variablen auf einer gemeinsamen Skala zu vergleichen. Z-Standardisierung macht Werte über unterschiedliche Verteilungen hinweg vergleichbar. Verglichen wird dann die relative Position in einer normierten Verteilung.
- Quantile Quantile beziehen sich auf Beobachtungen, nicht auf den Wertebereich. Prozent: Perzentile Dezile (10er Schritte), Quintile (Fünftelung), Quartile (Viertelung) Der Median ist gleichzeitig das 50. Perzentil, das 5. Dezil und das 2. Quartil
- Verteilungen Verteilungen unterscheiden sich nicht nur nach Mittelwert und Streuung, sondern auch nach ihrer Schiefe. Linksschief - Wenige Beobachtungen haben relativ niedrige, viele Beobachtungen haben relativ hohe Werte (Lebenszufriedenheit). Rechtsschief - Wenige Beobachtungen haben relativ hohe, viele Beobachtungen haben relativ niedrige Werte (Einkommen, Publikationen, Alkoholkonsum).