Statistik (Fach) / F6 - Korrelationsmaße (Lektion)

In dieser Lektion befinden sich 15 Karteikarten

Deskriptive Auswertung bivariater und multivariater Verteilungen 04_1

Diese Lektion wurde von tillba erstellt.

Lektion lernen

  • Korrelation wenn zwei Variablen korrelieren, kann man von den Ausprägungen der einen Variablen auf die Auspärgungen der anderen schließen
  • Kreuzproduktsumme (Messwert X - Mittelwert X) * (Messwert Y - Mittelwert Y)
  • empirische Kovarianz -> zwei metrische Variablen Sxy = 1/n * KPS -> Kreuzproduktsumme relativiert an der Anzahl n die Varianz ist die Kovarianz eines Merkmals mit sich selbst wenn eine Variable eine Konstante ist, dann ist die Kovarianz gleich 0 reagiert sensitiv auf Ausreißerwerte es ist möglich, verschiedene n miteinander zu vergleichen, nicht aber unterschiedliche Maßeinheiten
  • Produkt-Moment-Korrelation -> zwei metrische Variablen Korrelation von z-Transformierten Variablen rxy = Sxy / Sx * Sy -> Kovarianz geteilt durch das Produkt der Standardabweichungen liegt immer zwischen -1 und 1: 0,10; 0,30; 0,50 nicht definiert, wenn eine der beiden Variablen eine Konstante ist reagiert sensitiv auf Ausreißer Addition/Multiplikation von Kostanten ändert nichts am Wert der Korrelation
  • Kendalls Tau -> zwei ordinalskalierte Variablen singuläre Daten ohne Rangplatzbindungen Konkordanzen - Diskordanzen / Konkordanzen + Diskordanzen vollständiger Paarvergleich auf 2 Variablen Koeffizient liegt zwischen -1 und +1
  • der γ-Koeffizient -> zwei ordinalskalierte Variablen kategoriale Daten mit geordneten Antwortkategorien gewichtet nur eindeutige diskordante/konkordante Beziehungen Konkordanzen - Diskordanzen / Konkordanzen + Diskordanzen alle Objekte stehen mit denjenigen Objekten in einer konkordanten Beziehung, die auf beiden Merkmalen einen höheren Wert haben alle Objekte stehen mit Denjenigen Objekten in einer diskordante Beziehung, die auf dem einem Merkmal einen höheren und auf dem anderen Merkmal einen geringeren Wert haben Koeffizient liegt zwischen -1 und +1
  • e-Koeffzient von Wilson -> zwei ordinalskalierte Variablen singuläre Daten mit Rangbindungen Rangbindungen auf beiden Merkmalen werden nicht beachtet Rangbindungen auf nur einem Merkmal (X/Y) -> nB nK - nD / nK + nD + nBx + nBy
  • dichotome Variablen haben nur zwei Ausprägungen werden zu Indikatovariablen, wenn man ihnen die Werte 0 und 1 zuordnet Mittelwert ist die relative Häufigkeit der mit 1 kodierten Variable Varianz ist gleich dem Produkt der relativen Häufigkeiten (max. 0,25)
  • Korrelationskoeffizient φ - dichotome nominalskalierte Variablen entweder mit Produkt-Moment-Korrelation oder mithilfe von Kontingenztafeln berechenbar Wertebereich von -1 bis +1 (nurmöglich bei derselben Randverteilung beider Merkmale) Vorzeichen hängt lediglich davon ab, wie die Variablen kodiert wurden
  • Yules Q - dichotome nominalskalierte Variablen Konkordanzen - Diskordanzen / Konkordanzen + Diskordanzen Wertebereich von -1 bis +1
  • Q oder Phi? Q, wenn ein metrisch gedachtes Merkmal erfasst wird (z.B. Glück) -> Kontinuum von gut bis schlecht o.ä. Phi, wenn natürliche Kategorien vorhanden sind (z.B. Geschlecht) -> Vorhersage, um von der einen auf die andere Variable zu schließen
  • Chance Verhältnis zweier Häufigkeiten "Die Chance ist ... so hoch, dass..."
  • Odds Ratio Verhältnis zweier Chancen wenn OR=1, dann kein Zusammenhang; untere Grenze = 0
  • χ2 -Koeffizient - zwei polytome nominalskalierte Variablen beobachtete vs. erwartete (wenn Unabhängigkeit vorliegt) Häufigkeiten Berechnung von erwarteten Häufigkeiten -> Multiplikationstheorem: (Zeilensumme*Spaltensumme) / n Berechnung von Chi2: (empirische-erwartete H.)² / erwartete Häufigkeit -> alle Zellen aufsummieren bedingte relative Häufigkeit: Zelle/Spalten- oder Zeilensumme -> wenn in kompletter Spalte/Zeile gleich, dann unabhängig je größer der Wert, desto größer der Zusammenhang -> nach oben hin keine Grenzen
  • Assoziationsmaß V nach Cramér -> zwei polytome nominalskalierte Variablen Wurzel aus: Chi² / n*(s-1) wobei s gleich der Anzahl von Messwertkategorien der Variablen mit der geringeren Anzahl von Messwertkategorien variiert zwischen 0 und 1