Muva (Fach) / Kodierung kategorialer Variablen (Lektion)
In dieser Lektion befinden sich 8 Karteikarten
7. Vorlesung
Diese Lektion wurde von Amalaswinthaa erstellt.
- Wie kodieren und was ist wichtig? - generell kann die Info einer kategorialen Variablen mit c Ausprägungen in c-1 Kodiervariablen eindeutig abgebildet werden Wichtig ist: - dass aus den Kodiervariablen eindeutig die Ausprägung der Variablen rekonstruiert werden kann - dass durch die Kodierung keine weiteren Annahmen implizit getroffen werden - jede Kodiervariable beinhaltet einen Teil der Info des Prädiktors - alle Kodiervariablen zusamen repräsentieren die gesamte im Prädiktor enthaltene Info
- Art der Kodierung Dummy-Kodierung - Vergleich mit einer Referenzgruppe - Beispiel Städte: Großstadt, Hauptstadt, Mittelstadt - Referenzkategorie hat auf allen Kodiervariablen den Wert 0 (hier Kleinstadt) - jede Kategorie hat nur auf einer einzigen Kodiervariable den Wert von 1 auf allen anderen den Wert 0
- Dummy Kodierung Interpretation des Regressionskoeffizienten - Achsenabschnitt b0: Mittelwert der Referenzkategorie - Gewichtungskoeffizienten (b1 und b2): Differenz zwischen Gruppenmittelwert und Mittelwert der Referenzkategorie
- Art der Kodierung Ungewichtete Effektkodierung - Referenzkategorie auf allen Kodiervariablen den Wert -1 - jede Kodiervariable für nur eine einzige Kategorie Wert 1, für alle anderen Wert 0
- Ungewichtete Effektkodierung Interpretation der Regressionskoeffizienten - Achsenabschnitt b0: ungewichteter Mittelwert der c Gruppen, d.h. der Mittelwert aller c Gruppenmittelwerte, ungeachtet der Tatsache, dass die Gruppen evtl. aus einer unterschiedlichen Anzahl an Vpn bestehen - Gewichtungskoeffizienten (b1 und b2): Differenz zwischen dem jeweiligen Gruppenmittelwert und dem ungewichteten Gesamtmittelwert - Mittelwert der Referenzgruppe ergibt sich aus: b0 - b1 - b2 - Die Differenz der Referenzgruppe zum Gesamtmittelwert ergibt sich aus: - b1 - b2
- Gewichtete Effektkodierung - hier wird für die Kodierung die Anzahl an Personen in den einzelnen Kategorien berücksichtigt - dann sinnvoll, wenn eine unterschiedliche Zellbesetzung nicht zufällig zustande kommt, sondern systematische Unterschiede abbildet, die auch in die Analyse einfließen sollen
- Inferenzstatistik - Kodiervariablen können gemeinsam oder einzeln auf Signifikanz geprüft werden - für die Signifikanzprüfung der Regressionsgleichung resultiert der selbe F-Wert wie in einer einfaktoriellen Varianzanalyse - Wert des Determinationskoeffizienten entspricht genau dem Eta2 der einfaktoriellen Varianzanalyse
- Mehrere kategoriale Variablen - jede davon wird nach dem vorgestellten Schema in Kodiervariablen zerlegt und die enstprechenden Kombinationen kodiert - außerdem werden Interaktionsvariablen gebildet, und zwar als Produkt jeder Kodiervariablen der einen UV mit jeder Kodiervariablen der anderen UV --> es werden (c1-1)*(c2-1) Variablen für die Interaktion benötigt