Muva (Fach) / Mehrebenenmodelle (Lektion)

In dieser Lektion befinden sich 37 Karteikarten

9./10. Vorlesung

Diese Lektion wurde von Amalaswinthaa erstellt.

Lektion lernen

  • Warum keine lineare Regression? Konzeptuelles Problem - Stärke und Richtung des Zusammenhangs zweier Variablen kann sich systematisch zwischen Gruppen unterscheiden  --> nicht möglich, diese Unterschiede mit zusätzlichen Prädikotren zu erklären - Stärke und Richtung des Zusammenhangs zweier Variablen kann sich zwischen verschiedenen Ebenen unterscheiden 
  • Simpson-Paradoxon und ökologischer Fehlschluss Simpson Paradoxon = Zusammenhang zwischen X und Y hat innerhalb der Gruppen ein anderes Vorzeichen als zwischen den Gruppen Ökologischer Fehlschluss = auf Gruppenebene gefundener Zusammenhang wird fälschlicherweise auf Individualebene interpretiert
  • Probleme hierarchischer Datenstrukturen: ökologischer Fehlschluss = Effekt, der auf Gruppenebene vorhanden ist, wird auf der ebene der Personen interpretiert (Effekt auf Level 2 auf Level 1 attribuiert) im Beispiel Arbeitszufriedenheit gibt es: - über alle Gruppen hinweg (d.h. für alle Gruppen ungeachtet ihrer Firmenzugehörigkeit) einen negativen Zusammenhang zwischen Zufriedenheit und Verantwortung - auf Ebene der Gruppenmittelwerte einen negativen Zusammenhang zwischen Zufriedenheit und Verantwortung - innerhalb der Gruppen einen positiven Zusammenhang zwischen Zufriedenheit und Verantwortung
  • Warum keine lineare Regression? Statistisches Problem - Menschen sind anderen Menschen in ihrer Gruppe ähnlicher als Menschen aus anderen Gruppen - Folge: Residuen sind nicht unabhängig --> Standardfehler wird unterschätzt, Inflation des Typ-I-Fehlers (α)
  • Vorteile von Mehrebenenmodellen - hiarchische Struktur und die Abhängigkeit innerhalb der Gruppen werden berücksichtigt - Simulaten Modellierung der Zusammenhänge auf mehreren Ebenen → ANalyse von Unterschieden zwischen Personen (Personenebene) →Analyse von Unterschieden zwischen Gruppen (Gruppenebene) → EIgenschaften der Gruppen als Moderatorvariablen - sehr gut geeignet für die Analyse längsschnittlicher Daten
  • Elemente der Mehrebenenmodelle - berücksichten, dass sich die Gruppen hinsichtlich ihres Mittelwertes ind er abhängigen Variable unterscheiden können - berücksichtigen, dass die Beziehung zwischen einer Prädiktorvariablen und der AV verschieden sein kann - wenn sich UNterschiede zwischen Gruppen nicht vorhersagen lassen, werden sie als "zufällig" bezeichnet - Gewicht der Prädiktorvariablen kann in allen Gruppen gleich oder unterschiedlich sein (b1: Steigung) - Gruppenspezifische Mittelwerte werden durch unterschiedliche Konstanten (Achsenabschnitte, b0) beschrieben
  • Level 1 Modell mit einem Prädiktor Regressionsgleichung ohne Mehrebenenstruktur: Ym = b0 + b1Xm+em Level-1 Modell mit einem Prädiktor: Ymi = β0i + β1iXmi + εmi    (i = Gruppe, m = Individuum)
  • Level-1 Gleichungen mit einem Prädiktor Level 1: Ymi = β0i + β1iXmi + εmi Level 2: β0i = γ00 + γ01Zi + υ0i  und β1i = γ10 + γ11Zi + υ1i γ = feste Effekte υ = Zufallseffekte xmi = Prädiktor auf Individualebene Zi = Prädiktor auf Gruppenebene (Level 2 Prädiktor)
  • Feste und zufällige Effekte - systematische und unsystematische Varianz wird den unterschiedlichen Ebenen zugeordnet - feste Effekte = für alle Personen gleich --> hier wird der Wert geschätzt - "Fehlerterme" = zufällige Effekte, lassen sich den verschiedenen Ebenen zuordnen; --> hier wird die Varianz geschätzt 
  • Bezeichnungen und Regressionsgleichung Personen: Level 1 Einheiten: Laufindex m; 1 bis nLevel-1 Gruppen: Level 2 Einheiten: Laufindex i; 1 bis nLevel-2 Regressionsgleichung (Population): ymi = β0i + β1iXmi + εmi --> beschreibt, dass b0 und b1 gruppenspezifisch (i) sind --> verschiedene Regressionsgleichungen für jede Gruppe - um deutlich zu machen, was für alle Gruppen ("fest") ist und worin sich die Gruppen unterscheiden, werden die Regressionskomponenten zerlegt γ = für alle Gruppen gemeinsame  Komponente; υ = gruppenspezifische Abweichung - für die obige Gleichung gibt es je ein γ für die Koeffizienten β0 und β1; bekommt noch den Index 0 = Mittelwert über alle Gruppen γ00 = Mittelwert der gruppenspezifischen Achsenabschnitte; γ01 = Mittelwert der gruppenspezifischen Steigungen - es gibt für jeden Regressionskoeffizienten (0 und 1) und jede Gruppe einen anderen "zufälligen" Wert υ0i = der für die jeweilige Gruppe (i) von γ00 abweichende Achsenabschnitt, υ1i = der für die jeweilige Gruppe (i) von γ00 abweichende Steigung bzw. Gewicht
  • Zerlegung der Regressionskoeffizienten β0i = γ00 + υ0i β1i = γ10 + υ1i - Regressionsgleichung lässt sich deshalb auch umformen in: Ymi = γ00 + γ10Xmi + υ0i + υ1iXmi + εmi - der Einfluss der Gruppen auf die AV zeigt sich darin, dass sich die Gruppen hinsichtlich der Werte für υ0i oder υ1i unterscheiden - sind die Unterschiede klein, können sie auf den Zufall zurückgeführt werden - man könnte von gemeinsamen Regressionskoeffizienten über alle Gruppen hinweg ausgehen; Unterscheidung der Gruppen wäre überflüssig
  • 5 Grundmodelle 1. Nullmodell (Intercept-Only Modell) 2. Modell mit Level 1- Prädiktoren ohne Level 2 Residuen für deren Steigungskoeffizienten (Random-Intercept-Modell) 3. Modell mit Level 1-Prädiktoren mit Level 2-Residuen für deren Steigungskoeffizienten (Random-Coefficients-Modell) 4. Modell mit Level 2-Prädiktoren für den Level 1-Achsenabschnitt 5. Modell mit Level 2-Prädiktoren für die Level 1-Steigungskoeffizienten (Cross-Level-Interaktionen)
  • Intercept-Only-Modell "Gibt es systematische Varianz in der AV?"; "Ist die Varianz auf Unterschiede innerhalb oder zwischen den Gruppen zurückzuführen?" - Modellgleichung auf Level 1: Ymi = β0i + εmi - Modellgleichung auf Level 2: β0i = γ00 + υ0i
  • Intercept-Only-Modell Bedeutung - einfachstes Modell - enthält einen zufälligen Effekt der Gruppe - enthält noch keinen Prädiktor - dient der Bestimmung der Gruppenunterschiede - dient als Vergleich für komplexere Modelle γ00 = gemeinsamer Achsenabschnitt/Mittelwert (fester Effekt) υ0i = gruppenspezifischer Achsenabschnitt/Mittelwert (zufälliger Effekt) εmi = individueller Fehler (zufälliger Effekt)
  • Intercept-Only-Modell Interpretation der Koeffizienten Level 1:    Ymi = β0i + εmi Level 2:     β0i = γ00 + υ0i β = Gruppenmittelwerte ε = Abweichungen der individuellen Werte vom Gruppenmittelwert γ = Gesatmittelwert über alle Gruppen hinweg υ = Abweichung des Gruppenmittelwertes vom Gesamtmittelwert
  • Intraklassenkorrelation ρ = Varianz auf Level 2 : Gesamtvarianz - Korrelation (Ähnlichkeit) zwischen Werten auf der Kriteriumsvariable von zwei zufällig gezogenen Level 1-Einheiten aus derselben zufällig gezogenen Level 2-Einheit - Anteil der Gesamtvarianz an der Kriteriumsvariable der auf die Zugehörigkeit zu einer Level 2-Einheit zurückgeführt werden kann
  • Intraklassenkorrelation (ICC) Erfassung der Abhängigkeit innerhalb der Level 2-Einheiten - berechnen, wie stark die Abhängigkeit zwischen den Personen der selben Level 2-Einheit ist - dazu muss die "Gruppenteilung" bekannt sein (d.h. man miuss wissen, dass man z.B. nach Unterschieden zwischen Klassen/Firmen sucht) - ist dann hoch, wenn es große Unterschiede der Mittelwerte der AV zwischen Level 2-Einheiten bezüglich der AV gibt Gesamtvarianz = VarianzLevel 1 + VarianzLevel-2 - bei der Berechnung der ICC aus den Stichprobendaten muss berücksichtigt werden, dass die Stichprobenvarianzen keine erwartungstreuen Schätzer der Populationsvarianzen sind
  • Verschiedene Möglichkeiten der Berücksichtigung von Abhängigkeiten der Daten 1. ist bekannt, worin sich die einzelnen Level 2-Einheiten unterscheiden, kann die entsprechende Variable als weiterer Prädiktor aufgenommen werden (z.B. wirtschaftlicher Erfolg der Firma) --> funktioniert nur, wenn eine einzige (oder wenige) Ursache dafür verantwortlich ist 2. Gruppenvariable kann als UV aufgenommen werden; damit werden die Unterschiede zwischen den Gruppen im Modell berücksichtigt (empfohlen bei wenigen Gruppen) 3. Hierarchische lineare Modelle können die Abhängigkeit flexibel abbilden und analysieren; viele Level 2-Einheiten nötig
  • Random-Intercept Modell - Varianz in den Achsenabschnitten aber nicht in den Steigungskoeffizienten - Level 1-Modell mit einem Prädiktor: Ymi = β0i + βiXmi + εmi - Level 2: β0i = γ00 + υ0i und β1 = γ10 γ00 = Mittlerer Achsenabschnitt; υ0i = mittlere Abweichung vom durchschnittlichen Achsenabschnitt γ10 = Steigung (kein Fehlerterm, d.h. Steigung ist in allen Gruppen gleich) -Gesamtmodell: Ymi = γ00 + γ10Xmi + υ0i + εmi
  • Bedeutung: Random-Intercept Modell - dem Parameter γ10 kann man entnehmen, ob der Prädiktor über die Gruppen hinweg das Kriterium vorhersagen kann - ist er = 0, besteht keine Beziehung zwischen Prädiktor und Kriterium (über alle Gruppen)
  • Modellanpassung und Modellvergleich: Varianzaufklärung eines Prädiktors - um zu quantifizieren, wieviel Varianz ein Prädiktor aufklärt, vergleicht man die Residualvarianz im Modell, das den Prädiktor enthält (Random-Intercept-Modell) mit der Residualvarianz im Modell, das den Prädiktor nicht enthält (Intercept-Only-Modell) - entspricht dem Konzept der Nützlichkeit/Inkrement der multiplen Regression - dabei wird meist nur Residualvarianz auf Level 1 berücksichtigt (bei Prädiktor auf Level 1) - aufgrund des Schätzverfahrens resultieren allerdings keine echten R2-Werte, deshalb spricht man von Pseudo-R2
  • Random-Coefficients-Modell - Varianz in den Achsenabschnitten UND in den Steigungskoeffizienten - Level 1: Ymi =β0i + β1iXmi + εmi - Level 2: β0i = γ00 + υ0i   und   β1i = γ10 + υ1i γ00 = mittlerer Achsenabschnitt υ0i = gruppenspezifische Abweichung vom mittleren Achsenabschnitt γ10 = mittlere Steigung υ1i = gruppenspezifische Abweichung von der mittleren Steigung
  • Random Coefficients Modell Gesamtmodell Ymi = γ00 + γ10Xmi + υ0 i+ υ1iXmi + εmi
  • Random Coefficients Modell Residualvarianzen und Kovarianzen Kombinierte Modellgleichung: Ymi = γ00 + γ10Xmi + υ0i + υ1iXmi + εmi Var(εmi) = Varianz des Level 1-Residuums Var( υ0i) = Varianz des Level 2-Residuums bzw. des Achsenabschnittes Var(υ1i) = Varianz des Level 2-Residuums bzgl. des Steigungskoeffizienten Cov(υ0i, υ1i) = Kovarianz der Level 2-Residuen bzgl Achsenabschnitt und Steigungskoeffizienten
  • Schätzung der Modellparameter - Modellparamter = konkrete Werte, z.B. Regressionskoeffizienten - "normale" lineare Regression: Methode der kleinsten Quadrate - Multilevel-Modelle: Maximum Likelihood Schätzung - Likelihood = Wahrscheinlichkeit einer beobachteten Datenstruktur bei gegebenen Modellparamtern
  • Maximum-Likelihood-Methode - es wird das Modell gesucht, für das die beobachteten Daten am wahrscheinlichsten sind - iteratives Verfahren, d.h. verschiedene Modelle werden schrittweise ausprobiert und verbessert - Verfahren ist beendet, wenn eine Veränderung der Parameter keine Veränderung des Wertes der Likelihood-Funktion ergibt ("Konvergenz") - Für jede Parameterschätzung nimmt die Likelihood-Funktion einen bestimmten Wert an, d.h. es werden bestimmte Werte für die zu schätzenden Parameter eingesetzt und jeweils der Wert der Likelihoodfunktion bestimmt: "WIe wahrscheinlich ist es, dass die beobachteten Daten aufgetreten wären, wenn die Parameter "richtig" wären?" - Paramterschätzung ist am besten, für die der Wert der Likelihoodfunktion am größten ist
  • Statistische Tests Tests für die Koeffizienten (feste Effekte) - Einzelner Koeffizient: t-Test oder Wald-Test; mehrere Koeffizienten: Modellvergleich (vgl. Hierarchische Regressionsanalyse) Test für die Varianzkomponenten (Zufallseffekte): Modellvergleich Modellvergleich: - bei geschachtelten Modellen: Devianztest (Likelihood Ratio Test) - bei nicht-geschachtelten Modellen: Deskriptiver Vergleich der Informationskriterien (z.B. AIC)
  • Test für einzelne feste Effekte -Prüfgröße: Koeffizient geteilt durch Standardfehler (vgl. Regressionsanalyse) --> t-Wert - Problem: Freiheitsgrade der Stichprobenkennwerteverteilung sind nicht eindeutig definiert - Lösung: approximative Freiheitsgrade --> SPSS und R: Approximation nach Satterthwaite
  • Test der Zufallseffekte Frage: Unterscheiden sich Level 2-Einheiten in den Steigungskoeffizienten eines Level 1-Prädiktors? Lösung: Modellvergleich mittels Devianztest - Voraussezung für den Test: Modelle sind geschachtelt - Modell 2: Steigungskoeffizienten sind in allen Gruppen gleich (Random-Intercept-Modell) - Modell 1: Steigungskoeffizienten variieren zwischen den Gruppen (Random-Coefficients-Modell)
  • Devianz - Maximum Likelihood Schätzmethoden maximieren die log-likelihood (LL) - erreichte LL einer Schätzung wird im Output ausgegeben - je größer LL, desto besser passt das Modell auf die Daten - Devianz (Dev): Dev = -2 LL - je kleiner die Devianz, desto besser passt das Modell auf die Daten
  • Modellanpassung und Modellvergleich - der Wert der Likelihoodfunktion hat an sich keine Bedeutung (keine normierte Größe) - zwei Modelle, die ineinander geschachtelt sind, können aber anhand des Wertes ihrer Likelihood Funktion miteinander verglichen werden - zwei Modelle sind dann ineinander geschachtelt, wenn die Parameter des einen Modells eine Teilmenge der Parameter des anderen Modells sind (z.B. ein Modell enthält 5 zu schätzende Größen, ein anderes 3 davon) - zum einfachen "Handling" der Zahlen wird der Wert der Likelihoodfunktion (L) transformiert
  • Devianztest Prüfgröße ist die Differenz der Devianzen zweier geschachtelter Modelle Dev2 - Dev1 - Dev1 = Devianz von Modell 1 (komplexes Modell, passt immer besser), Dev2 = Devianz von Modell 2 (restriktives Modell, passt immer schelchter) - Diese Differenz ist χ2-verteilt - Freiheitsgrade: df = q1 - q2 - das restriktivere Modell hat eine höhere Devianz und weniger zu schätzende Paramter als das komplexere Modell
  • Devianztest: Interpretation Nicht-signifikanter Devianztest - die beiden Modelle unterscheiden sich nicht bedeutsam in ihrem Modellfit - d.h. das restriktivere Modell passt nicht signifikant schlechter als das komplexere Modell --> restriktives Modell beibehalten Signifikanter Devianztest - restriktiveres Modell passt signifikant schlechter als das komplexere Modell - restriktiveres Modell verwerfen und komplexeres Modell annehmen Modellpassung vs. Sparsamkeit
  • Informationskriterien - für den Vergleich von nicht-geschachtelten Modellen Formeln:  AIC (Akaike Information Criterion) = Dev + 2 x q (Devianz, Anzahl Parameter) BIC (Bayesian Information Criterion) = Dev + q x ln(N) (Devianz, Anzahl Parameter, Stichprobengröße) für beide gilt: - je kleiner der Wert, desto besser ist das Modell - beide Kriterien bestrafen MOdelle mit vielen Parametern --> einfache Modelle werden bevorzugt - AIC wird empfohlen, da die Stichprobengröße bei Multilevel-Modellen zwischen Level 2-Einheiten variiert
  • Benötigte Stichprobengröße Daumenregeln (basierend auf dem Kriterium der Schätzgenauigkeit) - Fragestellung zielt auf feste Effekte: 30/30 Regel (mind. 30 Level 2-Einheiten und je 30 Level 1-Einheiten) - Fragestellung zielt auf Cross-Level-Interaktionen: 50/20 Regel (mind. 50 Level 2-Einheiten und je 20 Level 1-Einheiten) - Fragestellung zielt auf Varianzen des Zufallsteils: 100/10 Regel (mind 100 Level 2-Einheiten und je 10 Level 1-Einheiten)
  • Modelle mit Level 2-Prädiktoren - enthält auch Prädiktoren auf Level 2 - Variable, auf der sich die Level 2-Einheiten unterscheiden (z.B. wirtschaftliche SItuation der Firma, BIP, Klassenklima, etc.) - dadurch werden die Mittelwerte auf Gruppenebene nicht nur als variabel, sondern auch als vorhersagbar angesehen - Prädiktoren auf Level 1 können zusätzlich enthalten sein - bei Interaktionen zwischen Prädiktoren verschiedener Ebenen  spricht man von "Cross-Level-Interaktionen"
  • Kontekteffekte - manchmal kann eine Variable sowohl auf Personenebene (Level 1) als auch auf Gruppenebene (Level 2) wirksam sein - z.B. Leistungsfähigkeit von Schülern bzw. Klassen und ihre Auswirkung auf die Aggressionsneigung der Schüler - wirkt sich diese Variable auf den verschiedenen Ebenen unterschiedlich aus, spricht man von Kontexteffekten