Bestimmtheitsmaß R2
Wie gut sind UV´s geeignet um Varianz der AV´s zu erklären bzw. deren Werte vorherzusagen? Wertebereich: 0 bis 1 Werte nahe 0: UV nicht gut geeignet um AV vorherzusagen Werte nahe 1: UV gut geeignet um AV vorherzusagen R2 = 1: perfekter linearer Zusammenhang zwischen den Merkmalen, alle Punkte liegen im Streudiagramm exakt auf der Regressionsgerade, umso näher liegen geschätzten Werte ÿi an den beobachteten Werten yi
Ziel der Modell Diagnostik:
Zusammenhang zwischen einer Zielvariablen und den zugehörigen erklärenden Variablen → Ursachen finden, kausalen Zusammenhängen benennen und Vorhersagen treffen
Regressionsmodelle ohne Intercept
Berechnung R^2
Die Berechnung einer Regression ohne Intercept erfordert eine andere Formel zur Bestimmung von R2 Rc2 → c = Index für die entfernte Intercept Kontstante In der Praxis sollte immer eine Regression mit Intercept gerechnet werden auch wenn das Intercept nicht statistisch signifikant ist. Nur wenn starke theoretische Indizien dafür sprechen, dass das Intercept tatsächlich den Wert Null besitzt sollte eine Regression ohne Intercept berechnet werden.
Multikollinearität
tritt dann auf, wenn zwei oder mehr der Prädiktoren miteinander stark korrelieren: sind stark voneinander abhängig. Folglich ist die Datenmatrix nicht mehr invertierbar Überprüfung: Bestimmung der Determinanten der Datenmatrixo Determinante ≠ 0 → Matrix invertierbar → keine Multikollinearitäto Determinante = 0 → Matrix nicht invertierbar → Hinweis auf Multikollinearität
Box-Cox-Transformation =
Methode zur Stabilisierung der Varianz
Probleme R2
Problematik, wenn n = p + 1 → Bruch wird 0 und R2 gleich 1 → würde bedeuten, dass ein perfekter linearer Zusammenhang besteht, was jedoch nicht der Fall sein muss! R2 ist empfindlich gegenüber der Kombination von n und p R2 inur zulässig, wenn n viel größer als p (Anzahl der Versuchspersonen viel größer, als die Anzahl der UV´s) Empfehlung nmin = max (30;5p oder 10p)
Anpassung R2
→ Ra2 Um Problemen entgegen zu wirken wird ein angepasstes R2 genutzt → Ra2 (a = adjusted/ angepasst) Ziel: Abhängigkeit zwischen n und p eliminieren Modifikation der Formel: Der Nenner wird durch die Differenz aus Stichprobenumfang und Anzahl zu schätzender Modellparameter und der Zähler durch den um eins reduzierten Stichprobenumfang dividiert
Goodness of Fit: Korrelativtest der Beta-Gewichte
Tragen alle Betas zu einer signifikanten Vorhersage bei? oder Wie viel der erklärten Varianz von y wird durch alle Faktoren/Prädikatoren aufgeklärt? Überprüfung erfolgt mittels F-Test: Nullhypothese = Determinationskoeffizient der Population ist Null o p-Wert signifikant: Variablen tragen signifikant zur Aufklärung von y bei o Folglich wird jedes einzelne Beta getestet mit seinem Konfidenzintervall, um herauszufinden, welches Beta in dem Modell signifikant dazu beiträgt