Statistik (Subject) / VL 6 (Lesson)
There are 33 cards in this lesson
Annahmen und Regressionsdiagnostik
This lesson was created by Lylly.
- Was sind die 8 Annahmen bei der multiplen Regression? 1. Korrekte Spezifikation des Modells2. Messfehlerfreiheit der UVs3. Keine Ausreißer oder einflussreiche Datenpunkte4. Keine Multikollinearität5. Homoskedastizität6. Unabhängikeit der Residuen7. Normalverteilung der Residuen8. Zufälligkeit fehlender Werte
- Was ist eine Annahme speziell für stochastische Regressoren bei der multiplen Regression? multivariate Normalverteilung
- Welche Punkte gehören inhaltlich zu einer korrekten Spezifikation des Modells? I Angenommene Form des Zusammenhangs (z. B. linear, kurvilinear, kubisch)I Alle relevanten Variablen (und Terme) sind im Modell (kein Underfitting)I Keine irrelevanten Variablen im Modell (kein Overfitting)
- Welche Konsequenzen zöge eine inkorrekte Spezifikation des Modells mit sich? - Verzerrung der Regressionsgewichte - Verzerrung der Standardfehler der Regressionsgewichte --> geringe Teststärke
- Wie überprüft man die korrekte Spezifikation des Modells? I Theoretisch angenommener Zusammenhang?I Bivariate Streudiagramme mit LOWESS-AnpassungslinieI Aufnahme und statistische ÜberprÜfung von nicht-linearen Termen oderInteraktionen
- Was bedeutet "Messfehlerfreiheit der UVs" und inwiefern wird dieses Kriterium in der Psychologie erfüllt? = Reliabilität von 1 in der Psychologie typischerweise Rel von 0.7-0.8
- Was sind die Konsequenzen einer verletzten Annahme zur Messfehlerfreiheit der UV? - Verzerrung der Regressionsgewichte --> bei bivariater Regression Unterschätzung --> bei multipler Regression Unter- oder Überschätzung - Verzerrung der Standardfehler der Regressionsgewichte
- Wie überprüft man die Messfehlerfreiheit der UVs? Rel nachschlagen oder halt selbst rechnen
- Wie kann man Messfehlern in der UV vorbeugen? - reliable Skalen benutzen - ausreichend Items zur Skalenbildung verwenden - Strukturgleichungsmodelle mit latenten Variablen verwenden
- Wie kann man Daten nicht rechnerisch auf unplausible Werte kontrollieren? praktisch: Eingabefehler, Kodierungen fehlender Werte deskriptiv: Plot oder Deskriptivstatistiken
- Welche empfohlenen Werte sollte ich bei AV und UV jeweils nutzen, um Ausreißerwerte zu identifizieren? - AV: studentisierte gelöschte Residuen - UV: Hebelwerte oder Mahalanobis-Distanzen
- Welche Werte untersuche ich, wenn ich mich frage, ob meine Datenpunkte einen starken Einfluss auf meine Regressionsparameter haben? DfBetas
- Welche Werte betrachte ich, wenn ich den Einfluss von Datenpunkte auf die geschätzten Werte überprüfen möchte? DfFitsS
- 1) Auf welchen Parameter eines Regressionsmodells greift man bei der Beurteilung von Ausreißern zurück? 2) Wie kann man diesen Parameter normieren? 1) auf die Residuen 2) - Standardisieren = Residuen geteilt durch Standardschätzfehler- Studentisieren = Residuen geteilt durch den geschätzen Standardschätzfehler der Residuen an der Stelle xm --> diese Standardabweichung erhält man, indem man den geschätzten Standardschätzfehler mit dem Wert √1-hm multipliziert, wobei h m den Hebelwert bezeichnet. - Gelöschtes Residuum = Abweichung des beobachteten Werts vom vorhergesagten Wert ohne entsprechende Person- Studentisiert gelöscht = Gelöschte Residuen werden studentisiert --> t-verteilt mit df = n − k − 1 --> Extreme Abweichungen identifizierbar, z. B. über 99% Quantil --> Für Test auf Zugehörigkeit einzelner Datenpunkte zur Verteilung Adjustierung des p-Werts notwendig --> empfohlen: Werte >3 raus
- Wie wird der p-Wert für die studentisierten gelöschten Residuen adjustiert? Was ist das Problem an der Berechnung? Multipliziert mit der Anzahl der Vergleiche (= Anzahl der Personen) und 2 Problem: Bei großen Stichproben sehr wahrscheinlich, dass man Werte als Ausreißer charakterisiert
- Wann bieten hohe Hebelwerte tatsächlich Anlass zum Ausschluss (d.h. welches Merkmal müssen sie außer ihrer Höhe noch erfüllen)? die X-Werte müssen konträr zu dem Muster/der Richtung der Regressionsgeraden sein
-
- Welches weitere Kriterium neben der Höhe der Hebelwerte spricht in Bezug auf diese ebenfalls für einen Ausschluss eines Werts? wenn die X-Werte (UV) konträr zu dem Muster (/der Richtung) der Regressionsgerade sind
- Was wird als Schwellenwert für einen Hebelwert gesehen? 2 · [durchschnittl.] hm bzw 2 · [durchschnittliches] h∗
- DfBeta gibt an, wie stark sich ein Regressionskoeffizient (=BETA) verändert (Df = Differenz), wenn...? Wie viele Werte gibt es also von DfBeta? wenn eine bestimmte Person entfernt wird --> je ein Wert pro Person und Regressionskoeffizient
- Woran standardisiert man die DfBETAS? am Standardfehler der Regressionskoeffizienten
- Welche DfBetas sind auffällige Werte für unterschiedlich große Stichproben? - Absolute Werte > 1 auffällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2/√n auffällig in großen Stichproben
- Was bedeutet DfFIT inhaltlich? Differenz (= Df) des vorhergesagten Wertes (=FIT) einer Person in einem Modell ohne diese Person und einem Modell mit dieser Person
- Woran wird DfFIT standardisiert? an geschätztem Standardfehler der vorhergesagten Werte (ohne diese Person)
- Welche Werte für DfFITS werden für unterschiedlich große Stichproben als auffällig betrachtet? - Absolute Werte > 1 auffällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2 · p(k + 1)/n auffällig in großen Stichproben
- Wie transformiert man die DfFITS-Werte in die Cook-Distanz? indem man sie quadriert
- Welcher Verteilung mit wie vielen Freiheitsgraden folgt die Cook-Distanz? einer F-Verteilung mit df1 = k + 1 und df2 = n − k − 1 Freiheitsgraden
- Ab wann gelten Abweichungen bei der Cook-Distanz als extrem? bei über α = 0,5
- Wann sind auffällige Werte vor allen Dingen problematisch und wie kann man allgemein absichern, dass sie problematisch sind? vor allem problematisch, wenn sie Schätzungen beeinflussen --> ermitteln, indem man verschiedene Indizes vergleicht, die ein möglichst schlüssiges Bild ergeben sollten
- Wie sollte man mit dem möglichen Vorliegen von Subpopulationen hinsichtlich auffälliger Werte umgehen? man könnte Mischverteilungsmodelle anwenden --> Die Population setzt sich dann aus verschiedenen Subpopulationen zusammen, für die ein unterschiedliches Regressionsmodell gilt. --> verlangt entsprechend große Subpopulationen innerhalb der Stichproben
- Welche Gründe gibt es für die Entstehung von Multikollinearität? - Verwendung verschiedener Messzeitpunkte oder Subskalen desselben Konstrukts als Prädiktoren - große Überlappung, Redundanz der UVs
- Was sind Konsequenzen von Multikollinearität? - Erhöhung der Standardfehler der Partialregressionskoeffizienten- Verzerrung von Teststatistiken, Verlust von statistischer Power (Teststärke)- Unpräzise Schätzung und Erschwerung der Interpretation der Partialregressionskoeffizienten
- Welche beiden statistischen Kennwerte indizieren Multikollinearität? Toleranz & Varianzinflations-Faktor
-
- Wie kann man Multikollinearität vorbeugen? - Redundante Prädiktoren zusammenfassen oder ausschließen- Verwendung von Strukturgleichungsmodellen- Zentrierung von Prädiktoren entfernt die nicht-essentielle Kollinearität