Statistik (Subject) / VL 6 (Lesson)

There are 33 cards in this lesson

Annahmen und Regressionsdiagnostik

This lesson was created by Lylly.

Learn lesson

  • Was sind die 8 Annahmen bei der multiplen Regression? 1. Korrekte Spezifikation des Modells2. Messfehlerfreiheit der UVs3. Keine Ausreißer oder einflussreiche Datenpunkte4. Keine Multikollinearität5. Homoskedastizität6. Unabhängikeit der Residuen7. Normalverteilung der Residuen8. Zufälligkeit fehlender Werte
  • Was ist eine Annahme speziell für stochastische Regressoren bei der multiplen Regression? multivariate Normalverteilung
  • Welche Punkte gehören inhaltlich zu einer korrekten Spezifikation des Modells? I Angenommene Form des Zusammenhangs (z. B. linear, kurvilinear, kubisch)I Alle relevanten Variablen (und Terme) sind im Modell (kein Underfitting)I Keine irrelevanten Variablen im Modell (kein Overfitting)
  • Welche Konsequenzen zöge eine inkorrekte Spezifikation des Modells mit sich? - Verzerrung der Regressionsgewichte - Verzerrung der Standardfehler der Regressionsgewichte --> geringe Teststärke
  • Wie überprüft man die korrekte Spezifikation des Modells? I Theoretisch angenommener Zusammenhang?I Bivariate Streudiagramme mit LOWESS-AnpassungslinieI Aufnahme und statistische ÜberprÜfung von nicht-linearen Termen oderInteraktionen
  • Was bedeutet "Messfehlerfreiheit der UVs" und inwiefern wird dieses Kriterium in der Psychologie erfüllt? = Reliabilität von 1 in der Psychologie typischerweise Rel von 0.7-0.8
  • Was sind die Konsequenzen einer verletzten Annahme zur Messfehlerfreiheit der UV? - Verzerrung der Regressionsgewichte    --> bei bivariater Regression Unterschätzung    --> bei multipler Regression Unter- oder Überschätzung - Verzerrung der Standardfehler der Regressionsgewichte
  • Wie überprüft man die Messfehlerfreiheit der UVs? Rel nachschlagen oder halt selbst rechnen
  • Wie kann man Messfehlern in der UV vorbeugen? - reliable Skalen benutzen - ausreichend Items zur Skalenbildung verwenden - Strukturgleichungsmodelle mit latenten Variablen verwenden
  • Wie kann man Daten nicht rechnerisch auf unplausible Werte kontrollieren? praktisch: Eingabefehler, Kodierungen fehlender Werte deskriptiv: Plot oder Deskriptivstatistiken
  • Welche empfohlenen Werte sollte ich bei AV und UV jeweils nutzen, um Ausreißerwerte zu identifizieren? - AV: studentisierte gelöschte Residuen - UV: Hebelwerte oder Mahalanobis-Distanzen
  • Welche Werte untersuche ich, wenn ich mich frage, ob meine Datenpunkte einen starken Einfluss auf meine Regressionsparameter haben? DfBetas
  • Welche Werte betrachte ich, wenn ich den Einfluss von Datenpunkte auf die geschätzten Werte überprüfen möchte? DfFitsS
  • 1) Auf welchen Parameter eines Regressionsmodells greift man bei der Beurteilung von Ausreißern zurück? 2) Wie kann man diesen Parameter normieren? 1) auf die Residuen 2) - Standardisieren = Residuen geteilt durch Standardschätzfehler- Studentisieren = Residuen geteilt durch den geschätzen Standardschätzfehler der Residuen an der Stelle xm   -->   diese Standardabweichung erhält man, indem man den geschätzten Standardschätzfehler mit dem Wert √1-hm multipliziert, wobei h m den Hebelwert bezeichnet. - Gelöschtes Residuum = Abweichung des beobachteten Werts vom vorhergesagten Wert ohne entsprechende Person- Studentisiert gelöscht = Gelöschte Residuen werden studentisiert   --> t-verteilt mit df = n − k − 1    --> Extreme Abweichungen identifizierbar, z. B. über 99% Quantil   --> Für Test auf Zugehörigkeit einzelner Datenpunkte zur Verteilung Adjustierung des p-Werts notwendig --> empfohlen: Werte >3 raus
  • Wie wird der p-Wert für die studentisierten gelöschten Residuen adjustiert? Was ist das Problem an der Berechnung? Multipliziert mit der Anzahl der Vergleiche (= Anzahl der Personen) und 2 Problem: Bei großen Stichproben sehr wahrscheinlich, dass man Werte als Ausreißer charakterisiert
  • Wann bieten hohe Hebelwerte tatsächlich Anlass zum Ausschluss (d.h. welches Merkmal müssen sie außer ihrer Höhe noch erfüllen)? die X-Werte müssen konträr zu dem Muster/der Richtung der Regressionsgeraden sein
  • Welches weitere Kriterium neben der Höhe der Hebelwerte spricht in Bezug auf diese ebenfalls für einen Ausschluss eines Werts? wenn die X-Werte (UV) konträr zu dem Muster (/der Richtung) der Regressionsgerade sind
  • Was wird als Schwellenwert für einen Hebelwert gesehen? 2 · [durchschnittl.] hm    bzw    2 · [durchschnittliches] h∗
  • DfBeta gibt an, wie stark sich ein Regressionskoeffizient (=BETA) verändert (Df = Differenz), wenn...? Wie viele Werte gibt es also von DfBeta? wenn eine bestimmte Person entfernt wird --> je ein Wert pro Person und Regressionskoeffizient
  • Woran standardisiert man die DfBETAS? am Standardfehler der Regressionskoeffizienten
  • Welche DfBetas sind auffällige Werte für unterschiedlich große Stichproben? - Absolute Werte > 1 auffällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2/√n auffällig in großen Stichproben
  • Was bedeutet DfFIT inhaltlich? Differenz (= Df) des vorhergesagten Wertes (=FIT) einer Person in einem Modell ohne diese Person und einem Modell mit dieser Person
  • Woran wird DfFIT standardisiert? an geschätztem Standardfehler der vorhergesagten Werte (ohne diese Person)
  • Welche Werte für DfFITS werden für unterschiedlich große Stichproben als auffällig betrachtet? - Absolute Werte > 1 auffällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2 · p(k + 1)/n auffällig in großen Stichproben
  • Wie transformiert man die DfFITS-Werte in die Cook-Distanz? indem man sie quadriert
  • Welcher Verteilung mit wie vielen Freiheitsgraden folgt die Cook-Distanz? einer F-Verteilung mit df1 = k + 1 und df2 = n − k − 1 Freiheitsgraden
  • Ab wann gelten Abweichungen bei der Cook-Distanz als extrem? bei über α = 0,5
  • Wann sind auffällige Werte vor allen Dingen problematisch und wie kann man allgemein absichern, dass sie problematisch sind? vor allem problematisch, wenn sie Schätzungen beeinflussen --> ermitteln, indem man verschiedene Indizes vergleicht, die ein möglichst schlüssiges Bild ergeben sollten
  • Wie sollte man mit dem möglichen Vorliegen von Subpopulationen hinsichtlich auffälliger Werte umgehen? man könnte Mischverteilungsmodelle anwenden --> Die Population setzt sich dann aus verschiedenen Subpopulationen zusammen, für die ein unterschiedliches Regressionsmodell gilt. --> verlangt entsprechend große Subpopulationen innerhalb der Stichproben
  • Welche Gründe gibt es für die Entstehung von Multikollinearität? - Verwendung verschiedener Messzeitpunkte oder Subskalen desselben Konstrukts als Prädiktoren - große Überlappung, Redundanz der UVs
  • Was sind Konsequenzen von Multikollinearität? - Erhöhung der Standardfehler der Partialregressionskoeffizienten- Verzerrung von Teststatistiken, Verlust von statistischer Power (Teststärke)- Unpräzise Schätzung und Erschwerung der Interpretation der Partialregressionskoeffizienten
  • Welche beiden statistischen Kennwerte indizieren Multikollinearität? Toleranz & Varianzinflations-Faktor
  • Wie kann man Multikollinearität vorbeugen? - Redundante Prädiktoren zusammenfassen oder ausschließen- Verwendung von Strukturgleichungsmodellen- Zentrierung von Prädiktoren entfernt die nicht-essentielle Kollinearität