VL 6 - Statistik learn online

Statistik (Subject) / VL 6 (Lesson)

There are 33 cards in this lesson

Annahmen und Regressionsdiagnostik

This lesson was created by Lylly.

Learn lesson

Was sind die 8 Annahmen bei der multiplen Regression? 1. Korrekte Speziﬁkation des Modells2. Messfehlerfreiheit der UVs3. Keine Ausreißer oder einﬂussreiche Datenpunkte4. Keine Multikollinearität5. Homoskedastizität6. Unabhängikeit der Residuen7. Normalverteilung der Residuen8. Zufälligkeit fehlender Werte
Was ist eine Annahme speziell für stochastische Regressoren bei der multiplen Regression? multivariate Normalverteilung
Welche Punkte gehören inhaltlich zu einer korrekten Spezifikation des Modells? I Angenommene Form des Zusammenhangs (z. B. linear, kurvilinear, kubisch)I Alle relevanten Variablen (und Terme) sind im Modell (kein Underﬁtting)I Keine irrelevanten Variablen im Modell (kein Overﬁtting)
Welche Konsequenzen zöge eine inkorrekte Spezifikation des Modells mit sich? - Verzerrung der Regressionsgewichte - Verzerrung der Standardfehler der Regressionsgewichte --> geringe Teststärke
Wie überprüft man die korrekte Spezifikation des Modells? I Theoretisch angenommener Zusammenhang?I Bivariate Streudiagramme mit LOWESS-AnpassungslinieI Aufnahme und statistische ÜberprÜfung von nicht-linearen Termen oderInteraktionen
Was bedeutet "Messfehlerfreiheit der UVs" und inwiefern wird dieses Kriterium in der Psychologie erfüllt? = Reliabilität von 1 in der Psychologie typischerweise Rel von 0.7-0.8
Was sind die Konsequenzen einer verletzten Annahme zur Messfehlerfreiheit der UV? - Verzerrung der Regressionsgewichte --> bei bivariater Regression Unterschätzung --> bei multipler Regression Unter- oder Überschätzung - Verzerrung der Standardfehler der Regressionsgewichte
Wie überprüft man die Messfehlerfreiheit der UVs? Rel nachschlagen oder halt selbst rechnen
Wie kann man Messfehlern in der UV vorbeugen? - reliable Skalen benutzen - ausreichend Items zur Skalenbildung verwenden - Strukturgleichungsmodelle mit latenten Variablen verwenden
Wie kann man Daten nicht rechnerisch auf unplausible Werte kontrollieren? praktisch: Eingabefehler, Kodierungen fehlender Werte deskriptiv: Plot oder Deskriptivstatistiken
Welche empfohlenen Werte sollte ich bei AV und UV jeweils nutzen, um Ausreißerwerte zu identifizieren? - AV: studentisierte gelöschte Residuen - UV: Hebelwerte oder Mahalanobis-Distanzen
Welche Werte untersuche ich, wenn ich mich frage, ob meine Datenpunkte einen starken Einfluss auf meine Regressionsparameter haben? DfBetas
Welche Werte betrachte ich, wenn ich den Einfluss von Datenpunkte auf die geschätzten Werte überprüfen möchte? DfFitsS
1) Auf welchen Parameter eines Regressionsmodells greift man bei der Beurteilung von Ausreißern zurück? 2) Wie kann man diesen Parameter normieren? 1) auf die Residuen 2) - Standardisieren = Residuen geteilt durch Standardschätzfehler- Studentisieren = Residuen geteilt durch den geschätzen Standardschätzfehler der Residuen an der Stelle xm --> diese Standardabweichung erhält man, indem man den geschätzten Standardschätzfehler mit dem Wert √1-hm multipliziert, wobei h m den Hebelwert bezeichnet. - Gelöschtes Residuum = Abweichung des beobachteten Werts vom vorhergesagten Wert ohne entsprechende Person- Studentisiert gelöscht = Gelöschte Residuen werden studentisiert --> t-verteilt mit df = n − k − 1 --> Extreme Abweichungen identiﬁzierbar, z. B. über 99% Quantil --> Für Test auf Zugehörigkeit einzelner Datenpunkte zur Verteilung Adjustierung des p-Werts notwendig --> empfohlen: Werte >3 raus
Wie wird der p-Wert für die studentisierten gelöschten Residuen adjustiert? Was ist das Problem an der Berechnung? Multipliziert mit der Anzahl der Vergleiche (= Anzahl der Personen) und 2 Problem: Bei großen Stichproben sehr wahrscheinlich, dass man Werte als Ausreißer charakterisiert
Wann bieten hohe Hebelwerte tatsächlich Anlass zum Ausschluss (d.h. welches Merkmal müssen sie außer ihrer Höhe noch erfüllen)? die X-Werte müssen konträr zu dem Muster/der Richtung der Regressionsgeraden sein
Welches weitere Kriterium neben der Höhe der Hebelwerte spricht in Bezug auf diese ebenfalls für einen Ausschluss eines Werts? wenn die X-Werte (UV) konträr zu dem Muster (/der Richtung) der Regressionsgerade sind
Was wird als Schwellenwert für einen Hebelwert gesehen? 2 · [durchschnittl.] hm bzw 2 · [durchschnittliches] h∗
DfBeta gibt an, wie stark sich ein Regressionskoeﬃzient (=BETA) verändert (Df = Diﬀerenz), wenn...? Wie viele Werte gibt es also von DfBeta? wenn eine bestimmte Person entfernt wird --> je ein Wert pro Person und Regressionskoeffizient
Woran standardisiert man die DfBETAS? am Standardfehler der Regressionskoeﬃzienten
Welche DfBetas sind auffällige Werte für unterschiedlich große Stichproben? - Absolute Werte > 1 auﬀällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2/√n auﬀällig in großen Stichproben
Was bedeutet DfFIT inhaltlich? Diﬀerenz (= Df) des vorhergesagten Wertes (=FIT) einer Person in einem Modell ohne diese Person und einem Modell mit dieser Person
Woran wird DfFIT standardisiert? an geschätztem Standardfehler der vorhergesagten Werte (ohne diese Person)
Welche Werte für DfFITS werden für unterschiedlich große Stichproben als auffällig betrachtet? - Absolute Werte > 1 auﬀällig in kleinen bis mittelgroßen Stichproben- Absolute Werte > 2 · p(k + 1)/n auﬀällig in großen Stichproben
Wie transformiert man die DfFITS-Werte in die Cook-Distanz? indem man sie quadriert
Welcher Verteilung mit wie vielen Freiheitsgraden folgt die Cook-Distanz? einer F-Verteilung mit df1 = k + 1 und df2 = n − k − 1 Freiheitsgraden
Ab wann gelten Abweichungen bei der Cook-Distanz als extrem? bei über α = 0,5
Wann sind auffällige Werte vor allen Dingen problematisch und wie kann man allgemein absichern, dass sie problematisch sind? vor allem problematisch, wenn sie Schätzungen beeinflussen --> ermitteln, indem man verschiedene Indizes vergleicht, die ein möglichst schlüssiges Bild ergeben sollten
Wie sollte man mit dem möglichen Vorliegen von Subpopulationen hinsichtlich auffälliger Werte umgehen? man könnte Mischverteilungsmodelle anwenden --> Die Population setzt sich dann aus verschiedenen Subpopulationen zusammen, für die ein unterschiedliches Regressionsmodell gilt. --> verlangt entsprechend große Subpopulationen innerhalb der Stichproben
Welche Gründe gibt es für die Entstehung von Multikollinearität? - Verwendung verschiedener Messzeitpunkte oder Subskalen desselben Konstrukts als Prädiktoren - große Überlappung, Redundanz der UVs
Was sind Konsequenzen von Multikollinearität? - Erhöhung der Standardfehler der Partialregressionskoeﬃzienten- Verzerrung von Teststatistiken, Verlust von statistischer Power (Teststärke)- Unpräzise Schätzung und Erschwerung der Interpretation der Partialregressionskoeﬃzienten
Welche beiden statistischen Kennwerte indizieren Multikollinearität? Toleranz & Varianzinﬂations-Faktor
Wie kann man Multikollinearität vorbeugen? - Redundante Prädiktoren zusammenfassen oder ausschließen- Verwendung von Strukturgleichungsmodellen- Zentrierung von Prädiktoren entfernt die nicht-essentielle Kollinearität

Learn online - when and where you want!

Statistik (Subject) / VL 6 (Lesson)