Statistik (Fach) / Regressionsanalyse (Lektion)

In dieser Lektion befinden sich 49 Karteikarten

Kapitel 5

Diese Lektion wurde von loewi erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • Ziel der Regression? Vorhersage einer Variablen y durch eine Variable x, die mit y korreliert. x ist dabei Prädiktor, y Kriterium. Nur sinnvoll, wenn ein stochastischer Zusammenhang zwischen beiden Variablen besteht.  
  • lineare Regression geht von einem linearen Zusammenhang aus, so dass die vorausgesagten (geschätzten) Werte auf einer Gerade dargestellt werden können.
  • Wenn kein Prädiktor vorhanden ist oder die Korrelation ... Dann ist am besten der Mittelwert der Variable y zur Vorhersage geeignet.
  • Vor der Regression Es müssen in einer Stichprobe die Ausprägungen n beiden Variablen erhoben werden und ein kausaler Zusammenhang nachgewiesen werden .Je höher der Zusammenhang, desto besser die Vorhersage.
  • Vorhersagefehler Abweichung der tatsächlichen Werte vom vorhergesagten y-Wert. Da kleine Abweichungen weniger ins Gewicht fallen, werden die Abweichungen quadriert, damit starke Abweichungen mehr berücksichtigt werden. ...
  • Methode der kleinsten Quadrate Die Regressionsgerade soll so sein, dass die Summe der quadrierten Vorhersagefehler minimal ist!
  • Voraussetzungen für lineare Regression - Unabhängigkeit der Regressionsresiduen (Vorhersagefehler) vom Kriterium - Prädiktor und Kriterium müssen intervallskaliert und normalverteilt sein. - homoskedaszitität vorliegen - Regressionsresiduen ...
  • Homoskedaszitität homogenität der Varianzen. Varianzen von x und y sollen ungefähr gleich groß sein. Varianz ist die quadrierte Standardabweichung.
  • Güte der Vorhersage Wie genau sagt die Regressionsgleichung die wahren Werte vorher? 100%ig wäre nur bei Korrelation von 1 oder -1.  
  • Wahrer Wert der wahre Wert setzt sich aus dem vorhergesagtem Wert vorher und dem nicht vorhersagbaren Anteil e (Fehler).  Auch als yres bezeichnet.
  • Residuum yres. Differenz zwischen wahrem Wert und vorhergesagtem Wert. Der Mittelwert setzt sich aus den mittelwerten der vorhergesagten Werte yreg und den Mittelwerten der Residuen yres zusammen. Die Vorhersagefehler ...
  • Standardschätzfehler Fehler, der bei der Vorhersage in der linearen Regression ensteht. Der Wert kann als Streuung der tatsächlichen y-Werte um die Regressionsgerade aufgefasst werden. sy.x= sy x wurzel aus 1-Korrelation ...
  • Wie kann man die Generalisierbarkeit einer Regressionsgleichung ... Kreuzvalidierung!
  • Was benötigt man für die Kreuzvalidierung? zwei natürlich vorliegen Stichproben oder künstlich in zwei Teilstichproben aufgeteilte stichprobe. (zufällig in zwei Hälften teilen)
  • Def.Kreuzvalidierung VF zur Überprüfung der Validität einer Regressionsgeraden. Es wird die Übertragbarkeit einer empirisch ermittelten Regressionsgleichung auf eine weitere Stichprobe geprüft.
  • Schritte der Kreuzvalidierung 1. Berechnung einer Regressionsgleichung anhand der Daten der ersten Stichprobe 2. Anwendung der Regressionsgleichung aus der ersten Stichprobe zur Vorhersage der zweiten Stichprobe. 3. Vergleich der ...
  • Was wird durch die Kreuzvalidierung kontrolliert? Die Stichrpobenabhängigkeit. Die gefundenen Korrelationskoeffizienten hängen von der zufälligen Zusammensetzung der Stichprobe ab. Sie haben starken Einfluss auf die Steigung der Geraden.
  • Problem der Kreuzvalidierung? Es ergeben sich zwei leicht voneinander abweichende Regressionsgleichungen. Welcher Gleichung kommt nun die höhere Validität zu? Welcher Differenz der beiden Korrelationskoeffizienten kommt höhere ...
  • Lösung des Problems der Kreuzvalidierun? neuere Statistik-Programme wie AMOS erlauben es zwei Regressionsmodelle auf signifikante Unterschiede zu überprüfen.
  • Unterschied Standardschätzfehler, Standardfehler ... Standardabweichung bezieht sich auf Differenz der individuellen Werte um den Mittelwert. Der Standardfehler wird bei der Schätzung von einem Populationsmittelwert verwendet.
  • Partialkorrelation linearer Zusammenhang von zwei Variablen, aus dem der einfluss einer dritten Variable herausgerechnet wurde. (heraus-partialisiert)
  • suppressor-effekt Die Hinzunahme einer Variablen erhöhrt den Anteil der erklärbaren Varianz, obwohl sie nicht mit dem Kriterium korreliert. Dies liegt daran dass er an der korrelierenden Variable Varianz unterdrückt, ...
  • Multikollinearität Die Prädiktoren korrelieren untereinander, so dass Varianzanteile von unterschiedlichen Prädiktoren erklärt werden können. die Summe der einzelnen Determinationskoeffizienten ist somit höher als ...
  • Multiple Regression Def. lineare Regression mit mehreren Prädiktoren. Auch hier wird mit der Methode der kleinsten Quadrate eine bestmögliche Vorhersage mit möglichst geringem Vorhersagefehler angestrebt. Ziel: möglichst ...
  • Multipler Determinationskoeffizient Anteil der Kriteriumsvarianz, der durch alle Prädiktoren vorhergesagt werden kann.  Entsteht durch die Quadrierung der Mutiplen Korrelation.
  • Unterschied der standardisierten Multiplen Regressionsgleichung ... b wird zu beta-Gewicht; er ist nun nicht mehr von der Skala abhängig.Die Konstante entfällt.
  • Capitalization of Chance Bei der Schätzung einer Populationskorrelations durch eine Stichprobenkorrelation wird die Populationsk. immer überschätzt (=biased estimate). Der Einfluss der Verzerrung steigt mit zunehmender Prädiktoren-Anzahl ...
  • Wie geschehen allgemein die meisten statistischen ... durch kleine stichrobe und viele Variablen - es wird durch Herumprobieren nach einem signifikanten Ergebnis gesucht.
  • Lösungsansätze für CoC ausreichende stichprobengröße unkorrelierte , bzw. nur relevanten Prädiktoren Kreuzvalidierung
  • Kreuzvalidierung bei der mulitplen Regression analog zur einfachen. - Datenerhebung an einer ersten Stichprobe. - Durchführung einer multiplen Regression - Erhebung einer zweiten Stichprobe - Vorhersage des Kriteriums der 2. Stichprobe durch die ...
  • Modellüberprüfung der Kreuzvalidierung nötig auch bei der Mutiplen Regression. Am besten mit Strukturgleichungsmodellen (AMOS) - Möglichkeit, Regressionsmodelle auf Unterschiede zu testen. mit klassischer Statistik: Vergleich der Regressionskoeffizienten ...
  • Welches Problem tritt bei der multiplen Regression ... Wie werden die richtigen Prädiktoren bestimmt? Es gibt eine Vielzahl an potentiellen Prädiktoren, welche werdenin die Gleichung aufgenommen? sie sollten möglichst viel Kriteriumsvarianz erklären und ...
  • Lösungsansätze um die richtigen Prädiktoren auszuwählen: ... - a priori-Auswahl - a posteriori-Auswahl alle möglichen Untermengen vorwärtsselektion rückwärtselimination schrittweise Regression  
  • A-Priori-Auswahl Die Prädiktoren werden durch Vorwissen und theoretische Überlegungen (theorie- und evidenzgeleitet) in die Gleichung aufgenommen.
  • Wie stehen die beiden Vorhersagen bei der Kreuzvalidierung ... Im Allgemeinen ist in der zweiten Stichprobe die Vorhersage immer schlechter wie in der ersten Stichprobe, d.h. bei der Prognose / Validierung einer Gleichung in der zweiten SP wird diese nie besser sein ...
  • Vor- und Nachteile des a-priori-VF Vorteil: kein CoC, da nur eine einzige Regression gerechnet wird. Nachteil: - es werden Prädiktoren aufgenommen, die keinen signifikanten Beitrag leisten. - bei hoher Mulitkollinearität werden evtl. ...
  • alle möglichen Untermengen aus der Menge aller verfügbaren Prädiktoren werden lle möglichen Untermengen gezogen. für diese wird jeweils eine Regressionsanalyse durchgeführt und die erklärbare Varianz bestimmt. Vorteil: innerhalb ...
  • Vorwärtsselektion =Forward-methode die Prädiktoren werden nacheinander in die Gleichung aufgenommen; zuerst der mit der höchsten inkrementellen Validität (beim ersten Schritt ist das der, der die höchste Korrl. mit ...
  • Vorwärts-Selektion Vor- und Nachteile - Es müssen bei k prädiktoren nur max. k Regressionsanalysen gerechnet werden. sehr ökonomisch! - Es wird die Variable mit dem maximalen F-Wert ausgewählt (max. Varianzanteil am Kriterium, wenn dieser ...
  • Rückwärtselimination = backward-methode. Umkehrung der vorwärtsselektion. Es werden zuerst alle Variablen in die Gleichung aufgenommen und dann der F-Wert bestimmt. Diejenige mit dem geringsten F-Wert wird eliminiert, wenn ...
  • Vorteile der Rückwätselimination: kann v. a. bei hoher Mulitkollinearität effektiver die sinnvollen und statistisch bedeutsamenPrädiktoren bestimmen. Bei geringer Mulitkollinearität ist forward- und backward i.d.R identisch im Ergebnis. ...
  • Schrittweise Regression =stepwise. Kombination von forward und backward, soll beide Vorteile verknüpfen. Es wird über die Forward-Methode ein neuer Prädiktor aufgenommen. Gleich danach wird über Backward geprüft, ob auf ...
  • Vorteile der stepwise-Regression -Vorhersage mit einem Minimum an Prädiktoren. nur Prädiktoren mit signifikanter Varianzaufklärung werden eingebunden. - es können Prädiktoren, die durch weitere Prädiktoren überflüssig geworden ...
  • Nachteile der stepwise-Regression - Es werden trotzdem zu Beginn der Analyse Prädiktoren bevorzugt, die hoch mit dem Kriterium korrelieren. Es wird eine systematische Erhöhung der CoC in Kauf genommen. Dadurch können die gefundenen ...
  • Bei allen VF zum finden von Prädiktoren: sind alles iterative VF. Es sollte auf jeden Fall eine Kreuzvalidierung vorgenommen werden.
  • Wie werden die Korrelationskoeffizienten und Regressionsgleichungen ... mit verschiedenen F-tests.
  • Quadratsummenzerlegung Die Quadratsumme=Gesamtvarianz wird in einen erklärbaren Anteil (SSbetween) und einen nicht-erklärbaren Anteil (SSwithin) zerlegt. Bei der Regressionsanalyse besteht die Gesamtvarianz aus der erklärbaren ...
  • Wie erfolgt die Signifikanzprüfung mit dem F-Test? ... über die mittleren Quadratsummen, die an den Freiheitsgraden relativiert werden. (F = SSbetween/df1 geteilt durch SSwithin/df2)
  • Semipartialkorrelation Der Einfluss der Drittvariablen wird nur aus einer der beiden Variablen herauspartialisiert. Damit kann die Frage nahc der zusätzlich erklärten Varianz eines weiteren Prädiktors geklärt werden.