Statistik (Fach) / Logistische Regression (Lektion)
In dieser Lektion befinden sich 17 Karteikarten
Kapitel 7
Diese Lektion wurde von loewi erstellt.
Diese Lektion ist leider nicht zum lernen freigegeben.
- Problem von Regressionsanalysen in der Praxis Ganz oft liegen keine intervallskalierten Variablen vor. Das ist Voraussetzung bei der linearen Regression, sowohl Prädiktor als auch Kriterium. Z. B. sind es in der klinischen Praxis oft nur dichotome Merkmale (infiziert: ja- nein, Rückfall bei Drogenabhängigen ja- nein usw.) bei Ermittlung der Zugehörigkeit des Probanden zu einer von zwei möglichen Gruppen ist die binär-logistische Regression sinnvoll.
- Anwendungsgebiete der binär-logistischen Regression - Medizin, z. B. tot-überlebt - Wahlprognosen - Vorhersage eines Produktkaufes - Gruppenzugehörigkeit für Matching
- logistische Regresseion, Ziel Vorhersage eines binären Merkmals durch einen/mehren Prädiktoren. Dabei ist nicht das dichotome Merkmal prognostiziert, sondern die Wahrscheinlichkeit dass eines der beiden eintritt. Für jedes Individuum wird der Wert p ermittelt, der alle Werte zwischen 0 und 1 annehmen kann. Die Variable selbst kann (da dichtom) aber nur 0 oder eins annehmen.
- Schritte zur Regressionsgleichung Die dichotome Zielgröße wird so transformiert, dass ein lineares Regressionsmodell ermittelt werden kann. 1. Schritt: die beiden Wahrscheinlichkeiten (odds) werden in ein Verhältnis gestellt. Die odds lassen sich aus den Wahrscheinlichkeiten ermitteln (odds=p/1-p) >positive Zahlen 2. die Odds werden zu log odds: logarithmus aus odds. Nun sind WErte von minus unendlich bis plus unendlich möglich. (odds=1 enstpricht log odds=0) 3. Dafür wird nun ein einfaches lineares Regressionsmodell ermittelt.
- was macht guten Prädiktor aus? wenn sich die beiden Gruppen bezüglich dieses merkmals bedeutsam unterscheiden
- wo werden bei der log. R. am meisten Fehler bei der Zuordnung gemacht? Bei Personen deren Ausprägung in einer Variablen im mittleren Bereich liegt. Hier ist die Zuordnung unsicher. Dabei gilt: Die Steigung der Geraden bestimmt die Geschwindigkeit des Übergangs. je steiler die Kurve, desto sicherer im Übergangsbereich.
- Lage auf der Skala bei einer Wahrscheinlichkeit von p=0.5 ist die Wasserscheide. Werte nahe bei 50 sind schlecht zu klassifizieren. eine geringe Veränderung des Wertes kann große Unterschiede bedeuten.
- Voraussetzung für unabhängige Variable normalverteilt, mind. intervallskaliert Auswahl auch hier theoriegeleitet oder schrittweise nach Bedeutung
- Stichprobengröße bei der Log.Regression eigentlich sollten es mehr als 400 Probanden sein. In der Praxis aber oft weniger, etwa mehr als hundert.
- Probleme bei odds und log odds Für p=1 kann kein odds-Wert ermittelt werden. Für odds=0 kann kein log odds ermittelt werden.
- Wie werden die Regressionskoeffizienten geschätzt? analog zur Methode der kleinsten Quadrate: mit der Maximum-Likelihood-Methode: Ermittlung der Parameter, die die Wahrscheinlichkeit für eine korrekte Vorhersage maximieren.
- Vorgehen bei der Logistischen Regression Anpassung einer Kurve an die empirischen werte Wahrscheinlichkeit zu odds umwandeln odds mit Logit-funktion transformieren (odds zu log odds) Schätzung der Parameter Validierung an der Trefferquote (trifft die Prognose zu oder nicht?)n
- Interpretation des Regressionskoeffizienten - Vorzeichen: positiv: Wahrscheinlichkeit geht gegen eins negativ: geht gegen null. - Odds Ratio
- Wie lässt sich die erklärbare Varianz berechnen? (Güte der Vorhersage) Pseudo-R^2. Man schätzt die Varianz die durch die Prädiktoren aufgeklärt wird, obwohl es sie eigentlich gar nicht gibt. 2 Möglichkeiten: Cox & Snell R^2 Nagelkerkes R^2 Qualität der Prädiktion über -2 log likelihood. er nimmt mind. null an. Kleiner Wert ist gut.
- -2LL-Vergleich um herauszufinden, wie gut die Prädiktoren sind, macht man einen Modellvergleich. Man vergleicht die -2LL eines Nullmodells (ohne Prädiktor) mit dem -2LL eines vorgeschlagenen Modells (Vorhersage des ermitteltenModells). Über die Differenz kann das ermittelte Modell bewertet werden.
- Vorteile des logistischen Modells - individuelles Risiko eines jeden Patienten kann ermittelt werden. Es kann ermittelt werden, ab wann die Auftretenswahrscheinlichkeit größer als 50 % ist - Definition eines Trennpunktes also möglich. - kann auch mehrere Prädiktoren aufnhemen.
-
- Nachteile des logistischen Modells - Gefahr des overfitting zu viele Prädiktoren werden aufgenommen. Das Regressionsmodell kann nicht mittels Kreuzvalidierung repliziert werden. (Schlechte Validität). Außerdem steigt die Gefahr des CoC durch Overfitting.