Statistik (Subject) / Datenvorbereitung (Lesson)

There are 9 cards in this lesson

Kapitel 3

This lesson was created by loewi.

Learn lesson

This lesson is not released for learning.

  • Möglichkeit, mit Ausreißern umzugehen winsorisieren
  • Vor- und Nachteile beim winsorisieren Vorteil: Die Stichprobengröße bleibt erhalten. Nachteil: Die ersetzten Werte sind mit hoher Wahrscheinlichkeit falsch. > gute Schätzung des wahren Wertes?
  • Welche Ersetzungsverfahren bei fehlenden Werten gibt es? Missing Completely at Random (MCAR) Missing at Random (MAR) Not missing at random (NMAR oder non-ignorable)
  • MCAR die fehlenden Werte sind über alle Beobachtungen hinweg zufällig verteilt. Ob ein wert fehlt hängt also nicht mit den erhobenen Varialben irgendwie zusammen.
  • MAR Personen mit unvollständigen Daten unterscheiden sich von unvollständigen Daten. Bsp. Geschlecht (Frauen) guter Prädiktor für Fehlen von Gewicht. Das Fehlen der WErte darf jedoch nicht in der Variable selbst begründet sein. Bsp. durch Magersucht. kann gut ersetzt werden.
  • NMAR Das Auftreten eines Fehlenden Wertes hängt mit der Ausprägung der Person in eben dieser Variablen ab. Bsp. Übergewichtige geben den Wert nicht an. Systematische Verzerrung, jede Form der Ersetzung ist schwierig!
  • Ersetzungsmethoden für fehlende Werte listenweise Ausschluss (komplett aus der Analyse          ausgeschlossen) paarweiser Ausschluss (für Teilberechnungen           ausgeschlossen) Mittelwertsersetzung (Mittelwert der Variable zur           Ersetzung verwendet) Regressionsimputation (Vorhersage des fehlenden Wertes)
  • Nachteile der VF listenweise Ausschluss (-> eventuell starke Reduktion desDatensatzes)paarweiser Ausschluss (-> Statistiken in unterschiedlichenSubstichproben möglich)Mittelwertsersetzung (Kovarianzunterschätzung)Regressionsimputation (Kovarianzüberschätzung)
  • Was ist ein modernes VF? Der Expectation-Maximization-Algorithmus(EM-Algorithmus) In Kombination mit multipler Imputation das besteVerfahren im Moment.