Statistik 1 (Subject) / Heft 1 (Lesson)
There are 97 cards in this lesson
aus dem heft
This lesson was created by kartoschka.
This lesson is not released for learning.
- Längsschnittsstudie Ein Merkmal einer statistischen Einheit wird im Zeitverlauf erfasst. Es entsteht eine Zeitreihe
- Panel kombiniert Querschnitts- und Zeitreihendaten Nachteil: Panelmortalität, können mit unerwünschten Verzerrungen einhergehen,( Teilnehmer scheiden durch Krankheit, Umzug aus)
- Klassifikation von Erhebungen bezogen auf den Umfang der erhobenen Daten Vollerhebung Teilerhebung/ Stichprobenerhebung
- Vollerhebung alle Elemente einer Grundgesamtheit werden miteinbezogen Nachteil: sind teuer, aufwändig und nicht immer praktikabel (Zeitaufwand) Müssen bei sicherheitsrelevanten Produkten genutzt werden. (Airbags, Reißleinen..)
- Teilerhebung/ Stichprobenerhebung Daten einer Teilmenge werden erhoben Vorteil: mehr Zeit (als in Vollerhebungen) kann für die Datenerhebung für jeden Merkmalsträger investiert werden
- Stichprobenauswahlfehler Undercoverage: Einige Elemente der definierten Grundgesamtheit werden bei der Stichprobenziehung nicht berücksichtigt. Overcoverage:Population aus der eine Stichprobe gezogen wird, enthält Elemtente, die nicht zu der in der Untersuchungsdesign definierten Grundgesamtheit gehört. Under/Overcoverage:Elemente die dazugehören sollten werden ausgeschlossen und Elemente die NICHT dazugehören werden miteinbezogen.
- Inferenzschluss auf Stichproben bezogen der Rückschluss von Eigenschaften einer Stichprobe auf Eigenschaften einer Grundgesamtheit anhand von Schätz- und Testverfahren.
- "Stichprobenfehler" Unsicherheiten des Inferenzschlusses zum Bias Unsicherer Inferenzschluss (immer unsicher) + zusätzliche Verzerrung durch Verzerrte Stichprobe führt zum Auswahlbias
- Auswahlbias Wenn eine schon an sich verzerrte Stichprobe (repräsentiert nicht die Grundgesamtheit, denke an Under-Overcoverage) auf den Inferenzschluss führt, führt dies zu einer SYSTEMATISCHEN Verzerrung. Also zu gravierenden Fehlern
- einfache Zufallsstichprobe Jede Teilmenge der Grundgesamtheit mit n Elementen besitzt dieselbe Auswahlwahrscheinlichkeit. Auch Urnenmodell
- geschichtete Zufallsauswahl ein zweistufiges Verfahren, bei dem man über Vorinformationen verfügt. Eine Grundgesamtheit mit N- Elementen wird anhand eines Hilfsmerkmals- der Schichtungsvariable, in L disjunkte Teilgesamtheiten des Umfangs N1, N2, N3.. zerlegt. Also N1+N2+N3 = N Aus den Teilgesamtheiten werden Zufallsstichproben gezogen n1+n2+n3+n4 = n dabei gibt es die proportional geschichtete Stichprobe und die disproportionale Schichtung.
- proportional geschichtete Stichprobe Stichproben werden in ihrer Größe der jeweiligen Anteile der Schichten in der Grundgesamtheit entsprechend gezogen. ALSO: Anteil der Schicht an der Gesamtstichprobe = Anteil der Schicht an der Grundgesamtheit heißt wenn N1 mit 20 % an der Grundgesamtheit beteiligt ist, müssen auch 20 % der Schicht an der Gesamtstichprobe beteiligt sein.
- proportional geschichtete Zufallsauswahl Formel zur Berechnung der Umfänge der einzelnen Stichproben nh = n * Nh/ N heißt: Umfang der Stichprobe einer Schicht ergibt sich aus: Gesamtstichprobe n * Anzahl der Elemente dieser Schicht geteilt durch die Grundgesamtheit.
- disproportional geschichtete Stichprobe Die einzelnen Stichprobenschichten sind nicht proportional zu ihrer Verteilung in der Grundgesamtheit Die Anteile für die Schichten in der Stichprobe sind frei wählbar kann sinnvoll sein, wenn eine Schicht gezielt übervertreten sein soll. Eine proportionale Stichprobe gibt nämlich keine Garantie, (wenn ein größeres Interesse an einer Schicht besteht) dass eine ausreichende Anzahl an Mitgliedern der Schicht in die Stichprobe gelangt.
- Klumpenstichprobe Grundgesamtheit wird in Klumpen ( Teilgesamtheiten zerlegt) z.B. Schulen. Dabei geht man so vor dass nur ein Teil der Klumpen zufällig ausgewählt wird und in die Stichprobe gelangt. Die Elemente der Klumpen werden vollständig erfasst. z.B. Alle Schüler der ausgewählten Schule werden befragt.
- systematische Stichprobenauswahl eine Variante der einfachen Zufallsstichprobe Voraussetzung ist das Vorliegen einer vollständigen Liste aller Elemente einer Grundgesamtheit. Auswahlintervall: Ein Element nach dem anderen wird ausgewählt (Ene mene mu und du bist raus). Auswahlintervall berechnet man indem man die Anzahl der Elemente der Auswahlgrundlage durch die Zahl der zu ziehenden Untersuchungseinheiten dividiert. ALSO k = N/ n
-
- Quotenstichprobe Bei der Auswahl einer solchen Stichprobe werden innerhalb einer Grundgesamtheit Quoten hinsichtlich bestimmter Merkmale wie zum Beispiel Geschlecht oder Alter bestimmt, wobei man davon ausgeht, dass diese Merkmale untersuchungsrelevant sind, d. h. Einfluss auf die abhängige Variable haben. Die vorher definierten Quoten müssen bei der Stichprobenauswahl beachtet werden, es wird jedoch kein Zufallsprinzip vorausgesetzt. „Bei der Quotenstichprobe wird versucht, die Zusammensetzung der Stichprobe hinsichtlich ausgewählter Merkmale den Populationsverhältnissen durch bewusste Auswahl „passender“ Objekte anzugleichen, also quasi „Quoten“ für bestimmte Merkmale zu erfüllen“. (Bortz & Döring, 2003, S. 405). Der Nachteil von Quotenstichprobe besteht vor allem in mangelnder Repräsentativität. Es ist beispielsweise möglich, dass die teilnehmenden Probanden leichter zugänglich und kooperationsbereiter sind. Außerdem ist die Anwendung der Theorie der Konfidenzintervalle nicht zulässig, da diese ausschließlich für die Wahrscheinlichkeitsstichprobe gilt. Beispiel:In einer Studie soll das Vorhandensein von depressiven Symptomen bei Studenten untersucht werden. Dem Forscher stehen ausschließlich Psychologiestudenten zur Verfügung. Da die Population der Psychologiestudenten hauptsächlich aus Frauen besteht und in der Studie angenommen wird, dass die depressive Symptomatik mit Geschlecht korreliert, wird die Stichprobe so ausgewählt, dass sie zu 50% aus Frauen und zu 50% aus Männern besteht.
- Stichprobenarten zusammenfassung einfache Stichprobe systematische Stichprobenauswahl, Quotenauswahl geschichtete Stichprobenauswahl, proportional, disproportional Klumpenstichprobe
- amtliche Statistik eigenständige Behörden nur wenige werden von Ministerien geführt z.B. Bundesagentur für Arbeit Grund: Unabhängigkeit von der Tagespolitik
- nicht-amtliche Statistik Institutionen/ Firmen mit unterschiedlichen Zielsetzungen Aufträge von Unternehmen
- absolute Häufigkeit h(ai) Gibt die Anzahl der vorkommenden Ausprägungen an. Errechnet man einfach durch Zählen
- relative Häufigkeit fi= f(ai) gibt den Anteil der Elemente einer Menge wieder, bei denen eine bestimmte Merkmalsausprägung vorliegt. Berechnung: die abs. Häufigkeit eines Merkmals wird durch die Anzahl d. Objekte in dieser Menge geteilt.
- Beispiel für die absolute und relative Häufigkeit Klasse A = 24 Schüler, davon 12 Mädchen. Klasse B = 18 Schüler, davon 9 Mädchen Wenn man die absolute Häufigkeit betrachtet sind in Klasse A mehr Mädchen, allerdings, betrachtet man die Häufigkeit der Mädchen relativ zur Klassengröße, sieht man, dass in beiden Klassen der gleiche Antei von Mädchen ist. Nämlich 50 %
- univariate Datenanalyse Auswertung der Daten für EIN Merkmal
- Diagrammarten Kreisdiagramm (Kreissektoren werden durch die Division von Häufigkeit duch Häufigkeit mal 360 Grad berechnet) Stabdiagramm Säulendiagramm gestapeltes Säulendiagramm: Ergebnisse werden aufeinander gestapelt Histogramm: klassifizierte Daten beziehen sich bei Häufigkeitsverteilungen auf Klassenbesetzungshäufigkeiten. Metrisch skalierte Merkmale. Bei Wahl gleicher Klassenbreiten lassen sich die Klassenbesetzungshäufigkeiten direkt vergleichen
- kumulierte Häufigkeitsverteilung (auch Summenhäufigkeit) Gibt an, bei welcher Anzahl der Merkmalsträger die Merkmalsausprägung kleiner ist, als eine bestimmte Schranke. Wird berechnet als Summe der Häufigkeiten der Ausprägungen von der kleinsten Ausprägung bis hin zu der jeweils betrachteten Schranke mindestens ordinalskalierte Merkmale Beispiel: Frage nach der Anzahl der Noten nicht schlechter als 4 in einer Klausur. 1,2,3 und 4 werden gezählt und aufsummiert.
- absolute kumulierte Häufigkeitsverteilung H(x) ergibt sich aus der Summe der absoluten Häufigkeiten h(ai) die der Bedingung ai ist kleiner oder gleich groß als x heißt: Anzahl der Beobachtungen, die x (die gewählte Schranke) nicht überschreiten. es ist eine monoton steigende Treppenfunktion, die jeweils in x=ai um hi nach oben springt. H(x) = h1 +h2+ hk
- relative kumulierte Häufigkeit F(x) H(x) wird durch den Umfang n des Datensatzes dividiert. Dabei können auch die relativen Häufigkeiten benutzt werden. ( müssen natürlich vorher auch addiert werden) F(x) = H(x)/n
- Lagemaße Modus Median/ Zentralwert Mittelwert Quantile
- Modus/ Modalwert xmod definiert als die Merkmalsausprägung mit der größten Häufigkeit
- Median/ Zentralwert mindestens bei ordinalskalierten Merkmalen bezeichnet den mittleren Wert des geordneten Datensatzes x1,x2,x3,x4,..xn ungerade n: n+1/2 gerade n: Man errechnet den Mittelwert 2er Werte 1/2 * ( n/ 2 + n/2 +1) für ordinalsskalierte Werte heißt dies, dass der Median nicht bestimmt ist. für metrisch skalierte Werte: Median kann durch die Bildung des Mittelwerts bestimmt werden.
- Mittelwert nur bei metrisch skalierten Merkmalen alle Werte werden addiert und die Summe durch n dividiert. höchste Sensitivität gegenüber Datenausreißern Man kann auch anstellte der Urliste die relative Häufigkeitsverteilung verwenden. Ist sinnvoll bei häufiger auftretenden Werten o. gruppierten Daten. Mittelwert = Ausprägung1 * f1 + a2 * f2+... usw.
-
- Skalen und Lageparameter Nominalskala? Modalwert
- Skalen und Lageparameter Ordinal? Modalwert Median
- Skalen und Lageparameter Metrisch? Modal Median Mittelwert
- Spannweite R Ergibt sich aus dem geordneten Datensatz x(1), x(2)... x(n) Ist die Differenz aus dem größten Wert xmax und dem kleinsten xmin R:= x(n) - x(1) oder auch xmax - xmin
- Varianz/ Stichprobenvarianz ein Maß für die Streuung von Daten. Die Abweichungen der Merkmalswerte vom Mittelwert gehen mit ein bildet den Mittelwert aus den Quadraten der Abweichungen es ist also ein quadratisches Streuungsmaß
- Standardabweichung ein Maß für die Streuung der Werte einer Zufallsvariablen um ihren Erwartungswert Die Standardabweichung besitzt die gleiche Dimension wie die Messwerte der Beobachtungsreihe. Die Dimension der Varianz ist dagegen das Quadrat der Dimension der Beobachtungswerte.
- Berechung der Varianz Formel s² = 1/n * ∑(xi-Mittelwert)²
- Berechnung der Standardabweichung s=√1/n * ∑(xi- Mittelwert)²
- Berechnung der Varianz aus der relativen Häufigkeit s²=∑ (ai- Mittelwert)² * fi
- Quantile Ein Quantil ist ein Lagemaß in der Statistik. Anschaulich ist ein Quantil ein Schwellwert: ein bestimmter Anteil der Werte ist kleiner als das Quantil, der Rest ist größer. Das 25%-Quantil beispielsweise ist der Wert, für den gilt, dass 25% aller Werte kleiner sind als dieser Wert. Quantile erlauben einem ganz praktische Aussagen im Stile von „25% aller Frauen sind kleiner als 1,62 m“ – wobei 1,62 m hier das 25%-Quantil ist.
- Quartilsabstand Differenz der Quartile 0,25 und 0,75 Q = x0,75 - x0,25
- Dezile sind "Quantile" p=0,1 = D1 p=0,1 = D2 ect.
- asymmetrische Verteilung nicht Übereinstimmung von Median und Mittelwert ist ein Indiz für eine Asymmetrie Linkssteile (rechtsschiefe) Verteilung: überwiegende Daten u. höhere Klassenbesetzungshäufigkeiten auf der linken Seite Rechssteile/ linksschiefe Verteilung: fällt an der linken Flanke steiler ab.
- Boxplot ein Diagramm, das zur grafischen Darstellung der Verteilung kardinalskalierter Daten verwendet wird. Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Boxplot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen
- 5 Charakteristika des Boxplots Extremwerte xmin, xmax Quartile x0,25, x0,75 Median Quartile definieren die länge der Box Median ist innherhalb d. Box durch einen Strich visualisiert Extremwerte werden mit d. Box mit Linien verbunden (Spannweite) Länge der Box entspricht dem Quartilsabstand innerhalb der Box 50 % der Daten unterhalb und oberhalb jeweils 25 %