Statistik (Fach) / WS 16 (Lektion)
In dieser Lektion befinden sich 50 Karteikarten
Seeber
Diese Lektion wurde von Abison_Cruso erstellt.
- Was ist Statistik? - Statistik deutet und ordnet die Massen an Daten >> analysiert sie [lernen aus Daten] - Kunstfertigkeit auf Fragen Antworten zu finden, die Methoden sind die Werkzeuge - Die Kunst von Daten zu lernen! - letzendlich die Übersetzung von Daten in Wissen zu übersetzen
- Substanzwissenschaft>> Statistik ? 1. Formulierung einer Fragestellung >>> Bereitstellung geeigneter mathematischer und statistischer Modelle 2. Durchführung einer Studie >> Datensammlung 3. Verarbeitung, Auswertung und Präsentation >>> statistische Datenanalyse 4. Schlussfolgerung >> statistische Schlussfolgerung >>> gibt nicht nur Ergebniss sonder wirft auch neue Fragestellung auf
- Deskriptive Statistik? Beschreibend quantitative Daten zu Tabellen graphische Darstellungen und Kennzahlen >> Aussagen nur über die vorliegenden Daten/Stichprobe
- Induktive Statistik ? Schlussfolgerungen unter Verwendung von stochastischen Modellen Aussagen über Grundgesamtheit
- Explorative Statistik? Suchende Statistik >>Aufspüren von Strukturen mit deskriptiven Methoden, Aussagen über vorliegende Daten, vorsichtige, spekulative Aussagen! Fragen zur Grundgesamtheit.
- Statistische Einheiten ? Grundgesamtheit/Population? Teilgesamtheit/Teilpopulation? Stichprobe? 1. Subjekte oder Objekte für die man sich in einer Studie interessiert 2. Die Gesamtheit der Statistischen Einheiten für die man sich während einer Studie interessiert; >> kann endlich, unendlich oder hypothetisch sein 3. (nicht leere) Teilmenge der Gesamtheit 4. Die tatsächlich untersuchten Teilmenge der Gesamtheit
- Parameter? Statistiken? 1. Maßzahlen, numerisch, in Zahlen ausgedrückte Charakteristika der Grundgesamtheit 2. Aus den Stichproben errechnete Größen
- Zufallsstichproben ? 1. zufällig ausgewählt 2. über jede Einheit der Grundgesamtheit ist die wahrscheinlichkeit bekannt mit der die Einheit von der Zufallsstichprobe ausgewählt wird >> vermeiden von Subjektiven Verzerrungen >> Induktive Schlüsse auf Grundgesamtheit möglich, jedoch mit Unsicherheiten behaften das sie auf Stichproben basieren und somit nur unvolsständige Informationen erhalten. >>> Zufallsstichproben lassen Angaben über die Präzission der Schlüsse zu
- Merkmalstypen? Stetiges Merkmal: Überabzählbare Anzahl an Werten annehmbar (z.b Körpergröße eines Menschen oder die Temperatur eines Sees, man könnte immer noch genauer und noch genauer Messen es gibt immer noch einen Wert genauer, dazwischen) Diskretes Merkmal: endliche viele Elemente oder abzählbar undendlich viele Elemente (z.B alle Menschen die jemals auf der Erde gelebt haben oder Bäume dieser Erde!) [Quasi-stetige]: lassen sich nur diskret beobachten aber aufgrund sehr feiner Abstufung wie stetige Merkmale behandeln.
- Skalen? Nominalskala: Die Ausprägung stellt Namen oder Kategorien dar, die sich gegenseitig ausschließen und keine Ordnung aufweisen! [nominalskaliertes Merkmal] Beispiel: Welche Partei gewählt werden soll? Ordinalskala: Die Ausprägungen können geordnet werden ihre Abstände sind aber nicht interpretierbar! Sie schließen sich auch gegenseitig aus. Beispiel: Wie viel Wert legt man auf ein gutes Arbeitsklima: Wenig, mittel, viel, sehr viel >> abstände nicht interpretierbar, definierbar Intervallskala: Gleiche Abstände zwischen Skalenpunkten, z.B Abstand von 3 zu 4°C ist gleich wie von 39 zu 40°C Ratioskala: Besitz zusätlich echten Nullpunkt, z.B Alter von Menschen, Länge in cm >> es können auch Qutotienten von Merkmalausprägungen sinnvoll gebildet werden.
- Interpretierbarkeit, sinnvolle Berechnung von Skalen? (auszählen, ordnen, differenzen bilden, quotieten bilden) xxxxxxxxxx Nominal / Ordinal / Intervall / Ratio(verhältniss) auszählen Ja / Ja / Ja / Ja ordnen Nein / Ja / Ja / Ja differenzen Nein / Nein / Ja / Ja Quotienten Nein / Nein / Nein / Ja
- Kardinalskala ? Intervall- und Ratio- bzw. Verhältnissskala werden oft zu Kardinalskala zusammengefasst >> ein kardinalskalierstes Merkmal wird als Metrisch bezeichnet!
- qualitative oder kategoriale Merkmale ? quantitative Merkmale? 1.Größen die endlich viele Ausprägungen besitzen und maximal ordinalskaliert sind. 2. Die Ausprägungen geben eine Intensität oder Ausmaß wieder; Messungen im herkömmlichen Sinne die Zahlen darstellen sind quantitative Merkmale, metrische Merkmale sind quantitative Merkmale
- Datenmatrix? rechteckige Tabelle, die die an Untersuchungseinheiten beobachteten Merkmalausprägungen enthält. Zeilen entsprechen den Untersuchungseinheiten Spalten entsprechen den Merkmalen/Variablen
- Häufigkeitsverteilung: absolut, relativ? Absolut: tatsächliche Anzahl, Häufigkeit an Merkmalausprägungen, an Untersuchungsanheiten einer Merkmalausprägung relativ: absolute Häufigkeit dividiert durch die Anzahl an Untersuchungseinheiten
- Graphische Darstellungen, Schaubilder, Graphiken etc.: ? Die Entschlüsselung graphischerInformation ist, mehr als die Entschlüsselung numerischer Information, von subjektiver Interpretation beeinflusst. >> Die Informationsaufnahme durch Graphiken erfolgt schneller als durch andere Medien [ Lenken der Interpretation durch bestimmte graphische Darstellung!! ]
-
- 3 wichtige Punkte beim Design graphischer Darstellungen? 1. Maximiere - in Maßen - das Datentinte-Verhältniss 2. Lösche - in Maßen - Tinte ohne statistischen Inhalt 3. Lösche - in Maßen - redundante Datentinte [ Tufte 2001 ]
- Gute Darstellungen von Häufigkeitsverteilungen ? > Nicht Kreisdiagramme, besser Säulen- und Balkendiagramme !
- Beschreibung von Histogrammen? Unimodal und symetrisch: eingipfelig ohne weitere maxima annähernd symetrisch von der Mitte nach außen hin abnehmend (Glockenkurve) Bimodal: zweigipfelig, es gibt auch mulitmodal. Unimodal unsymetrisch: eingipfelige, schiefe, Verteilung, man spricht von linksschief oder rechtsschief U-Förmig: die beiden Randgebiete des Histogramms weisen die größte Häufigkeit auf.
- Beschreibung von Histogrammen? Unimodal und symetrisch: eingipfelig ohne weitere maxima annähernd symetrisch von der Mitte nach außen hin abnehmend (Glockenkurve) Bimodal: zweigipfelig, es gibt auch mulitmodal. Unimodal unsymetrisch: eingipfelige, schiefe, Verteilung, man spricht von linksschief (rechtssteil) oder rechtsschief (linkssteil) U-Förmig: die beiden Randgebiete des Histogramms weisen die größte Häufigkeit auf.
- arithmetrisches Mittel? Median oder Zentralwert? 1. Summe der erhobenen Merkmalausprägungen dividiert durch die Anzahl der Beobachtungen >> Bsp: Zahlenwerte: 14,51,90,1100,1400 >>> Summe dividiert durch Anzahl 2. Median: Bsp: 14,51,90,1100,1400 >>> Median = 90 (Median ist ein Lagemaß) der Median liegt in demfall an der Stelle 90 und trennt die Zahlenreihe über und unter sich in zwei gleich große hälften (solala)
- arithmetrisches Mittel? Median oder Zentralwert? 1. Summe der erhobenen Merkmalausprägungen dividiert durch die Anzahl der Beobachtungen >> Bsp: Zahlenwerte: 14,51,90,1100,1400 >>> Summe dividiert durch Anzahl Maß der zentralen Tendenz oder Lagemaß 2. Median: Bsp: 14,51,90,1100,1400 >>> Median = 90 (Median ist ein Lagemaß) der Median liegt in demfall an der Stelle 90 und trennt die Zahlenreihe über und unter sich in zwei gleich große hälften (solala)
- Fünf-Punkte Charakterisierung von Häufigkeitsverteilungen? 1. Mininmum min(y) 2. unteres quartil y0,25 3. Median y0,5 4. oberes Quartil y0,75 5. Maximum max(y)
- Varianz? Standardabweichung? Varianz ist ein Streuungsmaß: Ermittelt aus der Summe, der jeweiligen quadranten der Abweichungen jeder Ausprägung eines Merkmals zum Arithmetrischen Mittel: [s² oder Sigma²] Beispiel: Betrachtet wird das Merkmal Alter in einer Stichprobe aus 5 Personen. Die Messwerte sind 14, 17, 20, 24 und 25 Jahre. Der Mittelwert beträgt also 100/5=20 Jahre. Nun werden die Abweichungen der einzelnen Messwerte vom Mittelwert berechnet: (14-20)=-6, (17-20)=-3, (20-20)=0, (24-20)=4 und (25-20)=5. Die quadrierten Abweichungen betragen also 36, 9, 0, 16, 25 und ergeben eine Summe von 86. Die Varianz beträgt somit 86/5=17,2 Jahre² Standardabweichung: Durchschnittliche Abweichung aller Ausprägungen eines Merkmals vom Arithmetrischen Mittelwert. [s oder Sigma]: Ermittelt wird die Standardabweichung aus der Quadratwurzel der Varianz!
- Normalverteilung, Standardabweichung ? Normalverteilt wenn gilt: arithmetrisches Mittel +- s = 68% ; arith.Mittel +- 2s = 95%
- Statistische Ausreißer? In der Regel Werte die um mehr als das 1,5 fache vom unteren Quartil nach unten und vom oberen Quartil nach oben abweichen.
- Konzentration? Absolute, Relative? Die Messung der Konzentration ist nur sinnvoll wenn alle Merkmalswerte nicht negativ sind! Man spricht von Konzentration wenn sich eine Ungleichverteilung aufzeigt. Die Absolute Konzentration bezieht die relative Merkmalssummen auf die Anzahl der Vorkommnisse BSP: Der Vater (5köpfiger Familie) bringt 90% des Geldes in die Familie: Absolute Konzentration: 1 Vater 90 % Einkommen Die Relative Konzentration hingegen bezieht die relative Merkmalssummen in das Verhältnis zum Anteil der Merkmalsträger an der Gesamtheit aller Merkmalsträger: 20% der Familie (1Vater) erwirtschaften 90% des Einkommens.
- Lornezkurve? Gini-Koeffizient? 1. Bietet einen Weg die Konzentration Graphisch darzustellen. Die Anteile der Merkmalsträger an der Grundgesamtheit werden dabei und ihre Anteile an Merkmalssummen werden dabei in Beziehung gesetzt. In einem Koordinaten-System. Die jeweilige Beziehung der Anteile der Merkmalsträger und deren Merkmalssummen wird aufsteigend kummuliert dargestellt >>>sodass zum Vergleich wird eine gerade (Gleichverteilung) von (0/0) zu (1/1) gelegt werden kann. Je stärker die Lorenzkurve durchhängt desto größer ist die Konzentration, und damit die Ungleichverteilung. Der Gini-Koeffizient ist ein Wert um die relative Konzentration zu Messen. Der Koeffizient gibt den Wert (normierter Gini-Koeffizient auch Lorenz-Münzer-Koeffizient genannt, geben den doppelten Wert) der Fläche zwischen der Gleichverteilungsgerade und der Lorenzkurve an!
- Bivariate Statistik? Zwei Variablen und n Zeilen >> für jede Untersuchungseinheit i liegt also ein Merkmalausprägungs Paar (xi,yi) vor!
- 3 Arten von Variablen? 1. Zielvariablen, abhängige Variablen >> werden von anderen Größen beeinflusst. 2. unabhängige Variablen, Einflussgrößen >> üben auf andere Variablen einfluss. 3. Qualitativ unabhängige Variablen auch Faktoren genannt
- Gerichtete vs ungerichtete Zusammenhangsstrukturen ? 1. Unterscheindung von Einflussgröße und Zielvariable 2. keine Unterscheindung
- Gerichtete Zusammenhangsstruktur > Koordinatensystem, was wo ? 1. Abhängige (Zielvariable) Variabel auf der Y-Achse 2. Einflussgröße Variabel auf der X-Achse
-
- Gerichtete Zusammenhangsstruktur > Koordinatensystem, was wo ? 1. Abhängige (Zielvariable) Variabel auf der Y-Achse (Ordinate) 2. Einflussgröße Variabel auf der X-Achse (Abszisse)
- Muster bei Streudiagrammen ? Ist ein eindeutiges Muster in einem Streudiagramm zu erkennen spricht man von einem Zusammenhang, Merkmalausprägungen die klar ausserhalb dieses Musters liegen werden statistische Außreiser genannt.
- Kovarianz? Maß für den linearen Zusammenhang zweier Variablen: + Vorzeichen >> Steigt ein Wert xi steigt der Wert yi auch - Vorzeichen >> Steigt ein Wert xi nimmt der Wert yi ab >> Ein Wert von Null oder nahe Null deutet darauf hin das kein Zusammenhang besteht Sxy= 1/n * [SummeE (Xi-Xarith.M)* (Yi-Yarith.M)
- Korrelationskoeffizient nach Bravais-Pearson Die Kovarianz dividiert durch die Summe der Standardabweichungen von X und Y (der beiden Variablen) ist eine Zahl zwischen -1 und 1 >> deren Absolutbetrag die Stärke des linearen Zusammenhangs bestimmt >> r= r x,y= Sxy/ (Sx+Sy) >> -1: alle Punkte liegen exakt auf einer Linie mit negativer Steigung >>1: alle Punkte liegen exakt auf einer Linie mit positiver Steigung
- Korrelationskoeffizient nach Bravais-Pearson Die Kovarianz dividiert durch die Summe der Standardabweichungen von X und Y (der beiden Variablen) ist eine Zahl zwischen -1 und 1 >> deren Absolutbetrag die Stärke des linearen Zusammenhangs bestimmt >> r= r x,y= Sxy/ (Sx+Sy) >> -1: alle Punkte liegen exakt auf einer Linie mit negativer Steigung >>1: alle Punkte liegen exakt auf einer Linie mit positiver Steigung >>>> Maßzahl für stärke und Richtung eines (linearen) Zusammenhangs zweier metrisch skalierten Merkmale, trifft jedoch keien Aussagen wie steil eine Gerade ist.
- Odds Ratio Formelt?Relative Chance oder Kreuzproduktverhältnis! XXXX erinnert /// nicht erinnert ///// Summe Spot A 50 /// 74 ///// 124 Spot B 93 /// 101 ///// 194 >>> Gamma = (50/93) / (74/101) = 50 * 101 / 74 *93 [= 0,733] >>> Die Chance sich an Spot A zu erinnern ist um 26,7 % geringer als sich an Spot B zu erinnern!! Gamma = 1 >> Chancen gleich groß Gamma > 1 Chance von A größer Gamma < 1 Chance von A kleiner
- Chi² Formel? (hi(Häufigkeit)-He(Erwartungshäufigkeit))²/ He >>> normierte quadrierte Abweichung E(Summe n) normierter quadrierter Abweichungen >>> Chi² Nullhypothese wird verworfen (keine Gleichverteilung) wenn Chi² > Chi² (1-Signifikanzniveau)(k-1 Freiheitsgrad) (TABELLE) ist!
- Chi² Formel? (hi(Häufigkeit)-He(Erwartungshäufigkeit))²/ He >>> normierte quadrierte Abweichung E(Summe n) normierter quadrierter Abweichungen >>> Chi² Nullhypothese wird verworfen (keine Gleichverteilung) wenn Chi² > Chi² (1-Signifikanzniveau)(k-1 Freiheitsgrad) (TABELLE) ist! Mit dem Chi²-Test ob die reale Verteilung über die Kategorien hk dem Erwartungswert He entspricht also Gleichverteilt ist = Nullhypothese!
- Kontingenzkoeffizient Formel? Wurzel aus Chi²/(Chi²+n) >> diesen normiert (ist er fast) seine Wertebereich liegt bisher von 0 bis (auf jeden Fall) unter 1 >>> jedoch kleinerer Wert geringer Zusammenhang , größerer Wert, großer Zusammenhang
- Stichprobenerhebungs Methoden? Einfache Zufallsstichprobe - Jede Untersuchungseinheit gleiche Wahrscheinlichkeit ausgewählt zu werden Geschichtete Zufallsstichprobe - Verschiedene Schichten (nicht überlappende), werden jeweils mit einfachen Zufallsstichproben ausgewählt >>> damit aus kleineren schichten genug Proben generiert werden Cluster- Klumpenstichprobe - Aus großer Anzahl kleiner Cluster werden einzelne Cluster per Zufall ausgewählt und in welchen dann eine Vollerhebung stattfindet. Quotenstichprobe - oftmals definierte Regeln z.B festgelegte Zeitabstände einer Befragung o.Ä
- Repräsentative Stichprobe `? Eine Stichprobe gilt als repräsentativ wenn sie Rückschlüsse auf die Grundgesamtheit zulässt! Kein mathematisch präzise definierter Begriff
- Bernoulliverteilung? Beschreibung von zufälligen Ereignissen bei denen nur zwei mögliche Versuchsausgänge interessieren, z.B 0 oder 1 ! Bsp.: Werfen einer Münze (Wappen p = 1 / 2, Zahl q = 1 / 2)Werfen eines Würfels, wobei nur eine „6“ als Erfolg gewertet wird: p = 1 / 6, q = 5 / 6Qualitätsprüfung (ok, nicht ok)
- Binomialverteilung? Binomialverteilung beschreibt den wahrscheinlichen Ausgang einer Folge von gleichartigen Prozessen, bei denen es nur zwei Ausgangsmöglichkeiten gibt. Also die Ergebnisse von Bernoulli-Prozessen. Wenn die Wahrscheinlichkeit eines Ausgangs p ist und die Zahl der Versuche n ist gibt die Binomialverteilung an mit welcher Wahrscheinlichkeit k-Erfolge eintreffen
- Normalverteilung? Gaußkurve, Glockenkurve etc.? Normalverteilung beruht auf dem zentralen Grenzwertsatz, der besagt das wenn beliebig viele unabhängige, identisch verteilte Variablen normal verteilt sind. Also oftmals komplexe nicht bekannte Verteilungen die unter sehr vielen Einflussfaktoren stehen sind oft Normalverteilt. Solala Solala
- Stetige und Diskrete Verteilungen ? Stetige: Chi-Quadrat-(nicht-negativ, 1Parameter (Freiheitsgrad); Fisher-(allen reellen Zahlen, 2Parameter(Freiheitsgrade); Student-(allen reellen Zahlen, 1Parameter(Freiheitsgrad) Diskrete: bernoulli, binomial, hypergeometrische-(z.B Urnenmodell ohne zurücklegen); geometrische; Multinomiale-(k>2möglichkeiten)
- Dichtefunktion? Integral f(x)dx=1 ! [Verteilungsfunktion]
- Standardfehler des Mittelwertes? Ist die Standardabweichung der Schätzung des Mittelwertes der Grundgesamtheit, durch den Mittelwert der Stichprobe.
- Was ist der Fehler 1.Art, was der Fehler 2.Art ? 1. Art ist, wenn die Aktion ist Ho abzulehnen, Ho jedoch korrekt ist 2. Art ist, wenn die Aktion ist Ho anzunehmen, Ho jedoch falsch ist
-