Statistik (Fach) / Übung (Lektion)

In dieser Lektion befinden sich 81 Karteikarten

Slides

Diese Lektion wurde von Abison_Cruso erstellt.

Lektion lernen

  • Algorithmus? Abfolge von Anweisungen, für Arbeitsschritte und Entscheidungen, zur zeitlich sequentiellen Ausführung
  • Programm? Algorithmus der in festgelegter formaler Sprache abgefasst ist und sich für die Ausführung am Computer eignet. 
  • Syntax? '' Grammatik '' der formalen Programiersprache; Regeln wie Anweisungen, Ausführungen auszusehen haben.
  • Die verschiedenen Datentypen und deren deutsche/englische Bezeichnung und deren Wertebereiche!?? integer (Ganzzahlen) +-2 *10^9 double (Gleitkommazahlen) +-10^308 factor (Kategorie) Buchstaben und Zahlen character (Zeichenketten) Buchstaben und Zahlen logical (bool'sche Werte) True/False
  • Verschiedene Datenobjekte deren Eigenschaften und Syntax!!?? Vektor: Abfolge von einträgen des selben Datentyps; c(1,2,3,4,5) ({1,2,3,4,5} sind Elemente des Vektors) Liste: Abfolge von einträgen beliebiger Datentypen(auch Liste in Liste), list(1,2,"Kuppe","Mulde",5) Data Frame: "Tabelle", Objekt mit Zeilen und Spalten, data.frame (col1{Name der ersten Spalte}=c(1,2,3,4,5), col2{Name der zweitenSpalte}=c(5,4,3,2,1)  
  • Zuweisung und regeln eigener Variablen? Zuweisung durch = oder <-, dürfen nicht mit einer Zahl beginnen, sollten keine Umlaute oder Sonderzeichen enthalten
  • Vergleichende, logische und Syntaxausdrücke ? |   oder    , &  und , !  ist nicht <   kleiner als > größer als <= kleiner gleich >= größer gleich == gleich !!!! != verschieden
  • Syntax verschiedener Funktionen und deren Bedeutung ? sum(x) >> Summe der Elemente in x prod(x) >> Produkt der Elemente in x max(x) >> Maximum der Elemente in x min(x) >> Minimum der Elemente in x which.max/min(x) >> Index des Max/Min der Elemente in x range(x) >> Spannweite der Elemente in x (max(x)-min(x)) lenght(x) >> Anzahl der Elemente in x round(x,n) >> Runden von x auf n nachkommastellen rank(x) >> Rang der Elemente in x mean(x) >> Mittelwert der Elemente von x median(x) >> Median table(x) >> Häufigkeitstabelle der Werte in x rev(x) >> kehrt Reihenfolge um sort(x) >> Sortiert in ansteigender Reihenfolge rev(sort(x)) >> Sortiert in absteigender Reihenfolge log(x,b) >> Logarithmus von x zur Basis b
  • ls() ; seq() ; plot() , setwd() , print() ??? ls() > Listet Daten der aktuellen R Studio Session auf seq() > Generiert eine Sequenz (Abfolge von Zahlen;Vector) plot() > stellt Daten graphisch dar (Diagramm) setwd() > Setzt den pfad des Arbeitsverzeichnisses print() > Gibt einen Wert in der Kommandozeile aus
  • Einstelloptionen der Funktion read.table ?? sep = ";" | "," | "\t"  Default= " " header = True/False (hat der Datensatz eine Spaltenbezeichnung?) Default= False dec = "," | "." >> definiert das Kommazeichen Default = "." skip = (Anzahl an Zeilen die Übersprungen werden sollen) Default=0 stringAsFactors= True|False Default=False (sollen Zeichenketten(character) als Kategorien(Factor) importiert werden
  • Funktion seq Optionen ? Generieren eines Vektors ? seq( from, to, by) (by=Schrittweite) z.B seq(1,5,1) >> 1,2,3,4,5
  • Wie selektiere ich genau einen Wert aus meiner Tabelle aus Spalten und Zeilen ? 1. shalan[R,C] (row,column | zeile,spalte) 2. shalan$z.BHangneigung[R]
  • Attribut basierte Selektion >> selektier alle Daten der dritten Spalte die in der ersten Spalte einen Wert zwischen 0 und 1 haben shalan[,3](shalan[,1]>=0)&(shalan[,1]<=1)]
  • Nominalskala, Ordinalskala, Kardinalskalen Nominalskala > Zu ordnen nach gleich oder verschieden (Factor) Ordinalskala > Gleich oder verschieden mit Reihenfolge (Ordered Factor) Kardinalskala: Größe und abstand metrisch! (Double & integer) - Intervallskala (ohne natürlichen Nullpunkt und Einheit) - Verhältnisskala (mit natürlichem Nullpunkt ohne Einheit) - Absolutskala (mit natürlichem Nullpunkt und Einheit)
  • Überblick in die Daten verschaffen? view() str() summary() names()
  • na.fail()?, is.na()?, na.omit()? na.fail >> Fehlmeldung falls NA is.na >> kreiert boolsch'en Vektor True bei NA Fals bei nicht NA na.omit >> Reihen mit NAs werden weggelassen
  • as.factor()? as.factor kreiert Nominaldaten aus den vorhandenen Daten ...
  • mit data.frame neuen Datensatz kreieren bsp: 5 mal aus einem Hut mit 10 Bällen ziehen, 3 Rot, 4 Blau, 3 Grün ohne zurücklegen Ereigniss wiedergeben und wahrscheinlichkeiten, Beliebig viele Spalten möglich etc data.frame(Zug=1:5,Farbe=c("Blau","Blau","Grün","Rot","Grün"), p=c("0.4","0.333","(3/8)","(3/7)","0.25")
  • Mit Hilfe von Subset Teilmenge eines DataFrames bekommen? Beispiel mit den Kugeln, >> DataFrame nur mit den Grünen und Blauen Kugeln und deren Ziehwahrscheinlichkeiten subset(dataframe, Farbe=="Blau"  | Farbe=="Grün", c("Farbe", "p"))
  • Generieren eines zufälligen samples? set.seed(101) Zufallssample= sample(x=1:20, size=5, replace= F)
  • Zusätzliche Spalte oder Reihe zu einem dataFrame hinzufügen ? cbind() spalten ; rbind()für reihen >> erst vektor dann binden rbind(): z=c(10,20) rbind(Spaltennamen, z)
  • Klasseneinteilung kreieren ? BSP. Hangneigungsklassen 3 Stück (0-2, 2-10, >10°) Neigungsklassen = cut( dataframe$hangneigung, breaks=c(0,2,10,90),labels =False) {sost faktoren die die Grenzwerte verscheiben} NeigungsklassenDataFrame = as.data.frame(cbind(hangneigung,neigungsklassen)) fertisch
  • Funktion merge () ? BSP. Neigungsklassen qualitativ bewerten und anhängen Achtung viele Default einstellungen! 1="eben" 2="geneigt" 3="steil" Klasse=1:3 text= c("eben","geneigt","steil") legende= as.data.frame(cbind(klasse,text)) neigung_df = merge(x=neigung_df, y= legende, by.x="neigungsklassen",by.y= "klasse") Solala Sollala
  • plot() , welche parameter gehören alle in den Befehl? plot(dataframex,dataframey,type="p"|"l"|, main="Titel", pch=Zahl für Punkttyp bei type=p, col="Farbe", xlim=c(min,max von xachse), ylim=c(bei y))
  • Lageparameter von Häufigkeitsverteilungen ? Streuungsparameter von "" ? Gestaltparameter von "" ? Modus, Quantile, arithmetrisches Mittel, geometrisches Mittel, harmonisches Mittel Varianz, Standardabweichung, Spannweite, Interquartilsabstand Wölbung und Schiefe
  • Welcher ist der einzige sinnvolle Lageparameter für Nominaldaten ? Der Modus >> Jener Wert der das max der rel. Häufigkeit enthält
  • Harmonisches Mittel? geometrisches Mittel? Mittelwert eines Verhältniss zweier Einheiten Mittelwert zeitlich aufeinanderfolgender Wachstumsraten
  • Plotting Möglichkeiten? plot(x-koordinaten, y-koordinaten, main"(Titel)", xlab(beschriftung x-Achse, ylab, xlim(Achsenlimitierung), ylim, pch(Punktetyp), cex (Symbolgröße), lty(Linientyp), lwd(Linienstärke), type (p(punktdiagramm),l(linien),Stufendiagramm, Pseudohistogramm)
  • was ist par`? Möglichkeiten Globale  Einstellungen für Plots.  xaxs, yaxs >> Schnittpunkte der x-,y-Achse pty >> Seitenverhätlniss der Achsen mfcol (Achsen, Spaltenanzahl)
  • Type möglichkeiten bei Plots? p Punkte l Linie b Punktlinie h striche s von unten nach Oben S von oben nach Unten
  • Verschiedene Plot-Funktionen? Add Ons !!? barplot() hist() boxplot() pie() ||||||||||| lines(Linie hinzufügen) points(Punkte hinzufügen) abline (gerade hinzufügen)
  • include, echo = F ? echo lässt nur die Funktionen raus (z.B mean(cars) >> 15.4 >> html >> 15.4, echo=T >>> html>> mean:> 15.4 include = lässt gesamten Chunk aus
  • In Histogramm Klassenabgrenzung änder? breaks = Zahl an Klassen
  • Funktion für Dichtespur? Vorraussetzungen? density(x, kernel=(Gewichtung der Werte),bw= Bandwith(Fensterbreite) min Kardinalskaliert und stetige Verteilung
  • Wichtigste Verteilungen? Kombinierbar mit welchen Funktionen ? binom > binomial lnorm > logarithmischNormal norm > normal exp > exponential Funktionen >> d,p,q,r
  • 1 Sigma, 2 Sigma, 3Sigma Werte ? +- 1 Sigma >> 68,27% +-2 Sigma >> 95,4 % +- 3 Sigma >> 99,7%
  • Größe Whisker ? 99,3%
  • Probleme bei der Dichtespur? Nicht durch eine Stammfunktion (=analytisch) darstellbar
  • Vorgehensweise bei Teststatistik ? Testentscheidung!! 1. Datengrundlage: Stichprobe x 2. Visualisieren der Daten: Auf Normalverteilung testen, unabhängig oder abhängige Stichprobe? 3. Formulierung des statistischen Testproblems: HO> kein effekt, keine Differenz, kein Unterschied; H1 >> Effekt, Differenz, Unterschied (Hypothese, die wir beweisen möchten) 4.Festlegung des Signifikanzniveaus 5. Wahl des Tests, nach Datengrundlage, Skalenniveau, Fragestellung  6. TESTENTSCHEIDUNG: p< Signifikanzniveau , Nullhypothese wird abegelehnt H1 als gültig erklärt; p>Signifikanzniveau >> Nullhypothese kann nicht abgelehnt werden ist damit aber nicht bewiesen !!!!!!!!!!!!!!!!!
  • Fehler 1.Art, 2.Art ? 1.Art >> Alpha Fehler, wenn die Nullhypothese abgelehnt wird obwohl sie in Wirklichkeit wahr ist 2.Art >> Beta Fehler, wenn die Nullhypothese bestätigt wird obwohl die Alternativhypothese korrekt ist
  • Wann spricht man von verbundenen / unabhängigen Stichproben ? Verbundene Stichproben : > Daten von den gleichen Fällen stammen                                            > Daten können paarweise zusammengefasst werden                                           > z.B Selber Patient vor und nach einer Behandlung oder                                                                  Gewässerproben vor und nach Bau einer Fabrik Unabhängige: Daten die von unterschiedlichen Fällen stammen                          > Test auf Veränderungen/Gemeinsamkeiten                         > z.B. Proben verschiedener Gewässer
  • Aussagen des Standardfehlers des Mittelwerts`? Spiegelt Robustheit eines Mittelwerts einer gegebenen Stichprobe an (generell Robuster mit zunehmender Stichprobengröße) Streuungsmaß für den Mittelwert einer Stichprobe
  • Tests auf Normalverteilung ? shapiro-wilk-test > Sytnax: shapiro.test (x) >> stärke funktioniert auch bei kleinen Stichproben H0> Normalverteilung ; H1> Keine Normalverteilung Kolmogorow-Smirnow Test: Syntax: ks.tes(x,y) >> Test ob Verteilung x (Daten) = Verteilung y (z.B pnorm(normalverteilung)) ist, Mittelwert und Standardabweichung müssen zuvor bekannt sein)
  • Syntax Einstichproben T-Test ? t.test(x,mu=0(Erwartungswert), conf.level= 0.95(Signifikanzniveua)
  • Vorraussetzungen für den Zweistichproben t-test ? Normalverteilung, unabhängige Variablen, min Kardinalskaliert
  • Was geben Notches an ? Wenn sich die Notches zweier Stichprobenverteilungen ´überschneiden, weisen ihre Mediane keinen Signifikanten unterschied auf !  >> entsprechend dem Signifikanzniveau >> gegebenenfalls auch keine Signifikanzunterschiede bei den Mittelwerten
  • Unterschied vom Zweistichproben t-test abhängiger Variablen zu unabhängigen? Differenzen der geeparten Werte werden getestet. Unterschied in der Syntax : Zusätzliche Eingabe paired=T
  • Mann-Whitney-Test, Ziel ? Vorraussetzungen? Syntax? Überprüfung ob sich die Mediane zweier unabhänigen Stichproben Signifikant Unterscheiden >> Min Ordinalskaliert, unabhängige Stichproben (Keine Normalverteilung notwendig) wilcox.test(x,y)
  • Was ist bei einseitigen Hypothesen Tests zu beachten !`? Die Reihenfolge der Datensätze muss der Aufgestellten Hypothese entsprechen! z.B wilcox.test(Sprit[AutosAutomatik],Sprit[AutosManuel], alternative="less") >>> Verbrauchen Autos mit Automatik[1.] signifikant weniger[alternative=less] Sprit, wie Autos mit Manueller Schaltung[2] oder wilcox.test(Sprit[AutosManuel],Spri[AutosAutomatik], alternative="greater") >>  Verbrauchen Autos mit Manueller Schaltung[1.] signifikant mehr[alternative=greater] Sprit, wie Autos mit Automatik[2]
  • Vorraussetzungen, Ziel Kruskal-Wallis-Test? Syntax`? Ziel: Überprüfung ob sich die Mediane zweier oder mehrerer unabhängiger Stichproben Signifikant unterscheiden > Keine Normalverteilung > unabhängige Stichproben >Unterschiedliche Skalenniveaus möglich (z.B. Kategorien +Messwerte) Syntay: kruskal.test(x,g) g= Datengruppen z.B Geschlecht,Altersklassen,Monate