Übung - Statistik learn online

Statistik (Subject) / Übung (Lesson)

There are 81 cards in this lesson

Slides

This lesson was created by Abison_Cruso.

Learn lesson

Algorithmus? Abfolge von Anweisungen, für Arbeitsschritte und Entscheidungen, zur zeitlich sequentiellen Ausführung
Programm? Algorithmus der in festgelegter formaler Sprache abgefasst ist und sich für die Ausführung am Computer eignet.
Syntax? '' Grammatik '' der formalen Programiersprache; Regeln wie Anweisungen, Ausführungen auszusehen haben.
Die verschiedenen Datentypen und deren deutsche/englische Bezeichnung und deren Wertebereiche!?? integer (Ganzzahlen) +-2 *10^9 double (Gleitkommazahlen) +-10^308 factor (Kategorie) Buchstaben und Zahlen character (Zeichenketten) Buchstaben und Zahlen logical (bool'sche Werte) True/False
Verschiedene Datenobjekte deren Eigenschaften und Syntax!!?? Vektor: Abfolge von einträgen des selben Datentyps; c(1,2,3,4,5) ({1,2,3,4,5} sind Elemente des Vektors) Liste: Abfolge von einträgen beliebiger Datentypen(auch Liste in Liste), list(1,2,"Kuppe","Mulde",5) Data Frame: "Tabelle", Objekt mit Zeilen und Spalten, data.frame (col1{Name der ersten Spalte}=c(1,2,3,4,5), col2{Name der zweitenSpalte}=c(5,4,3,2,1)
Zuweisung und regeln eigener Variablen? Zuweisung durch = oder <-, dürfen nicht mit einer Zahl beginnen, sollten keine Umlaute oder Sonderzeichen enthalten
Vergleichende, logische und Syntaxausdrücke ? | oder , & und , ! ist nicht < kleiner als > größer als <= kleiner gleich >= größer gleich == gleich !!!! != verschieden
Syntax verschiedener Funktionen und deren Bedeutung ? sum(x) >> Summe der Elemente in x prod(x) >> Produkt der Elemente in x max(x) >> Maximum der Elemente in x min(x) >> Minimum der Elemente in x which.max/min(x) >> Index des Max/Min der Elemente in x range(x) >> Spannweite der Elemente in x (max(x)-min(x)) lenght(x) >> Anzahl der Elemente in x round(x,n) >> Runden von x auf n nachkommastellen rank(x) >> Rang der Elemente in x mean(x) >> Mittelwert der Elemente von x median(x) >> Median table(x) >> Häufigkeitstabelle der Werte in x rev(x) >> kehrt Reihenfolge um sort(x) >> Sortiert in ansteigender Reihenfolge rev(sort(x)) >> Sortiert in absteigender Reihenfolge log(x,b) >> Logarithmus von x zur Basis b
ls() ; seq() ; plot() , setwd() , print() ??? ls() > Listet Daten der aktuellen R Studio Session auf seq() > Generiert eine Sequenz (Abfolge von Zahlen;Vector) plot() > stellt Daten graphisch dar (Diagramm) setwd() > Setzt den pfad des Arbeitsverzeichnisses print() > Gibt einen Wert in der Kommandozeile aus
Einstelloptionen der Funktion read.table ?? sep = ";" | "," | "\t" Default= " " header = True/False (hat der Datensatz eine Spaltenbezeichnung?) Default= False dec = "," | "." >> definiert das Kommazeichen Default = "." skip = (Anzahl an Zeilen die Übersprungen werden sollen) Default=0 stringAsFactors= True|False Default=False (sollen Zeichenketten(character) als Kategorien(Factor) importiert werden
Funktion seq Optionen ? Generieren eines Vektors ? seq( from, to, by) (by=Schrittweite) z.B seq(1,5,1) >> 1,2,3,4,5
Wie selektiere ich genau einen Wert aus meiner Tabelle aus Spalten und Zeilen ? 1. shalan[R,C] (row,column | zeile,spalte) 2. shalan$z.BHangneigung[R]
Attribut basierte Selektion >> selektier alle Daten der dritten Spalte die in der ersten Spalte einen Wert zwischen 0 und 1 haben shalan[,3](shalan[,1]>=0)&(shalan[,1]<=1)]
Nominalskala, Ordinalskala, Kardinalskalen Nominalskala > Zu ordnen nach gleich oder verschieden (Factor) Ordinalskala > Gleich oder verschieden mit Reihenfolge (Ordered Factor) Kardinalskala: Größe und abstand metrisch! (Double & integer) - Intervallskala (ohne natürlichen Nullpunkt und Einheit) - Verhältnisskala (mit natürlichem Nullpunkt ohne Einheit) - Absolutskala (mit natürlichem Nullpunkt und Einheit)
Überblick in die Daten verschaffen? view() str() summary() names()
na.fail()?, is.na()?, na.omit()? na.fail >> Fehlmeldung falls NA is.na >> kreiert boolsch'en Vektor True bei NA Fals bei nicht NA na.omit >> Reihen mit NAs werden weggelassen
as.factor()? as.factor kreiert Nominaldaten aus den vorhandenen Daten ...
mit data.frame neuen Datensatz kreieren bsp: 5 mal aus einem Hut mit 10 Bällen ziehen, 3 Rot, 4 Blau, 3 Grün ohne zurücklegen Ereigniss wiedergeben und wahrscheinlichkeiten, Beliebig viele Spalten möglich etc data.frame(Zug=1:5,Farbe=c("Blau","Blau","Grün","Rot","Grün"), p=c("0.4","0.333","(3/8)","(3/7)","0.25")
Mit Hilfe von Subset Teilmenge eines DataFrames bekommen? Beispiel mit den Kugeln, >> DataFrame nur mit den Grünen und Blauen Kugeln und deren Ziehwahrscheinlichkeiten subset(dataframe, Farbe=="Blau" | Farbe=="Grün", c("Farbe", "p"))
Generieren eines zufälligen samples? set.seed(101) Zufallssample= sample(x=1:20, size=5, replace= F)
Zusätzliche Spalte oder Reihe zu einem dataFrame hinzufügen ? cbind() spalten ; rbind()für reihen >> erst vektor dann binden rbind(): z=c(10,20) rbind(Spaltennamen, z)
Klasseneinteilung kreieren ? BSP. Hangneigungsklassen 3 Stück (0-2, 2-10, >10°) Neigungsklassen = cut( dataframe$hangneigung, breaks=c(0,2,10,90),labels =False) {sost faktoren die die Grenzwerte verscheiben} NeigungsklassenDataFrame = as.data.frame(cbind(hangneigung,neigungsklassen)) fertisch
Funktion merge () ? BSP. Neigungsklassen qualitativ bewerten und anhängen Achtung viele Default einstellungen! 1="eben" 2="geneigt" 3="steil" Klasse=1:3 text= c("eben","geneigt","steil") legende= as.data.frame(cbind(klasse,text)) neigung_df = merge(x=neigung_df, y= legende, by.x="neigungsklassen",by.y= "klasse") Solala Sollala
plot() , welche parameter gehören alle in den Befehl? plot(dataframex,dataframey,type="p"|"l"|, main="Titel", pch=Zahl für Punkttyp bei type=p, col="Farbe", xlim=c(min,max von xachse), ylim=c(bei y))
Lageparameter von Häufigkeitsverteilungen ? Streuungsparameter von "" ? Gestaltparameter von "" ? Modus, Quantile, arithmetrisches Mittel, geometrisches Mittel, harmonisches Mittel Varianz, Standardabweichung, Spannweite, Interquartilsabstand Wölbung und Schiefe
Welcher ist der einzige sinnvolle Lageparameter für Nominaldaten ? Der Modus >> Jener Wert der das max der rel. Häufigkeit enthält
Harmonisches Mittel? geometrisches Mittel? Mittelwert eines Verhältniss zweier Einheiten Mittelwert zeitlich aufeinanderfolgender Wachstumsraten
Plotting Möglichkeiten? plot(x-koordinaten, y-koordinaten, main"(Titel)", xlab(beschriftung x-Achse, ylab, xlim(Achsenlimitierung), ylim, pch(Punktetyp), cex (Symbolgröße), lty(Linientyp), lwd(Linienstärke), type (p(punktdiagramm),l(linien),Stufendiagramm, Pseudohistogramm)
was ist par`? Möglichkeiten Globale Einstellungen für Plots. xaxs, yaxs >> Schnittpunkte der x-,y-Achse pty >> Seitenverhätlniss der Achsen mfcol (Achsen, Spaltenanzahl)
Type möglichkeiten bei Plots? p Punkte l Linie b Punktlinie h striche s von unten nach Oben S von oben nach Unten
Verschiedene Plot-Funktionen? Add Ons !!? barplot() hist() boxplot() pie() ||||||||||| lines(Linie hinzufügen) points(Punkte hinzufügen) abline (gerade hinzufügen)
include, echo = F ? echo lässt nur die Funktionen raus (z.B mean(cars) >> 15.4 >> html >> 15.4, echo=T >>> html>> mean:> 15.4 include = lässt gesamten Chunk aus
In Histogramm Klassenabgrenzung änder? breaks = Zahl an Klassen
Funktion für Dichtespur? Vorraussetzungen? density(x, kernel=(Gewichtung der Werte),bw= Bandwith(Fensterbreite) min Kardinalskaliert und stetige Verteilung
Wichtigste Verteilungen? Kombinierbar mit welchen Funktionen ? binom > binomial lnorm > logarithmischNormal norm > normal exp > exponential Funktionen >> d,p,q,r
1 Sigma, 2 Sigma, 3Sigma Werte ? +- 1 Sigma >> 68,27% +-2 Sigma >> 95,4 % +- 3 Sigma >> 99,7%
Größe Whisker ? 99,3%
Probleme bei der Dichtespur? Nicht durch eine Stammfunktion (=analytisch) darstellbar
Vorgehensweise bei Teststatistik ? Testentscheidung!! 1. Datengrundlage: Stichprobe x 2. Visualisieren der Daten: Auf Normalverteilung testen, unabhängig oder abhängige Stichprobe? 3. Formulierung des statistischen Testproblems: HO> kein effekt, keine Differenz, kein Unterschied; H1 >> Effekt, Differenz, Unterschied (Hypothese, die wir beweisen möchten) 4.Festlegung des Signifikanzniveaus 5. Wahl des Tests, nach Datengrundlage, Skalenniveau, Fragestellung 6. TESTENTSCHEIDUNG: p< Signifikanzniveau , Nullhypothese wird abegelehnt H1 als gültig erklärt; p>Signifikanzniveau >> Nullhypothese kann nicht abgelehnt werden ist damit aber nicht bewiesen !!!!!!!!!!!!!!!!!
Fehler 1.Art, 2.Art ? 1.Art >> Alpha Fehler, wenn die Nullhypothese abgelehnt wird obwohl sie in Wirklichkeit wahr ist 2.Art >> Beta Fehler, wenn die Nullhypothese bestätigt wird obwohl die Alternativhypothese korrekt ist
Wann spricht man von verbundenen / unabhängigen Stichproben ? Verbundene Stichproben : > Daten von den gleichen Fällen stammen > Daten können paarweise zusammengefasst werden > z.B Selber Patient vor und nach einer Behandlung oder Gewässerproben vor und nach Bau einer Fabrik Unabhängige: Daten die von unterschiedlichen Fällen stammen > Test auf Veränderungen/Gemeinsamkeiten > z.B. Proben verschiedener Gewässer
Aussagen des Standardfehlers des Mittelwerts`? Spiegelt Robustheit eines Mittelwerts einer gegebenen Stichprobe an (generell Robuster mit zunehmender Stichprobengröße) Streuungsmaß für den Mittelwert einer Stichprobe
Tests auf Normalverteilung ? shapiro-wilk-test > Sytnax: shapiro.test (x) >> stärke funktioniert auch bei kleinen Stichproben H0> Normalverteilung ; H1> Keine Normalverteilung Kolmogorow-Smirnow Test: Syntax: ks.tes(x,y) >> Test ob Verteilung x (Daten) = Verteilung y (z.B pnorm(normalverteilung)) ist, Mittelwert und Standardabweichung müssen zuvor bekannt sein)
Syntax Einstichproben T-Test ? t.test(x,mu=0(Erwartungswert), conf.level= 0.95(Signifikanzniveua)
Vorraussetzungen für den Zweistichproben t-test ? Normalverteilung, unabhängige Variablen, min Kardinalskaliert
Was geben Notches an ? Wenn sich die Notches zweier Stichprobenverteilungen ´überschneiden, weisen ihre Mediane keinen Signifikanten unterschied auf ! >> entsprechend dem Signifikanzniveau >> gegebenenfalls auch keine Signifikanzunterschiede bei den Mittelwerten
Unterschied vom Zweistichproben t-test abhängiger Variablen zu unabhängigen? Differenzen der geeparten Werte werden getestet. Unterschied in der Syntax : Zusätzliche Eingabe paired=T
Mann-Whitney-Test, Ziel ? Vorraussetzungen? Syntax? Überprüfung ob sich die Mediane zweier unabhänigen Stichproben Signifikant Unterscheiden >> Min Ordinalskaliert, unabhängige Stichproben (Keine Normalverteilung notwendig) wilcox.test(x,y)
Was ist bei einseitigen Hypothesen Tests zu beachten !`? Die Reihenfolge der Datensätze muss der Aufgestellten Hypothese entsprechen! z.B wilcox.test(Sprit[AutosAutomatik],Sprit[AutosManuel], alternative="less") >>> Verbrauchen Autos mit Automatik[1.] signifikant weniger[alternative=less] Sprit, wie Autos mit Manueller Schaltung[2] oder wilcox.test(Sprit[AutosManuel],Spri[AutosAutomatik], alternative="greater") >> Verbrauchen Autos mit Manueller Schaltung[1.] signifikant mehr[alternative=greater] Sprit, wie Autos mit Automatik[2]
Vorraussetzungen, Ziel Kruskal-Wallis-Test? Syntax`? Ziel: Überprüfung ob sich die Mediane zweier oder mehrerer unabhängiger Stichproben Signifikant unterscheiden > Keine Normalverteilung > unabhängige Stichproben >Unterschiedliche Skalenniveaus möglich (z.B. Kategorien +Messwerte) Syntay: kruskal.test(x,g) g= Datengruppen z.B Geschlecht,Altersklassen,Monate

Learn online - when and where you want!

Statistik (Subject) / Übung (Lesson)