Statistik und SPSS (Fach) / SPSS Projektarbeit (Lektion)
In dieser Lektion befinden sich 19 Karteikarten
Projektarbeit
Diese Lektion wurde von mary2rade erstellt.
- Aufbau Exel bzw. SPSS Zeile: Person/ Ereignis etc. Spalte: Variable (ZB: Augenfarbe, Beruf, Geschlecht, etc. ), kann durch Buchstabenzahlenkennzeichnung ersetzt werden ( x1,x2 etc.)
- stetige und diskrete Variablen 1. stetige Variablen: - sind kontinuierliche Werte ( Gewicht, Größe, Alter) - können theoretisch unendliche viele Werte/ Ausprägungen zwischen zwei beliebigen Werten annehmen ( je. anchdem in welcher einheit man misst zb. Nanometer :) 2. dirkrete Variablen: - nicht kontinuierliche Werte ( Augenfarbe, Geschwister) - können nur endliche Werte zwischen zwei beliebigen Werten annehmen - in der Projektarbeit sind die Variablen zb: Haltung, Fütterung etc.
- Normalverteilung ( Gaussche Glockenkurve) Definition= ist eine mathematisch theoretische Verteilung, der ein stetiges Merkmal zugrunde liegt - es besitzt die golgenden Eigenschaften: - glockenförmger Verlauf - hat einen Gipfel - symmetirsch - nähert sich asymptotisch an die Abszisse (X- achse) - ist durch Mittelwert und Standartabweichung eindeutig charakterisiert
- Asymptode ist in der Mathematik eine Linie, der sich eine zu diskutierende Funktion im Unendlichen von x oder y immer weiter annähert (aber nicht berührt)
- Standardabweichung - ist das Maß für die Schwankungen oder die Streubreite der Werte in einer Stichprobe im Bezug auf den Mittelwerrt - Kurz gesagt die durchschnittliche Entfernung vom arythmethischen Mittelwert - dafür muss man erst den Mittelwert und die Varianz berechnen. Standardabweichung berechnen: 1. Schritt: Den Durchschnitt berechnen. Marc schreibt eine Woche lang auf, wie lange er von zuhause in die Schule gebraucht hat: Am Montag waren es 8 Minuten, am Dienstag 7 Minuten, am Mittwoch 9 Minuten, Donnerstag 10 Minuten und Freitag 6 Minuten. Also= 8+7+9+10+6/ 5= 8 2. Schritt: Die Varianz berechnen. Um dies zu tun, nehmen wir wieder unsere fünf Werte vom Anfang (also 8, 7, 9, 10 und 6) und ziehen von diesen jeweils den Durchschnitt (8) ab. Dies müssen wir dann jeweils quadrieren (hoch 2) und die Summe bilden. Am Ende teilen wir noch durch die Anzahl der Werte, die wir ursprünglich genommen hatten, sprich wir teilen wieder durch 5. Die Varianz - also die mittlere quadratische Abweichung - beträgt damit 2. 3. Schritt: Die Standardabweichung berechnen. Schritt 3: Die Standardabweichung fehlt noch. Dazu ziehen wir aus der Varianz die (quadratische) Wurzel. Natürlich interessiert nur das positive Ergebnis. Interpretation: Die Standardabweichung vom Durchschnitt - das waren 8 Minuten - beträgt etwa 1,4 Minuten. Für den Schulweg benötigt Marc also stets ähnlich lang, die Schwankung ist relativ gering.
- Mittelwert/ Durchschnitt In der Mathematik bezeichnet der Mittelwert eine Art von Durchschnittswert, die sich ergibt, wenn die Summe einer Reihe an Zahlen durch die Anzahl der Zahlen geteilt wird. Marc schreibt eine Woche lang auf, wie lange er von zuhause in die Schule gebraucht hat: Am Montag waren es 8 Minuten, am Dienstag 7 Minuten, am Mittwoch 9 Minuten, Donnerstag 10 Minuten und Freitag 6 Minuten. Also= 8+7+9+10+6/ 5= 8 in der Projektarbeit ist unser Mittelwert 0,3
- Varianz - misst wie die Standartabweichung die Streuung der Variablenwerte - > d.h. wie unterschiedlich die Werte in der Variablen sind Die Varianz gibt die mittlere quadratische Abweichung der Ergebnisse um ihren Mittelwert an -ist nichts anderes als der quadirierte Wert der Standartabweichung !!!!! - wären alle Variablenwerte geich wäre Standartabweichung und Varianz = 0
- Skalenniveaus der Variablen 1= Nominalskala - hier werden Zeilen mittels Kategorien eingeteilt, wichtig ist hierbei dass die Zeilen (Personen, etc.) eindeutig mindestens einer Variable zugeordnet werden können. Außerdem muss die Variable eindeutig sein und es darf nicht zu überschneidungen der Variablen kommen. Dabei ist die Benennung der variablen (1,2,3, ...) rein deskriptiv und hat keine Wertbestimmende Bedeutung Zb: Augenfarbe, Geschlecht, Beruf 2= Ordinalskala - ist wie bei der Nominalskala, nur das zusätzlich noch eine Wichtung der Variablen erfolgt. Also zb: 1= sehr gut, 4: sehr schlecht. Die Abstände der werden hier einfach als regelmäsig angenommen. zB. Prüfungsnote, Wettkampfplatz in unserer Projektartbeit verwendet - wichtig: unsere Variablen sind unabhängig voneinnander !!!! dh. sie beeinflussen sich nicht 3= Intervallskala - ist wie die Ordnialskala, nur dass hier auch die Abstände für das Merkmal konsistent richtig erfasst werden. Zb: Körpertemperatur, Angstmessung 4= Verhältnisskala Auf einer Verhältnisskala / Rationalskala werden Merkmalsausprägungen eingetragen, für die Folgendes gilt:Merkmalsausprägungen werden als Zahl dargestellt, für die Zahlenwerte existiert ein natürlicher Nullpunkt und die Maßeinheit ist willkürlich definiert (vgl. Absolutskala) zB: Temperatur, Einkommen, Anzahl der Kinder
- Kategorie - es gibt mindestens 2 Kategoriestufen - zB. männlich/ weiblich (zweistufig) - in der Projektarbeit haben wir 4 Stufen
- Signifikanz Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der Nullhypothese) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird - beschreibt ob es eine Signifikanz gibt - kann Werte zwischen -1 und +1 haben - 0 entspricht keiner Signifikanz - in unserer Projektarbeit: unter 0,05 ist eine eindeutige Signifikanz (entspricht ca. 5 %) - aufgrund unserer metrischen Daten sind diese auch exakt !!!! - Näherungsweise: Ein hoher Wert in der Spalte näherungsweiser Signifinanz deutet darauf hin, dass die gefundenen Zusammenhänge so nicht existieren. Erst bei einem Wert <0,05 spricht man normalerweise von einem signifikanten Ergebnis.
- Nullhypothese H0 In der Statistik ist die Nullhypothese H, eine Annahme über die Wahrscheinlichkeitsverteilung einer oder mehrerer Zufallsvariablen. Beispiel: Weil man den Verdacht hat, es gäbe einen prinzipiellen Unterschied zwischen Männern und Frauen in Bezug zu einem bestimmten Testergebnis, macht man vorerst die Annahme, es gäbe keinen Unterschied. Diese Annahme ist die Nullhypothese. Man versucht die Frage zu beantworten, ob sich das Testergebnis zwischen den Gruppen statistisch signifikant unterscheidet. Die Nullhypothese wäre in diesem Fall, dass die Durchschnittsergebnisse von Männern und Frauen gleich sind: H 0 : μ 1 = μ 2 wobei: H 0 die Nullhypothese ist,μ 1 der Erwartungswert des Testergebnisses der Männer, undμ 2 der Erwartungswert des Testergebnisses der Frauen
- Abhängigkeit/ Korrelation (Korrelationseffizent nach Pearson) - gibt Auskunft ob zwei Variablen zueinander Signifikant sind - Zusammenhänge zwischen 2 Variablen misst man mittels Korrelationen - die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert (Größe, Gewicht, Längen, Rohscore, Temperatur...) 2) rang- oder ordinalskaliert (Noten, Rangreihen, Dienstgrade, Beliebtheit von Personen...) -> unsere Projektarbei ist ordinalskaliert 3) nominalskaliert (Geschlecht, Bildungsgrad, Haarfarbe, Beruf...) - nimmt immer Werte zwischen -1 und + 1 an - -1 ist perfekt negative Korrelation, +1 perfekt positive Korrelation, bei einem Wert von 0 sind die Variablen überhaupt nicht korreliert - für normalverteilte Stichproben um konkrete statistische Aussagen über die Stärke des Zusammenhangs zweier Variablen zu machen, berechnet man aus der vorliegenden Stichproben den empirischen Korrelationskoeffizienten nach Pearson: in der Projektarbeit: P= 0,022 Signifikant = die Intervallskalierten Daten müssen zur Auswertung auch normalverteilt sein
- Arten von Variablen 1) Quantitativ I) stetig wenn sie (theoretisch) unendlich viele Ausprägungen/Intervalle annehmen kann (wie Größe, Gewicht, Längen,...) II) diskret, wenn sie nur eine bestimmte, endliche Anzahl aufweist (z.B: Anzahl der Personen in einem Raum, Testscore,...). - > Projektarbeit 2) Qualitativ wenn sie nur beschränkte Ausprägungen oder in Klassen zusammengefasst ist. I) Dichotom: 2 Ausprägungen (z.B: Geschlecht, Versuchs-Kontrollgruppe, Psychologie vs. Nicht-PsychologiestudentInnen II) Polytom: mehr als 2 Ausprägungen (z.B: Bildung, Haarfarbe ) metrische und nicht metrische Variablen als metrische Merkmale (auch quantitative genannt) bezeichnet man Merkmale, deren Ausprägungen sich mittels Zahlen darstellen lassen, wobei auch Rangunterschiede und Abstand sinnvoll interpretiert werden können Als nichtmetrische Variablen werden dementsprechend alle anderen bezeichnet. - dh. es wird auf einer gleichabhängigen Skala gemessen :) - unsere Projektarbeit sind nicht metrische Daten !!!
- Kendall - Typ -B (Rangkorrelationskoeffizient) Ein Rangkorrelationskoeffizient ist ein parameterfreies Maß für Korrelationen, das heißt, er misst, wie gut eine beliebige monotone Funktion den Zusammenhang zwischen zwei Variablen beschreiben kann, ohne irgendwelche Annahmen über die Wahrscheinlichkeitsverteilung der Variablen zu machen. Anders als der Pearson'sche Korrelationskoeffizient benötigt er nicht die Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreißern. Es gibt zwei bekannte Rangkorrelationskoeffizienten: der Spearman'sche Rangkorrelationskoeffizient (Spearman'sches Rho) und der Kendall'sche Rangkorrelationskoeffizient (Kendall'sches Tau) - Auswertung mittels Kreuztabellen
- Arten vo Korrelationskoeffizenten 1) Produktmomentkorrelation (Pearson) rxy: geht von –1 bis +1; Verwendung grundsätzlich bei intervallskalierten, quantitativen Variablen 2) Rangkorrelation (Spearman) r`: geht von –1 bis +1; Verwendung grundsätzlich bei rangskalierten Variablen 3) Kendall-Tau-Korrelation: ist der Spearmankorrelation sehr ähnlich, nützt aber die Ranginformation besser aus. (ebenfalls für rangskalierte Daten)
- Gesamtscoring - alle Punkte bzw Vatiablen werden zusammengefasst - gute Gesamtbewertung -> heisst auch Einzelpunkte gut ?
-
- Perzentil - Mittel zur Einschätzung der Lage Innerhalb einer Stichprobe - dient als Referenz um abschätzen zu können, ob Werte im normalen / akzeptablen / unkritischen Bereich liegen Beispiel: - Test mit 100 % - ich habe 90% d.h. ich bin 90 % besser als der Rest und 10 % schlechter - beschreibt mit 25 % bzw. 75 % die Ober- bzw. Untergrenze der ausgefüllten Fläche (standardmäßig)
- Median Der median ist wie das arithmetische Mittel ein Maß für den Mittelpunkt eines numerischen Datensatzes oder eine zentrale Tendenz. wird auch 50 % perzentil oder Zentralwert genannt gibt den Punkt an, an dem oderhalb und unterhalb gleich viele Punkte liegen. - in unserer Projektarbeit kein Mittelwert sondern Median, da keine Normalverteilung der Variablen
- Bias - auch Verzerrung oder systematischer Fehler genannt - Eine verzerrung besteht in eine systematischen Fehler im Datenauswahlverfahren der zu einseitigen irreführenden Ergebnissen führt - zB: bei der Stichprobenauswahl oder beim Sammeln der Daten - sind systemisch und fallen deswegen im Vergleich zu zufälligen Abweichungen nicht auf - Beispiel Survivorship Bias von Flugzeugen im 2. Weltkrieg