Statistik1 (Fach) / 5 Kenngrößen empirischer Verteilungen (Lektion)

In dieser Lektion befinden sich 3 Karteikarten

adfhgad

Diese Lektion wurde von dinocroc erstellt.

Lektion lernen

  • 5.1 Lagermaße Häufigkeitsverteilungen für ungruppierte oder gruppierte Daten vermitteln einen Eindruck von der Gestalt der Verteilung eines Datensatzes.  Die Histogramme in Abbildung 4.7 zur Verteilung von Bruttoverdiensten in zwei südeuropäischen Staaten zeigen z.B., dass die Verteilung der Daten in beiden Fällen eine deutliche Asymmetrie aufweist, also eine gewisse "Schiefe" der Verteilung zu beobachten ist.  Lage- uns Streuungsparameter dienen dem Zweck solche Befunde zu präzisieren und zu objektivieren.  Es geht darum die in einem Datensatz steckenden Information zu wenigen Kenngrößen zu verdichten.  Eine solche Informationsverdichtung ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden.  so können sehr unterschiedliche Datensätze einen ähnlichen Schwerpinkt oder eine vergleichbare Streuung aufweisen.  Kenngrößen zur Beschreibung empirischer Verteilungen sind aber dennoch überaus wichtig.  Sie liefern für einen gegebenen Datensatz nämlich wertvolle zusätzliche Informationen, die sich visuell aus der grafischen Darstellung einer empirischen Verteilung nicht immer ohne weiteres erschließen.  Lageparameter zur charakterisierung des "Zentrums" einer Verteilung werden Lageparameter herangezogen.  Modus/Modalwert xmod lies: x-mod.  lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägungen nur Kategorien sine (qualitative Merkmale)  Er ist definiert als die Merkmalsausprägung mit der größten Häufigkeit.  Median ´x, lies x-Schlange, oder xmed lies x-med / Zentralwert Nur bei mindestens ordinalskalierten Merkmalen anwendbar. also bei Merkmalen, für deren Werte eine natürliche Rangordnung erklärt ist.  Median ist der mittlere Wert des geordneten Datensatzes. Mittelwert/ arithmetisches Mittel Der Mittelwert berücksichtigt alle Werte eines Datensatzes mit gleichem Gewicht 1/n  während in die Formel für den Median nur ein oder zwei zentrale Elemente eines Datensatzes eingehen.  wenn man also bei einem Datensatz xmax= x(n) deutliche vergrößert, hat dies nur auf den Mittelwert einen Effekt. Der Mittelwert reagiert demnach, anders als der Median, empfindlich gegenüber extremen Werten, Man spricht in diesem Zusammenhang von einer höheren Sensitivität oder auch von einer geringeren Robustheit. des Mittelwerts gegenüber Außreißern. Die Berechnung des Mittelwertes kann etwas einfacher bewerkstelligt werden, wenn Merkmalswerte mehrfach auftreten.  hat man für ein diskretes Merkmal X den mit den Ausprägungen a1, a2...,ak insgeamt n Beobachtungswerte x1-xn (n>k) so würde die Anwendung von der vorherigen Formel implizieren, dass n Werte zu addieren sind. Anstelle der Urliste kann man auch die relative Häufigkeitsverteilung verwenden.  Welchen der vorgestellten Lageparameter sollte man aber verwenden? hierzu gibt es keine allgemeingültige Ausage.  Die antwort hängt sowohl von der Skalierung des Merkmals ab, als auch von der jeweiligen Fragestellung.  Bei einem nominalskalierten Merkmal kann man nur den Modalwert verwenden.  Bei einem metrisch skalierten Merkmal hat man schon drei Alternativen, nämlich den Modalwert, den Median und den Mittelwert. und es ist zu überlegen, wie robust die zu berechnende Kenngröße gegenüber Extremwerten sein soll.  Bei einem kleinen Datensatz für das Merkmal Bruttoverdiens in Euro/ Stunde kann z.B ein eeinziger Extremwert den Mittelwert beeinflussen. → hier kann der Median aussagekräftiger sein, während der Modalwert i.Allg. wenig Information liefert, vor allem wenn die Verdienste auf Cent genau ausgewiesen werden.  Bei metrisch skalierten Daten wird oft nicht nur ein Lageparameter berechnet, weil ein zweiter Parameter, etwa der Median zusätzlich neben dem Mittelwert, noch zusätzlich Information über die empirische Verteilung eines Datensatzes liefern kann.  Bei einer Einkommensverteilung kann man z.B. den Mittelwert und den Median vergleichen → hieraus Aussagen zur Symmetrie oder Asymmetrie der Verteilung ableiten. 
  • 5.2 Streuungsmaße Ein Datensatz definiert eine empirische Verteilung eines Merkmals.  Das "Zentrum" einer solchen Verteilung kann man anhand einer oder mehrerer Kenngrößen charakterisieren. Bei einem metrisch skalierten Merkmal stehen vor allem der Modalwert, der Median und der Mittelwert zur Verfügung, wobei man hier i.Allg. dem Mittelwert oder den Median verwenden wird. Die Kenntnis des Schwerpunktes reicht aber nicht aus, um einen Datensatz zu beschreiben.  Zwei Datensätze können in den Lageparametern übereinstimmen und sich dennoch bezüglich der Variation der Merkmalswerte deutlich unterscheiden.  Bei einem Datensatz lässt die alleinige Kenntnis des Mittelwerts offen, ob die einzelnen Elemente des Datensatzes alle sehr nahe am Mittelwert liegen, mit ihm gar alle übereinstimmen oder von dem Mittelwert stark abweichen und sich nur "ausmitteln"  zur Charakterisierung von Merkmalen, für die Abstände zwischen Merkmalsausprägungen erklärt sind, also bei quantitativen Merkmalen (metrische Merkmalsskallierung), muss man somit noch Kenngrößen heranziehen, die die Streuung innerhalb des Datensatzes messen.  Spannweite R: besonders einfaches Streuungsmaß für metrisch skalierte Merkmale eines Datensatze. (engl. range)  Nachteil: hat eine hohe Empfindlichkeit bzw. eine geringe Robusheit gegenüber Außreißern  Varianz/Stichprobenvarianz s2 , die auch empirische Varianz genannt wird. In die Varianz gehen die Abweichungen xi - Mittelwert der Merkmalswerte ein. 
  • 5.3. Quantile und Boxplots der für ein metrisch oder mindestens ordinalskaliertes Merkmal erklärte Median hat die Eigenschaft, dass mind. 50% der nach Größe geordneten Elemente eines Datensatzes kleiner oder gleich und mindestens 50% größer oder gleich des Medians sind