Statistik1 (Fach) / 4 Univariate Häufigkeitsverteilungen (Lektion)
In dieser Lektion befinden sich 2 Karteikarten
adfha
Diese Lektion wurde von dinocroc erstellt.
- 4.1. Absolute und relative Häufigkeiten Um auch bei großen Datenmengen eine Übersicht zu gewinnen, wird die in den Daten steckende Information unter Verwendung statistischer Kenngrößen (Lage- und Streuungsparameter) und einfacher Grafischer Instrumente verdichtet. Je nachdem, ob man Daten für ein Merkmal oder für mehrere Merkmale auswertet, spricht man von univariater oder multivariater Datenanalyse. multivariate Datenanalyse → die Analyse von Zusammenhängen zwischen Merkmaken im Vordergrund. univariate Datenanalyse: Betrachtet sei eine Erhebung, bei der für ein beliebig skaliertes Merkmal X an n Merkmalsträgern doer Untersuchungseinheiten jeweils die Merkmalsausprägung festgestellt wird. Die beobachteten oder gemessenen Merkmalswerte x1 , ... , xn konstituieren die Urliste. Da sich die Urliste hier auf ein einziges Merkmal bezieht, liegt eine univariate Urliste vor. → Werte können mehrfach auftreten. dieser Fall tritt bei diskreten Merkmalen zwangsläufig auf, wenn die Länge n der Urliste die Anzahl k der möglichen Merkmalsausprägungen überschreitet. wenn man z.B. eine Münze mehr als zweimal wirft. Klassenbildung bei stetigen Merkmalen: Bei stetigen Merkmalen ist das wiederholte Auftreten von Merkmalswerten umso seltener,je genauer gemessen wird. Bei solcher Messgenauigkeit kann es auch bei großer Anzahl n von Beobachtungswerten passieren, dass alle Merkmalswerte unterschiedlich ausfallen, d.h. die Anzahl der realisierten Ausprägungen mit n übereinstimmt. wenn man z.B. in eine rkleineren Kommune für alle Haushalte die jährlich anfallenden Rechnungsbeträge der Stadtwerke für Wasser und Strom ohne Rundung auf volle Eurobeträge auswiese, so würden kaum zwei Beträge exakt übereinstimmen. in solchen Fällen → Zusammenfassung der Daten zu Gruppen oder Klassen durch Zerlegung des Gesamtbereiches in dem die Merkmalsausprägungen liegen, in eine überschaubare Anzahl von Teilintervallen → zuornung der Daten in die Teilintervalle. → = gruppierte Daten /klassierte Daten Urlisten werden mit wachsender Länge n und sich wiederholenden Merkmalswerten rasch unübersichtlich. Es empfiehlt sich dann, die in den Rohdaten enthaltene Information durch Angabe von Häufigkeiten für die Merkmalsausprägungen - oder, bei gruppierten Daten, für Klassenbesetzungshäufigkeiten- zusammenzufassen. Hat man ein diskretes MErkmal mit Ausprägungen a1 , . . . , ak, so ist die im Folgenden mit.... hi := h(ai) i = 1,2,...,k absolute Häufgkeit ...absolute Häufigkeit für die Ausprägungen ai die Anzahl der Elemente der Urliste, die mit dem Wert ai übereinstimmen. absolute Häifigkeiten haben den Nachteil, dass die von der Länge n der Urliste abhängen. Um Häufigkeiten auch für Datensätze unterschiedlichen Umfangs direkt vergleichbar zu machen, teilt man die absolute Häufigkeiten durch den Umfang n der Beobachtungsreihe. → relative Häufigkeiten: fi := f(ai) = h(ai)/ n i = 1,2,...,k relative Häufigkeiten. repräsentieren Anteile, die man auch oft in Form von Prozentwerten ausweist. (Multiplikation mit 100) Häufigkeiten lassen sich, wie anhand von Beispiel 4.1. illustriert, im Tabellenform ausweisen dabei resultieren Häufigkeitsverteilungen für absolute oder relative Häufigkeiten. Eine Häufigkeitsverteilung für ein Merkmal X wird auch als empirische Verteilung für diese Merkmal bezeichnet. Es ist sofort einsichtig, das sich die absoluten Häufigkeiten zu n und die relativen Häufigkeiten anstelle von Zahlen auch manchmal Strichlisten verwendet. Diese Verfahrensweise bot sich aber allenfalls bei kleinen Werten h(ai) an. Visualisierung von Häufigkeitsverteilungen: Kreisdiagramm: die absoluten oder relativen Häufigkeiten werden durch Kreissektoren repräsentiert. der Mittelpunktswinkel αi , der die Größe des Kreissektors definiert, ist sowohl absoluten Häufigkeiten hi als auch bei relativen Häufigkeiten fi durch fi · 360° gegeben. Blasen diagramm (bubble chart) statt einen einzigen Kreis in Segmente einzuteilen, kann man auch für jede Häufigkeit einen eigenen Kreis vorsehen. Die Kreisflächen sind dann proportional zum jeweiligen Häufigkeitswert zu wählen die Positionierung der einzelnen Kreise ist hier nicht festgelegt. Stabdiagramm Häufigkeiten werden als vertikale dünne Stäbe (Striche) dargestellt Säulendiagramm/Blakendiagramm vertikale dicke Stäbe (Säulen). Wenn die Merkmalsausprägungen Kategorien mit längeren Namen sind (Etwa NAmen von Staaten, Bundesländern oder Parteien), empfiehlt es sich entweder Codes zu verwenden oder ein (Säulen- bzw. Balkendiagramm um 90° zu drehen, um die Namen der KAtegorien waagrecht präsentieren zu können. 3D Säulendiagramme kann man in Betracht ziehen solange die dritte Dimension inhaltlich interpretierbar ist. → dies ist der Fall wenn man zwei Häufigkeitsverteilungen in einer einzigen Grafik präsentiertund dies dadurch realisiert, dass man zwei Säulendiagramme hintereinander anordnet, oder jeweils zwei Säulen nebeneinander stellt. Gewollt oder ungewollt manupulative können Säulendiagramme oder zeitreihengraphen sein, bei denen die vertikatel Achse nicht auf dem Niveau 0 beginnt. Mehr Nutzerfreundlichkeit in der amtlichen Statistik die amtliche Statistik bemüht sich zunehmend um eine nuterfreundliche und interaktive Datenkommunikation. so werden z.B. grafische Darstellungen von Häufigkeitsverteilungen mit Landkarten verknüpft, wobei sich mit der Maus einzelne Regionen ansprechen und auf dem Bildschirm dann unmittelbar Daten für die ausgewählte Region grafisch präsentieren lassen. Säulen und Balkendiagramme sind grafische Darstellungen von Häufigkeitsverteilungen, die in der Praxis auch in Modifikationen anzutreffen sind, bei denen die Säulen in zwei oder mehr Teile zerlegt und übereinander gestapelt sind, man hat dann ein gestapeltes Säulendiagramm/ oder auch gestapeltes Balkendiagramm. die komponentne können durch unterschiedliche Schraffierung oder Färbung unterschieden werden. hat man z.B. Stichproben von Personen für mehrere Regionen, so lassen sich die Personen der einzelnen Stichproben unter Verwendung einer geeigneten Operationalisierungsvorschrift drei Gewichtsklassen zuordnen, etwa α1 (unter- oder normalgewichtig), α2 (übergewichtig) α3 (fettleibig/stark übergewichtig/ adipös) Anhand eines einfachen Balkendiagramms könnte man dann z.B die Anzahl der nicht zu α1 gehörenden Personen darstellen. . Differenzierte Information erhält man, wenn man für jede Region die relativen besetzungshäufigkeiten für alle drei Klassen anhand einer dreiteiligen Säule veranschaulicht oder für jede Stichprobe nur die Besetzungshäufigkeiten für α2 und α3 ausweist Bei einer Zerlegung in mehr als zwei Komponenten wird ein gestapeltes Säulendiagramm schnell unübersichtlich. Durch Einblendung der numerischen Angaben kann dieser Nachteil gemildert werden. Darstellung von Häufigkeitsverteilungen für klassierte Daten Bei klassierten Daten bezieht sich eine Häufigkeitsverteilung auf Klassenbesetzungshäufigkeiten. auch hier kann man die absoluten oder Relativen Häufigkeiten anhand von Säulen darstellen. breite der Säulen = breite der Klassen. → die durch Rechtecke repräsentierten Besetzungshäufigkeiten schließen direkt aneinander an. Die resultierende Grafik nenn man Histogramm. Die Klassenbesetzungshäufigkeiten sin zu den Flächeninhalten der einzelnen Rechtecke proportional. Bei Wahl gleicher Klassenbreiten lassen sich die Klassenbesetzungshäufigkeiten direkt anhand der Länge der Säulen miteinander vergleichen. Ein Nachteil von Histogrammen liegt darin, dass der optische Eindruck von Klasseneinteilung abhängt, also von der Breite un dden Anfangspunkten der Klassen. oft werden daher alternativ sog. Kerndichteschätzer verwendet, die man als Verallgemeinerung des Konzepts der Histogramme ansehen kann. → die Treppenfuntktion, die den oberen rand eine Histogramms darstellt, bei Kerndichteschätzern durch eine stetige Funktion ersetzt wird.
- 4.2. Die empirische Verteilungsfunktion wenn die Merkmalswerte metrisch oder zumindest ordinalskaliert sind, also eine natürliche Rangordnung erkllärt ist, will man oft auch wissen, wieviele Werte unterhalb oder oberhalb eines Schwellenwertes x liegen. B: bei einem Datensatz dern den höchst erreichten Bildungsabschluss einer Personengruppe beschreibt (ordinalskaliertes Merkmal "höchster erreichter Bildungsabschluss") → wieviele Personen haben einen Abschluss unterhalb eines Hochschulabschlusses? Bei Datensätzen für stetige Merkmale sind i.d.R sogar alle Elemente des Datensatzes verschieden, so dass such hier für die empirisce Verteilungsfunktion bei größerem Umfang n des Datensatzes ein relativ glatter Kurvenzu resultierte, wenn man Häufigkeiten für die Originaldaten visualisiert Hier wird man aber zweckmäßigerweise zu einer Klassenbildung übergehen und klassenbesetzungshäufigkeiten darstellen. → also ein Histogramm wählen.