Statistik1 (Fach) / 3 Datengewinnung und Auswahlverfahren (Lektion)

In dieser Lektion befinden sich 3 Karteikarten

<asdfdhg

Diese Lektion wurde von dinocroc erstellt.

Lektion lernen

  • 3.1. Erhebungsarten und Studiendesigns Für die emp Überprüfung von Forschungsfragen werden Daten benötigt, d.h. Werte eines Merkmals oder mehrerer Merkmale in einer Grundgesamtheit von Merkmalsträgern.  Die Qualität der Aussagen, die sich aus der Analyse statisticher Daten ableiten lassen, hängt wesentlich von der Datenqualität ab.  Die Vorgehensweise bei der Datengewinnung ist daher bei einer statistischen Untersuchung sorgfältig zu planen. Die Gewinnung von Daten bezeichnet man als Datenerhebung, während die Planung der Datengewinnung Erhebungsdesign genannt wird.  Klassifikation von Erhebungen hinsichtlich der Datenquelle: Datenerhebungen lassen sich nach verschiedenen Kriterien klassifizieren. Nach der Art der Datenquelle unterscheidet man zwischen Primär- und Sekundärerhebungen.  Tertiärerhebungen Bei Primärerhebungen werden die Daten eigens für das jeweilige Untersuchungsziel gewonnen. dieser Verfahrensweise begegnet man z.B in der Arzneiforschung oder der Psychologie.  Bei Sekundärerhebungen wird hingegen auf Daten aus schon vorhandenen Quellen zurückgegriffen.  Man unterscheidet entsprechend zw. primär- und sekundärstatistischen Daten.  Gelegentlich spricht man auch von Tertiärerhebungen, nämlich dann, wenn statistische Information aus vorhandenen Quellen geschöpft wird, aber nicht in Form der Originaldaten, sondern in aggregierter Form (z.B. gruppierte Daten).  Klassifikation von Primärerhebungen nach der Art der Datengewinnung Man kann hinsichtlich der Art der Datengewinnung unterscheiden zwischen: Befragung Beobachtungsstudie Experiment Die Befragung: ist das dominierende Instrument sozialwissenschaftlicher Forschung. mündl. (persönlich oder per Telefon), schriftlich und auch internetgestützt.  eine mündliche Befragung kann unstrukturiert, teilstrukturiert oder strukturiert erfolgen. unstrukturierte Befragung: hat offenen Charakter; kann ohne Fragebogen realisiert werden.  Bei teilstrukturierten und strukturierten Interviews ist die Befragung teilweise oder ganz standardisiert.  Dies lässt sich durch die Verwendung von Fragebögen mit teilweise oder vollständig geschlossenen Fragen erreichen.  Münliche Befragung lassen sich mit modernen Kommunikationstechnologien verknüpfen. → so kan etwa eine direkte oder telfonische Befragung per Interview mit softwaregesteuerter Interviewführung und automatisierter Ergebnisverarbeitung erfolgen. → CAPI (computer assisted personal interviewing) für das persönlich geführte Interview mit tragbarem Computer (meist Notebook) und CATI (computer assisted telephone interviewing) für das fernmündlich geführte Interview. Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) erfolgt z.B. auf CAPI- Basis.  In beiden Fällen spricht man von einem interviewer-administrierten Interview, weil die Antworteingabe am Computer vom Interviewer vorgenommen wird.  Bei der schriftlicheb Befragung: Fragebögen per Post/eMail an ausgewählte Adressaten verteilt. / oder auf Internetseite bereitgestellt.  Netzbasierte schriftliche Befragungen können interaktive Programme sein, die den Befragten flexibel durch einen Fragenkatalog führen. Da der Befragte die Antworteingaben selbst vornimmt → selbst- administrierter cumputergestütze Befragung.  Welche Befragungsart ist zu wählen? Für welche Form einer Befragung man sich bei der Planung einer Erhebung entscheidet, hängt u.a. von der Größe de zu gewinnenden Datensatzes, von der Zielgruppe sowie vom verfügbaren Untersuchungsbudget und Zeitrahmen ab. Cumputerunterstützte Varianten werden immer wichtiger, z.B. etwa in der Markt- u. Meinungsforschung in Form internet- oder intranetbasierter Befragungen. die Beobachtung: auch die Beobachtung ist ein sehr verbreitetes Verfahren der Datenerhebung. Beobachtung kann sich auf ganz unterschiedliche Objekte beziehen etwa auf Volkswirtschaften, auf technische Prozesse in Unternehmen, auf Umweltbelastungen oder auf das Verhalten von Personen. Wo werden Daten per Beobachtung gewonnen? In den Wirtschaftswissenschaften werden z.B. Aktienindizes, Renditen, Inflationsraten oder Beschäftigungsquoten fortlaufend verfolgt, wobei die Beobachtung mit Maßnahmen verbunden sein kann. z.B. mit Interventionen durch die Europäische Zentralbank. Bei der industriellen Qualitätssicherung werden Fertigungsprozesse kontinuierlich beonbachtet und dokumentiert, mit dem Ziel der Vermeidung nicht-spezifikationskonformer Produkte. In den Umweltwissenschaften werden z.B. Schadstoffemissionen kontinuierlich gemessen und analysiert. Die auf Staatenebene veröffentlichten Ergebnisse repräsentieren eine Diskussionsbasis bei internationalen Klimakonferenzen. In den Sozialwissenschaften und der Psychologie geht es um die Beobachtung von Einzelpersonen oder Gruppen. Die Beobachtung kann hier offen oder verdeckt erfolgen.  Charakteristisch für Beobachtungen in der emp Spzialforschung ist, dass die Beobachtungen systematisch geplant dokumentiert werden und einem spezifizierten Froschungszweck dienen. Dür die Dokumentation der Beobachtungen bedient man sich eines Beobachtungsprotokolls. die verdeckte Beobachtung oder auch die Auswertung von Verhaltensspuren - z.B. die Durchführung von Logfile-Analysen zur Untersuchung des Verhaltens von Internetnutzern - sind nicht-reaktive Erhebungsverfahren = Erhebungstechniken, die keine Veränderungen bei den zu untersuchenden Objekten hervorrufen können.  Bei der verdeckten Beobachtung von Personen nehmen diese I.d.R. gar nicht wahr, dass sie Gegenstand einer Beobachtung sind Google-Analytics ist z.B. ein Informationsdienst, der Verhaltensspuren im Internet auswertet.  Als weiteres Beispiel genannt seien frequenzzählungen oder Aufzeichnungen von Blickbewegungen und Blickwinkeln von Kunden in den Gängen von Supermärkten, mit denen Unternehmen Informationen zur Optimierung des Warensortiments gewinnen.  Auch Geoinformationssysteme werden zunehmend zur Indentifikation raumbezogener Zusammenhänge herangezogen, etwa bei der Messung von Pendlerströmen.  Im Leipziger Zoo lief ein Projekt, bei dem GPS-Daten ur Gewinnung von Informationen zur Verweildauer von Zoobesuchern bei den einzelnen Tiergehegen genutzt werden. Die Gesellschaft für Konsumforschung (GfK) setzt in mehreren Ländern eine spezielle Armbanduhr ein, die ohne Zutun des Trägers dessen Radio und TV-Nutzung erfasst. Die erfassten Frequenzprofile können dann anschließend - über ein als Audiomatching bezeichnetes Verfahren - den entsprechenden Sendern zugeordnet werden.  Anwendungsfelder für Experimente Ein ganz anderer Ansatz zur Datengewinnung ist der Einsatz von Experimenten.  Diese wurden zuerst in den Agrar- und Naturwissenschaften und später in der Technik angewendet, sind aber heute auch ind er Medizin und der Psychologie weitverbreitet. Bei einem Experiment geht es um die empirische Überprüfung von Hypothesen über kausale Zusammenhänge zwischen Merkmalen. Die Überprüfung erfolgt anhand einer geplanten Untersuchung, bei der die Ausprägungen eines Merkmals oder mehrerer Merkmale (unabhängie Variable, Einflussfaktoren) unter Laborbedingungen systematisch variiert und der Effekt auf ein anderes Merkmal (abhängige Variable, Zielgröße) studiert wird.  Einfluss weiterer Variablen möglichst aisschalten (Kontrolle von Störvariablen) Die Untersuchungsanordnung wird durch ein Versuchsplan festgelegt. Zwischen Experimenten in den einzelnen Anwendungsbereichen, etwa in der Technik oder in der PSychologie und Medizin gibt es Unterschiede, die durch die Natur der zu untersuchenden Merkmale bedingt sind.  In der Technik geht es darum, Merkmale unbelebter Objekte zu untersuchen, z.B bei Werkstoffen den Zusammenhang zw. der Zusammensetzung von Legierungen un der Werkstoffeigenschaft "Reißfähigkeit" oder "Härte". Auch die planmäßige Veränderung von Formparametern eines Kraftfahrzeugs und die Untersuchung des Effekts auf den Luftwiderstand.... Die Messung der Merkmalsausprägungen anhand moderner Messtechniken ist hier i.d.R. kein Problem und auch Messwiederholungen lassen sich leicht realisieren.  Experimente in der Psychologie beziehen sich hingegen auf individuelle Merkmale von Personen, etwa auf die Ausprägungen der latenten Variablen "Leistungsmotivation", "hilfsbereitschaft", "Introvertiertheit"... hier → Operationalisierung schwierig. ähliches gilt für die Ausschaltung von Störeinflüssen oder die Wiederholung von Messungen. Typisch für Experimente in der Psychologie und auch in der Medizin ist die Ergänzung der Gruppe von Versuchspersonen um eine Kontrollgruppe. Nur in der Versuchsgruppe werden dann Einflussfaktoren variiert. Bei echten experimentellen Designs erfolgt die Zuordnung zu den beiden Gruppen durch Zufallsauswahl.  Nicht immer ist eine zufallsgesteuerte Zuordnung von Personen zu einer Kontroll- und einer Versuchsgruppe realisierbar oder ethisch vertretbar. → Untersuchung von Effekten neuer Behandlungsmethoden in der Medizin.  Quasi-Experiment: Erhebungsdesign mit nicht-randomisierter Zuordnung. B 3.2.: Beobachtungen in verschiedenen Anwendungsfeldern. Klassifikation von Erhebungen: Bei Beobachtugsstudien kann man unterscheiden zwischen: Querschnittsstudien Längsschnittsstudien.  verschiedenen Merkmalsträgern; zu einem festen Zeitpunkt die Ausprägungen eines Merkmals erfasst werden → Querschnittsreihe. verfolgt man hingegen ein Merkmal an einer statistischen Einheit im Zeitverlauf → Zeitreihe. Ein Panel: kombiniert Querschnitts- und Zeitreihendaten.  hier werden für dieselben Objekte wiederholt Merkmalsausprägungen ermittelt.  Bei Panel-Untersuchungen, die sich auf Personen beziehen und sich über einen längeren Zeitraum erstrecken → kaum zu vermeiden, dass Teilnehmer ausscheiden → man spricht in diesem Zusammenhang von Panelmortalität.  Diese kann mit unerwünschten Verzerrungen einhergehen Klassifikationvon Erhebungen nach dem Umfang der erhobenen Daten Vollerhebung → alle Elemente der Grundgesamtheit in der Erhebung Teilerhebung/Stichprobenerhebung → es werden nur Daten für eine Teilmenge der für die jeweilige Fragestellung relevanten Grundgesamtheit herangezogen Vorteile und Grenzen von Stichprobenerhebungen Stichprobenerhebungen sind vor allem bei sehr großen Grundgesamtheiten geboten/ oft der eizige Weg. → da, aufwendig und nicht immer praktikabel. Stichprobenbasierte Erhebungen liefern auch u. U. zuverlässigere Ergebnisse, weil hier für die Datengewinnung für jeden Merkmalsträger mehr Zeit investiert werden kann. In der industriellen Qualitätssicherung ist die Merkmalserfassung manchmal -z.B. bei der Ermittlung der Lebensdauer von Leuchtmitteln - mit der Zerstörung des Merkmalträgers verbunden. 
  • 3.2 Stichprobenauswahl Bei Teilerhebungen ist die Verfahrensweise bei der Auswahl von Stichprobenelementen festzulegen, sowie der Umfang der Stichprobe.  Ziel ist es, aus einer Teilmenge einer Grundgesamtheit Aussagen abzuleiten, die sich auf die Grundgesamtheitübertragen lassen. Der Stichprobenentnahme vorgelagert ist eine eindeutige Festlegung der Grundgesamtheit.  Wenn es z.B. darum geht, aus einer Stichprobe von Bürgern einer Großstadt Aussagen für die gesamte Stadt zu gewinnen, muss u.a. durch räumliche Abgranzung und inhaltliche Vorgaben (z.B. Einbezug nur der an einem Stichtag in der Stadt wohnhaften Personen) klargestellt sein, wer zur Grundgesamtheit gehört und wer nicht.  Ich der Praxis kann es passieren, dass die Population, aus der eine Stichprobe gezogen wird, die sog. Auswahlpopulation oder Auswahlgesamtheit, Elemente enthält, die nicht zu der im Untersuchungsdesign definierten Grundgesamtheit gehören → Overcoverage oder auch ,dass einige Elemente der definierten Grundesamtheit bei der Stichprobenziehung gar nicht berücksichtigt werden. → Undercoverage Bei der Erhebung von Bevölkerungsdaten für eine Großstadt könnten etwa Personen in der Stadt wohnen, ohne amtlich angemeldet zu sein oder aber gemeldet sein. obwohl schon längst verzogen.  Um mit der Stichprobe ein repräsentatives Abbild zu bekommen → Ziehung einer Zufallsstichprobe Bei einer Zufallsstichprobe hat jedes Element der Grundgesamtheit eine von Null verschiedene Wahrscheinlichkeit in die Stichprobe zu gelangen.  Nur bei einer Realisierung einer Zufallsauswahl kann von einer Stichprobe mit einer kontrollierten kleinen Irrtumswahrscheinlichkeit auf die zugrunde liegende Grundgesamtheit zurückgeschlossen werden.  Dieser auch als Inferezschluss bezeichnete Rückschluss von Eigenschaften einer Stichprobe auf Eigenschaften einer Grundgesamtheit anhand von Schätz- und Testverfahren ist Gegenstand der schließenden Statistik Ein Inferenzschluss ist stets mit Unsicherheit verknüpft, die sich daraus ergibt, dass nur die Teilinformation der Merkmalsträger der Stichprobe und nicht die vollte Information aller Merkmalsträger der Grundgesamtheit zur Verfügung steht. → in diesem Zusammenhang ist die Rede von einem Stichprobenfehler. wenn man einen Inferenzschluss auf eine Stichprobe stützt, die nicht repräsentativ ist für eine Grundgesamtheit (verzerrte Stichprobe), kommt zu dem unvermeitlichen Stichprobenfehler noch eine durch die Verzerrung (engl.: bias) der Stichprobe bedingte systematische Verzerrung hinzu, der sog. Auswahlbias.  Der Inferenzschluss kann dann zu gravierenden Fehlschlüssen führen → würde man in Finnland anhand eines Verzeichnisses stationärer Telefonanschlüsse eine Stichprobe auswählen, hieße dies, von vorneherein einen erheblichen Teil der Bevölkerung auszuschließen.  schon seit 2006 hatte nämlich bereits ca. 40% der finnischen Bevölkerung nur noch ein Mobiltelefon. Vor allem der jüngere Teil der Bevölkerung wäre in der Stichprobe stark unterrepräsentiert.  Bei einer einfachen Zufallsstichprobe des Umfangs n ist die Stichprobenauswahl nicht nur zufällig, sondern auch so geplant, dass jede Teilmenge der Grundgesamtheit mit n Elementen dieselbe Auswahlwahrscheinlichkeit besitzt. → Urnenmodell. Ziehen ohne Zurücklegen; B: Lotto. Manchmal verfügt man auch über Vorinformation, die bei der Auswahl der Sichprobenelemente herangezogen werden kann und i.d. R. zu verlässlicheren Inferenzschlüssen führt. → geschichtete Zufallsauswahl ...ein in der Praxis verbreitetes Verfahren der Stichprobenbeziehung.  Man zerlegt hier die Grundgesamtheit in sich nicht überlappende (=disjunkte) Teilgesamtheiten, sog. Schichten.  Die Schichten sollen bezüglich des zu untersuchenden Merkmals in sich möglichst homogen und untereinander möglichst heterogen sein. Aus jeder Schicht wird eine Zufallsstichprobe gezogen.  Die Vorabinformation besteht aus der Kenntnis des auch als Schichtungsvariable bezeichneten Merkmals, nach dem die Grundgesamtheit in Schichten zerlegt wird.  Bei einer Einkommenserhebung bei Hochschulabsolventen könnte etwa nach Berufsgruppen geschichtet werden. Bei Sozioökonomischen Panel werden z.B: Haushalte von Deutschen und Ausländern in zwei getrennten Schichten untersucht.  Formal ist eine geschichtete Stichprobenauswahl ein zweistufiges Auswahlverfahren, bei der eine Grundgesamtheit mit N Elementen → zunächst anhand eines Hilfsmerkmals - der Schichtungsvariablen - in L disjunkte Teilgesamtheiten des Umfangs, N1, N2, ....NL zerlegt wird.  (N1+ N2+ NL = N)  aus denen im zweiten Schritt → Ziehung von Zufallsstichproben des Umfangs (n1 + n2 +...+nL = n) Jenachhdem ob der Anteil ni / Ni (i= 1, 2,...L) der einer Schicht entnommen Stichprobenelemente fest ist oder nicht, liegt eine proportional geschichtete Stichprobe resp. eine disproportional geschichtete Stichprobe vor.  disproportionale Stichprobe → Auswahlwahrscheinlichkeit der Stichprobenelemente innerhalb einer Schichtung ist konstant, nicht aber von schicht zu Schicht. → Man muss hier die Stichprobenelemente beim Rückschluss auf die Grundgesamtheit gewichten -Die Gewichte sind dabei zu den Auswahlwahrscheinlichkeiten rezipork (aufeinander bezogen).  disproportionale Schichtung wird z.B. angewendet, wenn Schichten dünn besetzt sind.  Bei geschichteten Zufallsstichproben wird eine Grundgesamtheit anhand eines Hilfsmerkmals (Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfällt aber eine Grundgesamtheit auf natürliche Weise, also von vorneherein, in disjunkte Teilgesamtheiten → Klumpen.  B Klumpen: Grundgesamtheit Schüler → Klumpen durch Klassenverbände; bei Tieren → Herden.  In solchen Fällen zieht man manchmal ein anderes zweistufiges Auswahlverfahren heran, die sog. Klumpenstichprobe: Hier wird im ersten Schritt  eine Zufallsstichprobe aus der Menge aller Klumpen gezogen.  im zweiten Schritt werden alle Elemente der ausgewählten Klumpen untersucht.  In der Praxis, etwa in der Markt- und Meinungsforschung, werden Stichproben nicht immer zufällig, sondern auf der Basis einer Systematik ausgewählt. Ein Beispiel ist die Quotenauswahl → Versuch eine Stichprobe zu erzeugen, durch Vorgabe von Quoten bezüglich eines meist sozioökonomischen Merkmals, z.B. Geschlecht, Alter und zwar so, dass die Stichprobe hinsichtlich dieses Merkmals - damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals- eine Art verkleinertes Abbild der Grundgesamtheit darstellt. 
  • 3.3. Träger amtlicher und nicht-amtlicher Statistik Entscheidungen in Wirtschaft und Politik in nationalem wie auch in supranationalem aka übernationalem Kontext basieren wesentlich auf statistischen Informationen.  Letztere werden nicht nur für die Entscheidungsvorbereitung, sondern auch für die Kommunikation mit dem Bürger sowie für das Monitoring und die Erfolgsbewertung von Politiken benötigt.+ von nationalem und internationalen trägern amtlicher Statistik bereitgestellt.  Daten stammen nicht nur von statistischen Ämtern → ebenfalls von nicht-amtlichen Trägern, die statistische Information auch auf Anforderung liefern, etwa für Werbezwecke.  Im Folgendem werden einige Träger amtlicher und nicht amtlicher Statistik vorgestellt.  Organisation der amtlichen Statistik in Deutschland: ...in Deutschland weitgehend gelöst von Ministerien und wird eigenständigen Behörden verantwortet → Prinzip der fachlichen Konzentration.  Träger amtlicher Statistik haben eine Informationspflicht gegenüber der Öffentlichkeit.  Statistische Bundesamt  → zuständig für Datensammlungen, die ganz Deutschland betreffen.  Statistischen Landesämter → ´zuständig für regionale Daten.  kommunale Statistikämter  Nur wernige amtliche Statistiken werden unter direkter Kontrolle von Ministerien geführt, etwa die Arbeismarktstatistik der Bundesagentur für Arbeit, bei der das Bundesministerium für Arbeit und Soziales Mitverantwortung trägt.  Träger nicht-amtlicher Statistik: haben keine Informationspflicht der Öffentlichkeit.  zu diesen zählen Institutionen und Firmen mit sehr unterschiedlichen zielsetzungen, etwa Wirschaftsforschungsinstitute, Interessen- und Wirschaftsverbände (Gewerkschaften, Arbeitgeber, Kammern) sowie private Institute für Markt- und Meinungsforschung.  Die oft an Universitäten angegliederten Wirtschaftsforschungsinstitute widmen sich vor allem der Analyse statistischer Daten, etwa im rahmen der Politikberatung, und weniger der Datengewinnung.  Die größten Wirtschaftsforschungsinstitute in Deutschland sind das Institut für Wirtschaftsforschung (IFO) in München Das Deutsche Institut für Wirschaftsforschung (DIW) Das Rheinisch-Westfälische Institut für Wirschaftsforschung in Essen (RWI)  das Institut für Weltwirtschaft in Kiel (IfW) Institut für Wirtschaftsforschung in Halle (IWH)  In die Markt- und Meinungsfrscung, die im Auftrag von unternehmen oder öffentlichen Einrichtungen erfolgt, werden erhebliche Summen investiert. Arbeitskreit Deutscher Markt- und Sozialforschungsinstitute (ADM) Gesellschaft für Konsumforschung (GfK) TNS Infratest Forschungsgruppe Wahlen → Politbarometer Gesellschaft sozialwisschenschaftlicher Infrastruktureinrichtungen (GESIS) ist ein Zusammenschluss von Instituten, die Methodenberatung und umfangraeiche datenarchive für die empirische Sozialforschung anbieten.  Internationale Träger amtlicher Statistik Eurostat Europäische Amt für Statistik: spielt für die europäische Politik eine wichtige Rolle; führt Datenbestände der Ämter von EU-Mitgliedschaften zusammen; ist für die Harmonisierung der Datengewinnung zuständig. → dies geschieht durch die Entwicklung und fortlaufende Aktualisierung von Verordnungen, in denen die Datenerhebung auf allen politikrelevanten Feldern auf europäischer Ebene verbindlich geregelt wird.  Erst so wird vergleichbar, was die nationalen Ämter an statistischer Information bereitstellen.  Eurostat bietet unter dem Label Statistics Explained ein Wissensportal an, das zu den Themenfeldern der amtlichen Statistik Texte und Grafiken für den interessierten Laien bereit stellt. Die Texte enthalten Verknüpfungen zur Datenbank von Eurostat und anderen internationalen Organisationen sowie zu Publikationen der EU-Kommision.  Organisation für wirschaftliche Zusammenarbeit und Entwicklung (OECD; Organisation for Economic Co-operation and Development) OECD ist aufgrund stärkerer Marketingaktivitäten häufiger als Eurostat als Datenquelle in den Medien genanntm z.B im Zusammenhang mit den PISA-Studien, wirkt aber nicht aktiv an der Harmonisierung von Datenerhebungen auf nationaler Ebene mit.  Zu erwähnen ist auch die UN Statics Division, das Statistikreferat der Vereinten Nationen.