Multivariate Analysemethoden (Subject) / Multivariate Analysemethoden 9 (Lesson)

There are 22 cards in this lesson

Multivariate Analysemethoden 9

This lesson was created by Madnetic.

Learn lesson

This lesson is not released for learning.

  • Nennen Sie Ziele d. Clusteranalyse und beschreiben Sie diese genauer. struktursuchend/hypothesengenerierend Ziel: systematische Klassifizierung von Objekten > gleichzeitige Heranziehung aller vorliegenden Eigenschaften > Objekte werden nach Ähnlichkeit in Gruppen (Cluster) eingeteilt Gruppen werden so gewählt, dass: > Objekte innerhalb Cluster sehr ähnlich > Objekte verschiedener Cluster sehr unähnlich Analyse d. heterogenen Gesamtheit von Objekten mit Ziel homogene Teilmengen aus Gesamtheit zu identifizieren
  • Erläutern Sie das Vorgehen bei einer Clusteranalyse. Bestimmung d. Ähnlichkeiten (Wahl d. Proximitätsmaßes) Auswahl Fusionierungsalgorithmus Bestimmung d. Clusterzahl
  • Warum entscheidet die Auswahl der Merkmale über das Ergebnis der Clusteranalyse? zu viele Merkmale: > Objekteigenschaften = überrepräsentiert zu wenig Merkmale: > wenige Cluster Irrelevante Merkmale: > verzerren Clusterbildung Skalenniveau sollte möglichst hoch und einheitlich sein 
  • Beschreiben Sie das Ähnlichkeits- und Distanzmaß der Clusteranalyse bei der Bestimmung d. Ähnlichkeiten. Ähnlichkeit: je größer d. Wert, desto ähnlicher sind zwei Objekte Distanzmaß: je größer d. Wert, desto unähnlicher sind zwei Objekte Nominalskalen: > Tanimoto-Koeffizient; SMC-Koeffizient; RR-Koeffizient; Phi-Koeffizient Metrische Skalen: > L1-; L2-Norm und Q-Koeffizient
  • Wie ist das Vorgehen bei der Bestimmung von Ähnlichkeiten? Bildung Rohdatenmatrix Bildung einer Distanz- und Ähnlichkeitsmatrix > jedes Ähnlichkeitsmaß lässt sich durch Transformation in ein Distanzmaß überführen und umgekehrt
  • Wie wird bei dichotomen Variablen bei der Bestimmung von Ähnlichkeiten vorgegangen? 2x2-Tabelle für 2 Objekte: a = Eigenschaft bei beiden vorhanden b = Eigenschaft bei Objekt B vorhanden c = Eigenschaft bei Objekt A vorhanden d = Eigenschaft bei beiden nicht vorhanden Person B        1    0 Person A     1  a   c                  0   b   d
  • Welche vier Koeffizienten können für dichotome Variablen berechnet werden und wie unterscheiden Sie sich? Tanimoto: > relativer Anteil gemeinsamer Eigenschaften bezogen auf Variablen, die mind. eine 1 aufweisen > sij = a / a+b+c SMC-Koeffizient: > Übereinstimmung in Bezug auf nicht-Vorhandensein eines Merkmals > SMCij = a+d /a+b+c+d RR: > berücksichtigt im Nenner auch Fälle, bei denen beide Objekte d. Merkmal nicht aufweisen > sij = a / a+b+c+d Phi-Koeffizient: > alle Felder gleichermaßen berücksichtigt; Produkt-Moment-Korrelation > φ = a*d-b*c / Wurzen aus: (a+c)*(b+d)*(a+b)*(c+d) 
  • Welches Ähnlichkeitsmaß im Rahmen einer empirischen Analyse ist am sinnvollsten? > nicht allgemeingültig bestimmbar
  • Beschreiben Sie die Berechnung d. Ähnlichkeiten von k-gestuften-Merkmalen Dummykodierung: k-1 binäre Indikatorvariablen > Gewichtung mit 1/(k-1)
  • Wie werden die Ähnlichkeiten ordinalskalierter Merkmale bestimmt? Dichotomisierung an Median > Rangplätze oberhalb d. Medians = 1 > Rangplätze unterhalb d Medians = 0
  • Wie wird die Ähnlichkeit bei metrischen Strukturen bestimmt? kleine Distanz = sehr ähnlich große Distanz = sehr unähnlich Proximitätsmaß: Minkowski-Metriken (L-Norm) L1 (City-Block-Metrik): r=1 alle Differenzen gleichgewichtet L2 (euklidische Distanz): r=2 große Distanzen stark gewichtet: intervallskalierte Merkmale > vergleichbare Maßeinheiten müssen zu Grunde liegen / durch Standardisierung vergleichbar gemacht werden > Wahl d. Distanzmaßes beeinflusst d. Ähnlichkeitsreihenfolge d. Untersuchungsobjekte
  • Wie werden Cluster identifiziert? Gruppierung so, dass Unterschiede d. Objekte in Gruppe = klein; Unterschiede d. Objekte zwischen d. Gruppen = groß > sehr hoher Arbeitsaufwand = Fusionierungsalgorithmus (Verschiebung, statt Sortierung)
  • Zwischen welchen Fusionierungsalgorithmen wird bei der Clusteranalyse unterschieden? partionierende Verfahren: > Startpatition - feste Zahl an Clustern > Objekte so lange zwischen Gruppen getauscht, bis Zielfunktion ein Optimum erreicht  hierarchische Verfahren: > agglomerativen (Zusammenfassung von Gruppen) und divisiven Verfahren (Aufteilung d. Gesamtheit in Gruppen)
  • Nennen Sie die Ablaufschritte d. partionierenden Verfahren 1. Anfangstpartition 2. AM pro Gruppe pro Eigenschaft 3. QSe(Varianz) über alle Gruppen ermittelt 4. Objekte werden untersucht, ob Varianz durch Verlagerung gesenkt werden kann 5. Objekt, dass zu maximaler Verringerung d. Varianz führt, wird in entsprechende Gruppe verlagert 6. AM für abgegebene Gruppe und neue Gruppe berechnet 7. Wdh. Schritt 3 8. Abbruch d. Clusterung, wenn alle Objekte untersucht wurden & keine Verbesserung d. Varianz erreichbar
  • Wie wird bei hierarchischen Verfahren (agglomerativ) vorgegangen? agglomerativ: 1. Start feinste Partition = 1 Objekt = 1 Cluster 2. Berechnung d. Distanzen paarweise (euklidische Distanz) 3. Fusionierung d. Objekte zu einem Cluster, die d. kleinste Distanz aufweisen 4. Berechnung d. Distanz zw. neuen und übrigen Gruppen (reduzierte Distanzmatrix) 5. Schritte 1-4 bis zur 1-Cluster-Lösung wiederholt
  • Welche Fusionskriterien gibt es beim hierarchischen Verfahren (agglomerativ)? Single-Linkage Complete-Linkeage  Ward Average-Linkage
  • Beschreiben Sie das Single-Linkage Verfahren paarweise Ähnlichkeiten d. Objekte eines Clusters zu Objekten d. andren Clusters > Vereinigung zweier Cluster, d. zueinander am nächsten liegende Nachbarobjekte (nearest neighbour) besitzen > Verbindung 2 Cluster brückenförmig - ein Objekt einer Gruppe wird mit einem Objekt anderer Gruppe (single link) verbunden > Kettenbildung möglich
  • Beschreiben Sie das Complete-Linkeage-Verfahren am weitesten entfernte Objekte (furthest neighbour) > Fusion d. Cluster, für die Maximaldistanz minimal > homogene Cluster
  • Beschreiben Sie das Ward- und Average-Linkeage-Verfahren Ward: > Fusion d. Objekte, die die geringste Erhöhung d. Fehlerquadratsumme ergeben > Objekte vereinigen, die Streuung in d. Gruppe am wenigsten erhöhen > homogene Cluster Average Linkage: > Bildung d. Objektdistanzen von 2 Clustern > Fusion d. Cluster mit kleinster Durchschnitsdistanz
  • Wann ist das Ward-Verfahren ein guter Algorithmus zur Fusionierung? > Distanzmaß sinnvoll ist > Variablen = metrisch > keine Ausreißer > Variablen unkorreliert > Objekte in Gruppen ähnlich groß > Gruppen gleiche Ausdehnung besitzen
  • Wie wird die Anzahl d. Cluster bestimmt? nach stat. Kriterien > Entwicklung d. Heterogenitätsmaßes durch sachlogische Überlegungen > keine Vorannahmen  > Konflikt zwischen Heterogenitätsanforderungen d. Clusterzahl und Handhabbarkeit d. Clusterlösung
  • Wie wird die Clusterzahl mit einem Struktogramm bestimmt? optische Überprüfung d. Clusterzahl: Elbow-Kriterium