Multivariate (Fach) / Clusteranalyse (Lektion)

In dieser Lektion befinden sich 25 Karteikarten

Clusteranalyse

Diese Lektion wurde von AnnaCy erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • Ziel der Clusteranalyse •Clusteranalyse als multivariates Verfahren ist: struktursuchend und hypothesengenierend  •Ziel: systematischen Klassifizierung von Objekten.  •Wesentliches Charakteristikum: gleichzeitige Heranziehung aller vorliegenden Eigenschaften.  •Die durch einen festen Satz von Merkmalen beschriebenen Objekte werden nach ihrer Ähnlichkeit in Gruppen (Cluster) eingeteilt  •Die Gruppen sollen so gewählt werden, dass  •1. die Objekte innerhalb einer Gruppe sehr ähnlich sind.  •2. die Objekte verschiedener Gruppen sehr unähnlich sind.  •D.h. Analyse einer heterogenen Gesamtheit von Objekten mit dem Ziel homogene Teilmengen aus der Objektgesamtheit zu identifizieren. 
  • Clusteranalyse Vorgehen 1.Bestimmung der Ähnlichkeiten (Wahl des Proximitätsmaß): Für jeweils 2 Pbn werden die Ausprägungen der Merkmale geprüft und die Unterschiede bzw. die Übereinstimmungen durch einen Zahlenwert (Proximitätsmaß) gemessen  2.Auswahl des Fusionierungsalgorithmus: Aufgrund der Ähnlichkeitswerte werden die Fälle so zu Gruppen zusammengefasst, dass sich diejenigen Objekte mit weitgehend übereinstimmend ausgeprägten Beschreibungsmerkmalen in einer Gruppe wiederfinden.  3.Bestimmung der Clusteranzahl: Entscheidung über die Anzahl der Cluster. Hier gilt es vor allem den Zielkonflikt zwischen Handhabbarkeit (geringe Clusteranzahl) und Homogenitätsanforderung (große Clusteranzahl) zu lösen. 
  • Clusteranalyse Merkmale •Die Auswahl der Merkmale entscheidet über das Ergebnis der Clusteranalyse.  •Zu viele Merkmale: bestimmte Objekteigenschaften sind überrepräsentiert.  •Folge: für die Bildung der Cluster dominiert die Ähnlichkeit bzgl. dieser Eigenschaften  •Zu wenig Merkmale: führen zu weniger Cluster, die sich bei der Berücksichtigung weiterer nicht redundanter Merkmale weiter ausdifferenzieren ließen.  •Irrelevante Merkmale: können die Clusterbildung verzerren, bzw. erheblich erschweren  •Generell sollte das Skalenniveau möglichst hoch und einheitlich sein. 
  • Bestimmung der Ähnlichkeiten Ähnlichkeit und Fusionierung Entscheidend für das Ergebnis: Definition der Ähnlichkeit  Ähnlichkeits- und Distanzmaße  •Ähnlichkeitsmaße: je größer der Wert, desto ähnlicher sind sich zwei Objekte.  •Distanzmaße: je größer der Wert, desto unähnlicher sind sich zwei Objekte.  Nominalskalen : Proximitätsmaß : -Tanimoto-Koeffizient (S-Koeffizient)  -Ähnlichkeitsmaße (können in Distanzmaße umgerechnet werden)  -M-Koeffizient (SMC-Koeffizient)  -RR-Koeffizient  -Phi-Koeffizient  Einordnung: Ähnlichkeitsmaße (können in Distanzmaße umgerechnet werden)  Metrische Skalen : Proximitätsmaß : L1-Norm Distanzmaß L2-Norm  Einordnung : Distanzmaß  Q-Koeffizient Ähnlichkeitsmaß 
  • Bestimmung der Ähnlichkeiten Vorgehen 1.Bildung einer Rohdatenmatrix  2.Bildung einer Distanz- oder Ähnlichkeitsmatrix:  •Enthält Ähnlichkeits- oder Distanzwerte zwischen den betrachteten Objekten, die aus der Rohdatenmatrix berechnet werden (Proximitätsmaße).  •Jedes Ähnlichkeitsmaß lässt sich durch eine einfache Transformation in ein Distanzmaß überführen und umgekehrt. 
  • Bestimmung der Ähnlichkeiten Dichotome Variablen • Bei dichotomen Variablen, kann für zwei Objekte eine 2 x 2-Tabelle angefertigt werden.  • Beispiel: Ähnlichkeit von zwei Personen A und B auf der Basis von 15 binären Merkmalen bestimmt werden.  • Personenvektoren:  • Resultierende 2 x 2-Tabelle: 
  • Bestimmung der Ähnlichkeiten Koeffizienten I •Tanimoto-Koeffizient: relativer Anteil gemeinsamer Eigenschaften bezogen auf die Variablen, die mindestens eine 1 aufweisen.  •Ähnlichkeitsmaß sij = 𝑎𝑎+𝑏+𝑐  •Umrechnung Distanzmaß dij = 1 - sij 𝑏+𝑐𝑎+𝑏+𝑐  •Wertebereich von 0 ≤ Sij ≤ 1  •SMC-Koeffizient: berücksichtigt auch die Übereinstimmung in Bezug auf das Nicht-Vorhandensein eines Merkmals  •Ähnlichkeitsmaß SMCij = 𝑎+𝑑𝑎+𝑏+𝑐+𝑑  •Umrechnung Distanzmaß 1 - SMCij  •Wertebereich von 0 ≤ SMCij ≤ 1. 
  • Bestimmung der Ähnlichkeiten Koeffizienten II •RR-Koeffizient: berücksichtigt im Nenner auch die Fälle, bei denen beide Objekte das Merkmal nicht aufweisen.  •Ähnlichkeitsmaß sij = 𝑎𝑎+𝑏+𝑐+𝑑  •Phi-Koeffizient: berücksichtigt alle Felder gleichermaßen berücksichtigt. Produkt-Moment-Korrelation zweier dichotomer Merkmale.  •Ähnlichkeitsmaß φ = 𝑎∗𝑑 −𝑏∗𝑐𝑎+𝑐∗𝑏+𝑑∗𝑎+𝑏∗𝑐+𝑑  •Umrechnung Distanzmaß 1 – φ 
  • Bestimmung der Ähnlichkeiten •Welches Ähnlichkeitsmaß im Rahmen einer empirischen Analyse vorzuziehen ist, lässt sich nicht allgemeingültig sagen.  •Eine große Bedeutung bei dieser nur im Einzelfall zu treffenden Entscheidung hat die Frage, ob das Nichtvorhandensein eines Merkmals für die Problemstellung die gleiche Bedeutung/ Aussagekraft besitzt wie das Vorhandensein der Eigenschaft 
  • Bestimmung der Ähnlichkeiten k-fach gestufte Merkmale • Dummycodierung in k - 1 binäre Indikatorvariablen  • Nachteil: das nominale Merkmal mit den meisten Kategorien wird übermäßig stark gewichtet  • Beispiel: Beruf (11 Kategorien) und Geschlecht (2 Kategorien) = 11 Indikatorvariablen  • Ein Mann und eine Frau mit verschiedenen Berufen hätten demnach Übereinstimmungen auf acht Merkmalen.  • Zur Vermeidung dieses Nachteils gewichtet man die Indikatorvariablen des nominalen Merkmals mit 1/(k - 1). 
  • Bestimmung der Ähnlichkeiten Ordinalskalierte Merkmale •Für ordinalskalierte Merkmale wird empfohlen, diese am Median zu dichotomisieren.  •Alle Rangplätze oberhalb des Medians erhalten eine 1 und die Rangplätze darunter eine 0.  •Alternativ kann man die Rangvariable in mehrere Indikatorvariablen auflösen.  •Beispiel Fragebogen: schwach (1,0) /mittel (0,1) /stark (0,0) 
  • Bestimmung der Ähnlichkeiten Metrische Struktur •Zur Bestimmung der Beziehung zwischen den Objekten zieht man i.d.R. ihre Distanz heran (kleine Distanz = sehr ähnlich; Distanz 0 = identisch)  •Proximitätsmaß: Minkowski-Metriken (L-Norm)  •r = positive Konstante  •L1 Norm (City Block Metrik): r = 1 (alle Differenzen gehen gleichgewichtet in die Berechnung mit ein)  •L2-Norm (euklidische Distanz): r = 2 (große Distanzen werden stärker berücksichtigt)  •Bei den Minowski Metriken ist darauf zu achten, dass vergleichbare Maßeinheiten zugrunde liegen.  •Ggf. müssen die Daten mit Standardisierung vergleichbar gemacht werden  •Die Wahl des Distanzmaßes beeinflusst die Ähnlichkeitsreihenfolge der Untersuchungsobjekte  •Bei intervallskalierten Merkmalen wird die Distanz zweier Objekte üblicherweise durch das euklidische Abstandsmaß beschrieben. 
  • Clusteranalyse Clusteridentifikation •Auf Basis von Ähnlichkeiten (oder Distanzen) gruppiert die Clusteranalyse die Objekte so, dass die Unterschiede der Objekte eines Clusters möglichst klein und die Unterschiede zwischen den Clustern möglichst groß sind.  •Sortierung bis die beste Clusterlösung im Sinne des Kriteriums gefunden wird.  •Hoher Arbeitsaufwand! (5 Objekte = 52 Variationen für Gruppeneinteilung; 10 Objekte = 115975 etc.)  •Schon bei Stichproben mittlerer Größe problematisch.  •Lösung: Zuordnung zu Gruppen; Verschiebung statt Sortierung  •→ Fusionierungsalgorithmen 
  • Fusionierungsalgorithmen Partionierende Verfahren:  •Gehen von einer vorgegebenen Gruppierung der Objekte (Startpartition) und damit verbundenen festgelegten Zahl an Clustern aus.  •Objekte werden mit Hilfe eines Austauschalgorithmus zwischen den Gruppen so lange umgeordnet, bis eine gegebene Zielfunktion ein Optimum erreicht  Hierarchische Verfahren:  •Unterscheidung zwischen agglomerativen (= Zusammenfassung von Gruppen) und divisiven Verfahren (= Aufteilung der Gesamtheit in Gruppen) 
  • Fusionierungsalgorithmus Partionierende Verfahren - Ablaufschritte 1.Anfangspartition vorgeben  2.Pro Gruppe wird je Eigenschaft das AM berechnet  3.Für die jeweils gültige Gruppenzuordnung wird QSe (Varianzkriterium) über alle Gruppen ermittelt  4.Die Objekte werden daraufhin untersucht, ob durch eine Verlagerung das Varianzkriterium vermindert werden kann  5.Das Objekt, das zu einer maximalen Verringerung führt, wird in die entsprechende Gruppe verlagert.  6.Für die empfangende und die abgebende Gruppe werden die neuen AM berechnet  7.Schritt 3 ff.  8.Abbruch der Clusterung, wenn alle Objekte bezüglich ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums mehr erreichen lässt 
  • Fusionierungsalgorithmus Partionierende Verfahren Diese Clusterstrategie ist dafür geeignet: Anwendung: •Diese Clusterstrategie ist dafür geeignet, für eine vorgegebene Anzahl von k Clustern die tatsächlich beste Aufteilung der Objekte zu finden.  •ABER: schon bei mittleren Objektzahlen unrealistischen Rechenzeiten.  •DAHER: Suchprozess wird auf eine begrenzte Anzahl geeignet erscheinender Partitionen begrenzt  •Hierbei kann die tatsächlich beste Lösung übersehen werden.  •Anwendung: Optimalerweise zur Verbesserung der Gruppierung, die nach der hierarchischen Methode gefunden wurde. 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ - Ablaufschritte 1.Start mit der feinsten Partition (jedes Objekt ein Cluster)  2.Berechnung der paarweisen Distanzen (bzw. Ähnlichkeiten) zwischen allen Objekten (euklidische Distanz)  3.Fusionierung derjenigen Objekte zu einem Cluster, die die kleinste Distanz (bzw. größte Ähnlichkeit) aufweisen (= N Gruppen reduziert sich um 1)  4.Berechnung der Distanz zwischen den neuen und den übrigen Gruppen (reduzierte Distanzmatrix)  5.Schritte 1-4 werden bis zur 1-Cluster-Lösung wiederholt  In einem Dendrogramm wird zusammenfassend verdeutlicht, in welcher Abfolge die Objekte schrittweise zusammengefasst wurden. 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ Fusionskriterien: Fusionskriterien:  •Single-Linkage Verfahren  •Complete-Linkage Verfahren  •Ward-Verfahren  •Average-Linkage Verfahren 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ Single-Linkage Verfahren Single-Linkage Verfahren  •Kriterium: paarweise Ähnlichkeiten der Objekte des einen Clusters zu den Objekten des anderen Clusters.  •Es werden diejenigen zwei Cluster vereint, welche die zueinander am nächsten liegenden Nachbarobjekte („nearest neighbour“) besitzen.  •Die Verbindung zweier Cluster wird hier also brückenförmig durch je ein Objekt der beiden Cluster („single link“) hergestellt.  •Dadurch, dass jeweils nur zwei nahe beieinanderliegende Einzelobjekte über die Fusionierung zweier Cluster entscheiden, kann es zu Verkettungen bzw. kettenförmigen Clustergebilden kommen. 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ Complete-Linkage Verfahren Complete-Linkage Verfahren  •Kriterium: am weitesten entferntes Objekte („furthest neighbour“).  •Es werden diejenigen Cluster fusioniert, für die diese Maximaldistanz minimal ist.  •In diesem Sinn resultiert Complete Linkage in homogenen Clustern und ist damit für viele Fragestellungen geeignet. 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ Ward Verfahren Ward Verfahren  •Die Ward-Methode fusioniert sukzessive diejenigen Elemente, mit deren Fusion die geringste Erhöhung der gesamten Fehlerquadratsumme einhergeht.  •Ziel: diejenigen Objekte vereinigen, die die Streuung in einer Gruppe möglichst wenig erhöhen.  •Dadurch werden möglichst homogene Cluster gebildet. 
  • Fusionierungsalgorithmen Hierarchische Verfahren: agglomerativ Average Linkage Average Linkage  •Für je 2 Cluster wir der Durchschnitt aller Objektdistanzen berechnet  •Fusioniert werden die Cluster mit den kleinsten Durchschnittsdistanz 
  • Fusionierungsalgorithmen Fusionierungseigenschaften des Ward Verfahrens •Untersuchungen zeigen, dass das Ward Verfahren im Vergleich zu den anderen Algorithmen meist sehr gute Partitionen findet und die Elemente „richtig“ in Gruppen ordnet  •Das Ward Verfahren ist ein sehr guter Fusionierungsalgorithmus, wenn  •Verwendung eines Distanzmaßes ein inhaltliches sinnvolles Kriterium darstellt  •Alle Variablen metrisch sind  •Keine Ausreisser vorhanden sind  •Die Variablen unkorreliert sind  •Zu erwarten ist, dass die Elementezahl in jeder Gruppen ähnlich groß ist  •Gruppen in etwa gleich Ausdehnung besitzen 
  • Bestimmung der Clusteranzahl •nach statistischen Kriterien  •z.B. Entwicklung des Heterogenitätsmaßes ( z.B. per Fehlerquadratsumme)  •Dendrogramm  •durch sachlogisch Überlegungen ?  •i.d.R. keine Vorannahmen – Aufdeckung inhärenter Grupperiung  •Konflikt zwischen der „Heterogenitätsanforderung der Clusterzahl“ und der „Handhabbarkeit der Clusterlösung“  •Zur Lösung des Konflikt – sachlogische Überlegungen heranziehen  •ABER: Beschränkung auf die Clusterzahl und nicht Ausrichtung nach den in den Clustern zusammengefassten Fällen 
  • Bestimmung der Clusteranzahl Struktogramm/ Dendrogramm •Optische Überprüfung der Clusteranzahl: Elbow-Kriterium. (Struktogramm)  •Zeigt graphisch auf, mit welchem Fehlerquadratsummenzuwachs jede Fusionierungsstufe verbunden ist  •Dendrogramm: Es wird der Punkt als Clusterlösung bestimmt, an dem keine größeren Heterogenitätssprünge mehr zu verzeichnen sind.