Statistik (Subject) / Clusteranalyse (Lesson)

There are 26 cards in this lesson

Kap. 10

This lesson was created by loewi.

Learn lesson

This lesson is not released for learning.

  • Grundsätzliche Idee Verfahren zur Gruppenbildung. Es sollen Objekte (personen, Variablen) die sich ähnlich sind, in Gruppen zusammengefasst werden. >>> Suche nach homogenen Untergruppen im Datensatz. Ähnliche Objekte werden in einem Cluster zusammengefasst. Ausreißer werden multivariat gesucht, d. h. über mehrere Variablen hinweg wird geprüft, ob sich eine Person bedeutsam von den anderen unterscheidet. So können Fälle entdeckt werden,die univariat nicht ermittelt werden könnten.
  • Voraussetzungen für Clusteranalyse - intervallskalierte oder nominalskalierte! Variablen - vor der Anwndung müssen zwei Entscheidungen getroffen werden: 1. Wahl des Proximitätsmaßes (=die Ähnlichkeit von zwei Objekten in allen Merkmalen). Dafür stehen viele Maße zur Verfügung, abhängig vom Skalenniveau 2. Wahl des Fusionierungsalgorithmus spätestens nach Bildung der ersten Gruppe muss entschieden werden, worin diese mit anderen verglichen werden soll. Dafür stehen verschiedene Algorithmen zur Verfügung.
  • Inhaltlicher Ablauf Es werden schrittweise cluster über ein hierarchisches Verfahren gesucht. Über das Proximitätsmaß werden Ähnlichkeiten zwischen verschiedenen Gruppen gebildet. Gestartet wird mit den zwei ähnlichsten Objekten, anschließend werden neue Objekte hinzugefügt oder zwei andere bilden ein neues Cluster die analyse ist beendet, wenn alle Objekte in einem Gesamtcluster integriert sind.
  • Dummykodierung es können alle nominalen Merkmale in binärer Form dargestellt werden. Bsp. Freiburg-nicht Freiburg (bringt aber bei zum Beispiel vier Universitäten Schwierigkeiten in der Interpretation mit sich)
  • Beispiele für Proximitätsmaße (gibt noch viel mehr) Maße für intervallskalierte Variablen: L1-Norm (City-Block-Metrik), L2-Norm (euklidische Metrik), Mahalanobis-Distanz, Q-Korrelationskoeffizient Maße für nominalskalierte Variablen Tanimotot-Koeffizient, Russel&Rao-Koeffizient, Simple-Matching-Koeffizient, Dice-Koeffizient, Kulczynski-Koeffizient
  • Wie viele Kombinationsmöglichkeiten ergeben sich bei zwei binären Variablen und einer Eigenschaft? 4. - Eigenschaft bei Objekt a und Objekt b vorhanden - Eigenschaft bei beiden nicht vorhanden -  bei a vorhanden -  bei b vorhanden
  • Auf was sind die Proximitätsmaße für Nominalskalenniveau zurückzuführen? auf die allgemeine Ähnlichkeitsfunktion. Bestimmte Eigenschaften der Daten können vom Anwender besonders betont werden durch die Gewichtung. Die Proximitätsmaße schlagen unterschiedliche Gewichtungen vor. Einige beziehen auch die Zeile d mit ein (beide haben das Merkmal nicht) >>> Simple Matching, Russel&Rao
  • Clusteranalyse auf Intervallskalenniveau hier wird die Ähnlichkeit nicht dichotom, also ähnlich- unähnlich bestimmt, sondern durch intervallskalierten Abstand. Die Ähnlichkeit wird durch L-Normen (Minkowski-Metriken) bestimmt. dies ist die Distanz zweier Objekte in der entsprechenden dimension.
  • L1 und L2-Normen L1: city-block-Metrik (Manhattan-Metrik) Es müssen immer die Kanten, die quadratischen Distanzen, abgefahren werden. L2: euklidische Metrik direkte Strecke zwischen zwei Punkten. Es gibt auch quadrierte euklidische Distanz.
  • Unterschiede von L1 und L2-Norm  wenn in mehreren Variablen ähnlich große Unterschiede auftauchen, ist das maß für die L1-Norm größer als für die L2. Im SPSS ist grundsätzlich die quadrierte euklidische Metrik eingestellt. Hier werden große Differenzwerte bedeutsamer. die rangreihe der differenzen ändert sich jedoch nicht.
  • Mahalanobis-Distanz Die Produkte der Distanzen auf den verschiedenen Merkmalen werden ermittelt. Wenn zwei Objekte in nur einem Merkmal identisch sind, kann die Mahalanobis-distanz null werden!
  • Q-Korrelationskoeffizient Er bestimmt die Ähnlichkeit zwischen Objekten bezüglich ihrer Merkmale, nicht die Differenz.
  • Fusionierungsalgorithmen-Prinzip Sie entscheiden primär, wie aus den Objekten, die alle erst einzeln sind, ein Cluster mit Zwei Objekten wird und dann immer mehr und größere Cluster gebildet werden. Es stellt sich die Frage, in welcher Reihenfolge die Objekte vereint werden und wie groß die jeweiligen distanzen vor der Aufnahme sind. am Schluss entsteht immer ein einziges Cluster, in dem alle Objekte enthalten sind.
  • Ablauf Analog zu einer guten Party! 1. am Anfang liegen bei n Objekten n cluster der Größe 1 vor. 2. Dann werden bilateral alle paarweisen Distanzen ermittelt. Das Paar mit der kürzesten Distanz bildet das erste cluster. 3. Dann entscheidet sich, ob die cluster vergrößert werden oder sich neue Zweiergruppen bilden. 4. Die Cluster vergrößern sich schrittweise, bis alle Objekte integriert sind. Je näher, desto früher werden sie integriert. Ausreißer am Schluss!
  • wie heißt die bildliche Darstellung der clusteranalyse? Was kann man alles rauslesen? Dendrogramm. Einerseits die Reihenfolge, in der die Objekte zu Clustern zusammengeführt werden. andererseits in der Horizontalen die Distanz, die standardisierte Differenz.
  • Woher weiß man, wie man nach dem ersten Schritt, dem ersten cluster, weitermachen soll? Müssen die Distanzen neu berechnet werden? verschiedene Methoden: - Average-Linkage - Single-linkage - Complete-Linkage -Centroid - Median -Ward
  • Average-Linkage Die ursprünglichen Distanzen werden nochmal verwendet. Die durchschnittlichen Distanzen werden gebildet und als Entscheidungsmaße für weitere Fusionierungen verwendet. Auf dieser Grundlage wird die Entscheidung für weitere clusterbildung getroffen.
  • Welche Subtypen der fusionierungsalgorithmen gibt es bei der clusteranalyse? - Linkage zwischen den Gruppen (man legt die durchschnittliche Distanz aller Paare zwischen den noch zu fusionierenden clustern zugrunde) Man geht von den vorhandenen Clustern aus und schaut, welche Verbindung jetzt die nächst sinnvolle wäre. Die distanzen innerhalb der Gruppen werden nicht berücksichtigt! - Linkage innerhalb den Gruppen (durchschnittliche Distanz aller paare innerhalb des möglichen fusionierten clusters) die distanzen innerhalb aller möglicher cluster werden mit einbezogen.
  • Single-linkage die ursprünglichen Distanzen werden beibehalten. Zur Bewertung wird nur eine Distanz herangezogen. Im ersten Schritt wird das Paar mit der kleinsten Distanz zum ersten Cluster herangezogen.  Dann wird weiterhin die kleinste Distanz herangezogen. Egal, wie viele Elemente in einem Cluster sind, werden nur die beiden nächsten Nachbarn aus beiden Clustern zur Bewertung herangezogen (darum auch nearest-neighbour-VF)
  • Complete-Linkage Auch hier wird nur eine distanz berücksichtigt. Es wird aber bei der Fusionierung nicht die kleinste, sondern die maximale distanz berücksichtigt (Fahrthest-neighbour-VF) Vorteil: Es enstehen evtl. kompaktere Cluster.
  • Centroid hier werden keine der bisherigen distanzen gemittelt. Für jeden Cluster werden neue Clusterkennwerte und neue Distanzen ermittelt. Es wird der Mittelwert gebildet  (fiktive mittlere Person), mit der dann gerechnet wird. Es werden die Distanzen dieser Mittelwerte errechnet. Nachteil: Es muss vor jeder Fusionierung ein Teil der Distanzen neu ermittelt werden.
  • Median Analog zur Centroid-Methode werden neue Distanzen für neue cluster berechnet. Aber es wird der Median und nicht der Mittelwert verwendet. Vorteile des medians: Ausreißer haben keine Bedeutung auf die Kennwerte. Je größer die Cluster, desto geringer der Einfluss der Ausreißer.
  • Ward-Methode Unterschied zu allen anderen Maßen: Distanz zwischen den Objekten wird nur indirekt verwendet. Die 'Bildung eines neuen Clusters über die Varianz innerhalb der potentiellen Cluster. Es werden die Objekte zusammengefügt, die eine möglichst große cluster-Homogenität haben. Berechnung über die quadrierten Differenzen zwischen dem Einzelwert und Dem Gruppenmittelwert. Eine Kombination vonFaktoren ist optimal, wenn der Zuwachs an Varianz minimal ist.  
  • Eigenschaften der Verfahren Linkage-Methdoden: Für alle Proximitätsmaße verwendbar. single-linkage: Problem sogenannte Kettenbildung. Die Gruppenwerdn in einer Art Schlauch zusammengefasst, bei der der nächste Nachbar sehr weit weg von den anderen sein kann. complete Linkage:  eher kleine Gruppen werden gebildet. Ward-Methode: es werden etwa gleich große Gruppen gebildet.
  • Wann ist Ward-Methode besonders sinnvoll? Wenn ein inhaltlich sinnvolles Distanzmaß verwendet werden kann intervallskalierte und unkorellierte Variablen ohne ausreißer vorliegen von gleich großen Gruppen ausgegangen werden kann.
  • allgemeine Empfehlung für Anfänger: immer Ward-Methode und euklidische Distanz. Bildet im allgemeinen immer gut interpretierbare Gruppen.