Statistik (Fach) / Clusteranalyse (Lektion)

In dieser Lektion befinden sich 26 Karteikarten

Kap. 10

Diese Lektion wurde von loewi erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • Grundsätzliche Idee Verfahren zur Gruppenbildung. Es sollen Objekte (personen, Variablen) die sich ähnlich sind, in Gruppen zusammengefasst werden. >>> Suche nach homogenen Untergruppen im Datensatz. Ähnliche Objekte werden ...
  • Voraussetzungen für Clusteranalyse - intervallskalierte oder nominalskalierte! Variablen - vor der Anwndung müssen zwei Entscheidungen getroffen werden: 1. Wahl des Proximitätsmaßes (=die Ähnlichkeit von zwei Objekten in allen Merkmalen). ...
  • Inhaltlicher Ablauf Es werden schrittweise cluster über ein hierarchisches Verfahren gesucht. Über das Proximitätsmaß werden Ähnlichkeiten zwischen verschiedenen Gruppen gebildet. Gestartet wird mit den zwei ähnlichsten ...
  • Dummykodierung es können alle nominalen Merkmale in binärer Form dargestellt werden. Bsp. Freiburg-nicht Freiburg (bringt aber bei zum Beispiel vier Universitäten Schwierigkeiten in der Interpretation mit sich)
  • Beispiele für Proximitätsmaße (gibt noch viel mehr) ... Maße für intervallskalierte Variablen: L1-Norm (City-Block-Metrik), L2-Norm (euklidische Metrik), Mahalanobis-Distanz, Q-Korrelationskoeffizient Maße für nominalskalierte Variablen Tanimotot-Koeffizient, ...
  • Wie viele Kombinationsmöglichkeiten ergeben sich ... 4. - Eigenschaft bei Objekt a und Objekt b vorhanden - Eigenschaft bei beiden nicht vorhanden -  bei a vorhanden -  bei b vorhanden
  • Auf was sind die Proximitätsmaße für Nominalskalenniveau ... auf die allgemeine Ähnlichkeitsfunktion. Bestimmte Eigenschaften der Daten können vom Anwender besonders betont werden durch die Gewichtung. Die Proximitätsmaße schlagen unterschiedliche Gewichtungen ...
  • Clusteranalyse auf Intervallskalenniveau hier wird die Ähnlichkeit nicht dichotom, also ähnlich- unähnlich bestimmt, sondern durch intervallskalierten Abstand. Die Ähnlichkeit wird durch L-Normen (Minkowski-Metriken) bestimmt. dies ist die ...
  • L1 und L2-Normen L1: city-block-Metrik (Manhattan-Metrik) Es müssen immer die Kanten, die quadratischen Distanzen, abgefahren werden. L2: euklidische Metrik direkte Strecke zwischen zwei Punkten. Es gibt auch quadrierte ...
  • Unterschiede von L1 und L2-Norm  wenn in mehreren Variablen ähnlich große Unterschiede auftauchen, ist das maß für die L1-Norm größer als für die L2. Im SPSS ist grundsätzlich die quadrierte euklidische Metrik eingestellt. ...
  • Mahalanobis-Distanz Die Produkte der Distanzen auf den verschiedenen Merkmalen werden ermittelt. Wenn zwei Objekte in nur einem Merkmal identisch sind, kann die Mahalanobis-distanz null werden!
  • Q-Korrelationskoeffizient Er bestimmt die Ähnlichkeit zwischen Objekten bezüglich ihrer Merkmale, nicht die Differenz.
  • Fusionierungsalgorithmen-Prinzip Sie entscheiden primär, wie aus den Objekten, die alle erst einzeln sind, ein Cluster mit Zwei Objekten wird und dann immer mehr und größere Cluster gebildet werden. Es stellt sich die Frage, in welcher ...
  • Ablauf Analog zu einer guten Party! 1. am Anfang liegen bei n Objekten n cluster der Größe 1 vor. 2. Dann werden bilateral alle paarweisen Distanzen ermittelt. Das Paar mit der kürzesten Distanz bildet das erste cluster. 3. Dann entscheidet ...
  • wie heißt die bildliche Darstellung der clusteranalyse? ... Dendrogramm. Einerseits die Reihenfolge, in der die Objekte zu Clustern zusammengeführt werden. andererseits in der Horizontalen die Distanz, die standardisierte Differenz.
  • Woher weiß man, wie man nach dem ersten Schritt, ... verschiedene Methoden: - Average-Linkage - Single-linkage - Complete-Linkage -Centroid - Median -Ward
  • Average-Linkage Die ursprünglichen Distanzen werden nochmal verwendet. Die durchschnittlichen Distanzen werden gebildet und als Entscheidungsmaße für weitere Fusionierungen verwendet. Auf dieser Grundlage wird die ...
  • Welche Subtypen der fusionierungsalgorithmen gibt ... - Linkage zwischen den Gruppen (man legt die durchschnittliche Distanz aller Paare zwischen den noch zu fusionierenden clustern zugrunde) Man geht von den vorhandenen Clustern aus und schaut, welche Verbindung ...
  • Single-linkage die ursprünglichen Distanzen werden beibehalten. Zur Bewertung wird nur eine Distanz herangezogen. Im ersten Schritt wird das Paar mit der kleinsten Distanz zum ersten Cluster herangezogen.  Dann wird ...
  • Complete-Linkage Auch hier wird nur eine distanz berücksichtigt. Es wird aber bei der Fusionierung nicht die kleinste, sondern die maximale distanz berücksichtigt (Fahrthest-neighbour-VF) Vorteil: Es enstehen evtl. ...
  • Centroid hier werden keine der bisherigen distanzen gemittelt. Für jeden Cluster werden neue Clusterkennwerte und neue Distanzen ermittelt. Es wird der Mittelwert gebildet  (fiktive mittlere Person), mit der ...
  • Median Analog zur Centroid-Methode werden neue Distanzen für neue cluster berechnet. Aber es wird der Median und nicht der Mittelwert verwendet. Vorteile des medians: Ausreißer haben keine Bedeutung auf die ...
  • Ward-Methode Unterschied zu allen anderen Maßen: Distanz zwischen den Objekten wird nur indirekt verwendet. Die 'Bildung eines neuen Clusters über die Varianz innerhalb der potentiellen Cluster. Es werden die Objekte ...
  • Eigenschaften der Verfahren Linkage-Methdoden: Für alle Proximitätsmaße verwendbar. single-linkage: Problem sogenannte Kettenbildung. Die Gruppenwerdn in einer Art Schlauch zusammengefasst, bei der der nächste Nachbar sehr weit ...
  • Wann ist Ward-Methode besonders sinnvoll? Wenn ein inhaltlich sinnvolles Distanzmaß verwendet werden kann intervallskalierte und unkorellierte Variablen ohne ausreißer vorliegen von gleich großen Gruppen ausgegangen werden kann.
  • allgemeine Empfehlung für Anfänger: immer Ward-Methode und euklidische Distanz. Bildet im allgemeinen immer gut interpretierbare Gruppen.