ziel?
eine große anzahl von Variablen auf eine geringe anzahl hypothetischer Faktoren reduzieren. Faktoren sind latente Dimensionen und sollen möglichst viel Varianz der ursprünglichen Variablen (manifeste) erklären.
explorative FA
Ziel: Auffinden von Faktoren innerhalb eines Variablensatzes. Man geht von den Korrelationen zwischen den Variablen aus und versucht so, Zusammenhänge aufzufinden. Nicht theoriegeleitet!
konfirmatorische FA
passen die in der empirie gefundenen Daten zu einem theoretischen Modell? Es können keine alternativen Zuordnungen getestet werden. Für den Grad der Passung können verschiedene Kennwerte definiert werden.
Anwendung der FA
primär bei der KOnstruktion von Fragebögen.
Voraussetzung für die Durchführung einer FA
Multikollinearität - die einem Faktor zugeordneten Variablen sollten hoch miteinander korrelieren. intervallskalierte, normalverteilte oder dichotome Variablen Stichprobengröße mind. drei mal so groß wie anzahl der Variablen. Mindestens drei mal so viele (besser fünf mal) Personen wie Variablen.
Wie sind die Faktoren im dreidimensionalen Koordinatensystem zu beschreiben?
Es werden Dimensionen (Faktoren) bestimmt, die in Form von Vektoren ein Koordinatensystem in der Punktewolke aufspannen. Vektoren werden als Lambda bezeichnet.
Wie wird der erste Vektor (Faktor) gelegt?
Der erste Vektor soll so gelegt werden, dass möglichst viel Varianz aller Variablen aufgeklärt wird.Am meisten Varianz ist da, wo das Ellipsoid den größten Durchmesser hat. Das bedeutet die größte Streuung aller Messwerte, d. h. der erste Vektor soll möglichst viel der GESAMTVarianz aufklären.
Wie heißt der erste Faktor?
Erste Hauptachse.
Wie wird der zweite Vektor gelegt?
So dass er möglichst viel unaufgeklärte Restvarianz (Residualvarianz) aufklärt. Er soll außerdem unabhängig sein (bei Vektoren orthogonal, d. h. senkrecht).
WAs sagt der Winkel zwischen zwei Vektoren aus?
er ist ein Maß für die Korrelation zwischen den zugrunde gelegten Faktoren. Der Kosinus der Winkel enspricht der Korrelation. r(xy)=cos xy
Was bedeutet es wenn der Winkel zwischen zwei Vektoren 90 Grad beträgt?
Die Vektoren sind orthogonal, Die Korrelation null. Die Faktoren sind unabhängig voneinander. Die zweite Hauptachse sollte in diesem Winkel zur ersten stehen.
Was bedeutet iteratives VF?
es wird in mehreren Anpassungsschritten (Schleifen) eine optimale Schätzung der notwendigen Parameter ermittelt. Im Allg. weniger als 15, oft 7 bis 12. Wenn es länger dauert >> problematische Korrelationsstruktur.
Welche Matrizen tauchen bei der FA auf?
Rohdatenmatrix (Matrix der Ausgangswerte) > Personen x Variablen-Matrix z- transformierte Matrix (nun haben alle Daten gleichen Mittelwert von 0 und gleiche Streuung von eins) transponierte Matrix: Zeilen und Spalten der ursprünglichen Matrix werden vertauscht. Korrelationsmatrix >> entsteht durch Multiplikation beider Matrizen. Dabei muss Stichprobengröße berücksichtigt werden.
Korrelationsmatrix
R(pxp)= 1/N-1 x transponierte Matrix x z-transformierte Matrix >> Variablen - mal- Variablen-Matrix. Die Hauptdiagonale enthält nur den Wert eins. (Korrelationen der einzelnen Variablen mit sich selbst). Sie dient nun dazu zu prüfen ob eine Faktorenanalyse sinnvoll ist.
Überprüfung der Korrelationsmatrix/ bedeutsame Zusammenhänge
Bartlett-Test > prüft ob die korrelationsmatrix signifikant von der Einheitsmatrix abweicht. Dann wäre FA sinnvoll. (Außerdem möglich, zu überprüfen ob die Faktoren die Gesamtvarianz hinreichend erfasst haben. Dies ist nach der Faktorenextratktion möglich.) Bildung der Inversen >>> Inverse Matrix. Wenn die Elemente außerhalb der Hauptdiagonalen nahe bei null, liegen bedeutsame Zusammenhänge vor. Prüfgröße von Kaiser-Mayer-Olkin > (measure of sampling adequacy, MSA). Verhältnis der Summe der einfachen r^2 aller Variablenkombinationen mit der Summe der einfachen und partiellen r^2.
Beurteilung des KMO-Wertes
kleiner als 0,5: untragbar 0,5 bis 0,6: kläglich bis 0,7: mittelmäßig bis 0,8: ziemlich gut bis 0,9: verdienstvoll größer als 0,9: erstaunlich
was bedeutet Faktorladung?
Die Korrelation zwischen der Ausgangsvariablen und den zugehörigen Faktoren. Quadriert man die Werte, entsteht der Determinationskoeffizient, der die Anteile der durch die Faktoren erklärbaren Varianz wiedergibt.
Kommunalität
Sie wird über die Zeilensumme der quadrierten Werte der Faktorladungsmatrix berechnet und gibt den Anteil der Varianz an,der durch alle Faktoren an einer Variable erklärt werden kann.
Was sagt die Kommunalität aus?
wie gut eine Variable durch alle Faktoren reproduziert werden kann. Wert immer zwischen null und eins (eins: Varianz der Variablen wird durch die Faktoren zu 100% erklärt). Mit Hilfe der Kommunalität können die Variablen identifiziert werden, welche nicht durch die Faktoren repräsentiert werden (bei geringer KOmmunalität). Dabei ist nicht die Variable ungeeignet, sondern es liegennoch keine Variablen vor die mit ihr hoch korrelieren. Das Item kann natürlich trotzdem hohe Relevanz besitzen.
Eigenwert
lambda. Wird über die Spaltensumme berechnet. Er gib an, wieviel Varianz ein Faktor an allen Variablen erklärt. Bei hohem Eigenwert erklärt er mehr Gesamtvarianz als Faktoren mit niedrigem Eigenwert. wäre der Eigenwert eins, würde er soviel Varianz erklären wie die ursprüngliche Variable.
Generalfaktor
ein Faktor durch den sich ein sehr großer Anteil der Gesamtvarianz erklären lässt.
Berechnung der Gesamtvarianz über Eigenwert?
Man teilt die anzahl der Variablen durch den Eigenwert. Somit wird auch die Anzahl der Variablen mit berücksichtigt.
Verhältnis Hauptachse - Eigenwert?
übertragen auf die Vektoren: Die Wurzel des Eigenwerts enspricht der Länge der hauptachse.
Über welche Matrix werden Eigenwert und Kommunalität berechnet?
Über die Faktorladungsmatrix.
Was besagt die Faktorladungsmatrix?
Die Ladung der Faktoren, also wie hoch die Faktoren mit den ursprünglichen Variablen korrelieren
Was besagt die Faktorwertematrix?
Die Ausprägung der Versuchspersonen auf den einzelnen Faktoren, dh die Faktorwerte der einzelnen Versuchspersonen
Kommunalitätenproblem
man benötigt die Kommunalitäten schon zu Beginn der ersten Iteration zur Schätzung der neuen Parameter (für die Faktorenextraktion). Sie können aber eigentlich erst nach der ersten Iteration aus den ermittelten Faktorladungen berechnet werden.
Wie wird mit dem Kommunalitäten problem umgegangen?
2 Arten, die Kommunalitäten vor der ersten Iteration zu bestimmen: - Hauptkomponentenanalyse - Hauptachsenanalyse
Hauptkomponentenanalyse
=principle components analysis (PCA) Es soll möglichst viel Gesamtvarianz erklärt werden. Es sollen gemeinsame Komponenten (Sammelbegriffe) gefunden werden, wobei in Kauf genommen wird dass ein Faktor möglicherweise nur die Varianz einer Variablen erklärt. Die Diagonalelemente der Korrelationsmatrix werden bei der ersten Iteration auf eins gesetzt. Es wird also von einer vollständigen Varianzaufklärung ausgegangen, die Korrelationsmatrix ist "positiv semidefiniert".
Hauptachsenanalyse
es soll möglichst viel gemeinsame Varianz der Variablen beschrieben werden, d. h. gemeinsame Ursache für die Ausprägungen in der verschiedenen Variablen. die Kommunalitäten werden vor der ersten Iteration über ein separates Verfahren geschätzt.
Extraktionsproblem
nach der reduzierten Korrelationsmatrix. Die erste Grundgleichung enthält immer noch so viele Faktoren wie Variablen. Die Faktoren sollen jedoch reduziert werden, da Informationsreduktion angestrebt wird! Frage ist also, wie viele Faktoren extrahiert werden sollen.
Lösungsansätze fürs Extraktionsproblem
- Kaiser-Gutmann-Regel - Kriterium der extrahierten Varianz - Scree-Test - Evaluation der Lösung
Kaiser-Gutmann-Regel
Def., Voraussetzungen, Vor-und Nachteile
Nur Faktoren mit Eigenwert größer 1 werden extrahiert. Voraussetzungen: mehr als 40 Variablen. Mind. 5 mal so viele VPs wie Variablen. Die erwartete Anzahl der Faktoren soll 1/5 bis 1/3 der Variablen-Anzahl betragen. Vorteil: - hartes Kriterium, kann nicht im Nachhinein verschoben werden. Auch bei Grenzwerten (o.9999999) wird der Faktor nicht mehr berücksichtigt.
Kriterium er extrahierten Varianz
Es wird vor der Analyse festgelegt, welchen Anteil der Gesamtvarianz die Faktoren extrahieren sollen. (z. B. 50 oder 90 %). Die Festlegung muss theoriegeleitet begründet werden. Problem: keine allgemeinen Kriterien für akzeptablen Prozentwert. Das Kriterium ist dehnbar und sollte nicht angewendet werden.
Scree-Test
grafisch. Im Verlauf des Polygons tritt ein Knick auf. Vor dem Knick sind die Eigenwerte der Faktoren, die substantiell gemeinsame Varianz wiedergeben. nach dem Knick sind die weniger Varianzaufklärenden Variablen. V.a. sinnvoll bei sehr vielen Variablen. meistens sind es dan Eigenwerte größer als zwei.
Evaluation der Lösung
inhaltliche Auseinandersetzung mit dem Ergebnis - dann wird Entscheidung über Faktoren getroffen.Inhaltliche Begründung. Es muss auf jeden Fall an einer weiteren Stichprobe mit konfirmatorischer FA die vorgeschlagene Struktur bestätigt werden.(Validierung)
Welche matrix hat man nach der Extraktion?
Faktorladungsmatrix
Was kommt in der zweiten Grundgleichung vor? Was ist neu?
Sie berücksichtigt die reduzierte Anzahl der Faktoren. Es wird also nicht mehr die vollständige Varianz erklärt.Die Gleichung erweitert sich um einen variablenspezifischen Faktor (Spezifität und Fehler = uniqueness) und die Fehlerkomponente. Es tritt also durch die Datenreduktion ein Vorhersagefehler auf.
Dritte Grundgleichung
beschreibt die Reproduktion der Korrelationen der Ausgangsvariablen (?)
Welches Problem tritt nach der Extraktion auf?
Rotationsproblem. Zur inhaltlichen Interpretation ist möglichst einfache Struktur sehr gut. (Einfachstruktur). Jede Variable sollte auf einem Faktor sehr hoch und auf allen anderen Faktoren sehr niedrig laden.
2 Gruppen von Rotationsverfahren
- orthogonale Rotation. Die Faktoren stehen auch nach der Rotation noch senkrecht aufeinander und bleiben somit unabhängig. - oblique Rotation. (schiefwinklig) Es gibt keine Einschränkung für die Rotation. Es dürfen abhängige, also korrelierte Faktoren erzugt werden, die möglicherweise inhaltlich besser interpretiert werden können.
Vor- und Nachteile der VF zur Rotation:
- orthogonale: Vorteil: unabhängige Faktoren Nachteil: nur sinnvoll, wenn von der Unabhängigkeit wirklihc ausgegangen werden kann. Sind Skalen eines Persönlichkeitsfragebogens wirklich unabhängig?
nach dem Rotationsproblem
müssen die Faktoren noch benannt werden. Dies ist inhaltliche Entscheidung und keine statistische. Die Zuordnung der Variablen zu den Faktoren erfolgt nach der höchsten Faktorladung. Dann kommt noch das Faktorwerteproblem, das aber keine Entscheidung vom Anwender fordert.
Faktorwerteproblem
FW sind die Gewichte der ausprägungen einer Person auf den Faktoren (z. B. ausprägung einer Person auf dem Konstrukt Emotionalität)- Die Faktorwerte werden bei der Analyse geschätzt. sie werden eigentlich vor der analyse gebraucht aber während der Analyse geschätzt (Problem). Das Problem entsteht durch die reduzierten Korrelationskoeffizienten, bzw. kommunalitäten.