Informatik (Fach) / DataMining (Lektion)

In dieser Lektion befinden sich 52 Karteikarten

Englische Kacke. :)

Diese Lektion wurde von marvin1504 erstellt.

Lektion lernen

Diese Lektion ist leider nicht zum lernen freigegeben.

  • What is data mining? Data Mining ist der Prozess, um aus einer großen Menge von Daten sinnvolles Wissen zu erlangen. Es benutzt direkt die Daten um daraus ein Modell zu kreieren. Bottom-Up and Top-DownDM ist ein iterativer, ...
  • Why Data Mining? Es gibt sehr viele "Datenfluten" (Banken, Soziale Netwerke, etc) die gespeichert werden. Gewinnung von Wissen.
  • What kind of data to mine? Jegliche Daten, aus denen wir Wissen ziehen können.Z.B. Google-Request, Satelitendaten, etc.
  • What is Big Data? Bezeichnet Datenmengen die zu groß sind, um sie mit manuellen Methoden der Datenverarbeitung auszuwerten.
  • Why Data Mine now? Bereits jetzt zuviele Daten die nicht analysiert sind. Es wird immer mehr für die zukünftliche Analyse gespeichert, was aber so nie geschehen kann.
  • Data Mining as a simpliefied Process (Graphic) Grafik: State the problem(Collect the data)Preprocess the dataEstimate the modelInterpret the model -> Conclusions
  • What are some characteristics of raw data? - Fehlende Daten- Redundante Daten- Falsche Date- Falsche Datenformatierung
  • Why Data Preprocessing? Wegen der "characteristics of raw data" - fehlerhaft, - redundant, - nicht komplett
  • What are some preprocessing techniques? - Skalierung und Normalisierung- Verschlüsseln- Unvollständige Daten entfernen
  • List primary tasks of Data Mining. 1. Klassifizieren- Findung von Klassen- Einteilen von Items in diese 2. Clustern- Finden von Gruppen/Kategorien/Cluster mit ähnlichen Eigenschaften 3. Regression 4. Abhängigkeitsmodellierung- Findung ...
  • What are the Challenges for Data Mining? Technisch- riesige Datenmengen (Zetta-bytes)- komplex, multi-media, unstrukturierte Daten- Integration mit Fachwissen und menschlicher Kompetenz Business- Gute Anwendungsbereiche finden Gesellschaftlich- ...
  • Define Data, Information and Knowledge. Daten:- Sachliche Informationen (Statistik)- Basis für Rechnungen Information:- Vermittlung von Wissen (Infos geben)- Gewonnen aus Untersuchung/Studium Wissen:- Echte Erahrung (Beobachtung)- Etwas gelerntes, ...
  • What is implicit and explicit knowledge? Implizit:- schwierig zu kommunizieren (schwierig zu formulieren)- liegt im eigenen Kopf- oft in Aktionen verkörpert Explizit:- kann kommuniziert werden- kann auf verschiedene Arten formuliert werden- ...
  • Why is Knowledge in Organizations important? - wichtig für den wirtschaftlichen Erfolg 
  • What is the definition of a knowledge-based system? ... - Systeme die Wissen zur Problemlösung nutzenBeispiel:- Öffentliche Verkehrsinformationssysteme (Zeitplan und beste Route finden)
  • Define Knowledge Discovery: Generalization - Verallgemeinern und zusammenfassen 
  • Define Knowledge Discovery: Association and Correlation ... - Häufige Muster (Welche Dinge werden oft zusammen gekauft?- Assoziation > Korrelation vs. Kausalität (Beer -> Chips [0.5%, 75%] (support, confidence)
  • What is the median of this data [1, 2, 3, 5] 2.5
  • Define all data types with examples. Nominal (Kategorien, keine direkte Ordnung)- Haarfarbe (schwarz, braun, ...)- Anzahl an Kinder im Haus Binary- Symmetrisch Binär (beides gleichwichtig) = Geschlecht- Asymmetrisch Binär (nicht gleichwichtig) ...
  • What is a pie chart? Kuchendiagramm
  • What is a bar chart? Balkendiagramm
  • What is a histogram? Balkendiagramm mit "Ordnung" auf der X-Achse
  • What is a scatterplot? Streudiagramm - alle Werte in ein Diagramm als Punkte dargestellt.
  • Define Correlation and Causality! Korellation ist nur ein Hinweis auf die Kausalität (Echte Abhängigkeit)Anzahl an Krankenhäuser und Autodiebstählen sind korreliert.Beide sind allerdings kausal mit der Population verbunden.
  • Tell the x² (chi-square) test formel. x² = Summe ( Real - Erwartung ) ²                             Erwartung
  • x² (chi-square) test. Which purpose? Wir können mit dem x² Test die stochastische Unabhängigkeit zwischen X und Y überprüfen. Zusatz: Verteilungstest, Homogenitätstest
  • x² (chi-square) test. What is a null hypothesis? Um den Unabhängigkeitstest durchzuführen, stellen wir die Nullhypothese auf, dass X und Y unabhängig sind. Alternativhypothese: Das Gegenteil Zusatz Nullhypothese: Als Nullhypothese wird meist das ...
  • x² (chi-square) test. Where used in the lecture? In der Analyse der Korrelation der nominalen Werte.
  • What is PCA? Principal Component Analysis - Hauptkomponentenanalyse Verfahren der multivariaten Statistik.- umfangreiche Datensätze strukturieren, zu vereinfachen und zu veranschaulichenWie?Indem eine Vielzahl statistischer ...
  • What is dimensionality reduction? Die Dimensionen skalierenFormel:v' =       (v−OldMin)(OldMax−OldMin) × (NewMax−NewMin)       + NewMin
  • What is the confusion matrix? Mithilfe der Wahrheitsmatrix können wir entscheiden, ob ein Klassifikator gut oder schlecht ist.Beispiel:Medizinischer Laborttest, ob jemand an X erkrankt ist.Ein Test wird durchgeführt und am Ende ...
  • What are Association rules? Assoziationsregeln zeigen die Korrelation zwischen mehreren Elementen.Ziel ist es, z.B. durch den Apriori-Algorithmus, alle Korrelationen zu finden.Beispiel1. {Milch, Brot} ⇒ Eier2. {Milch, Brot] ⇒ ...
  • write down pseudocode apriori algorithm Pseudocode Apriori:Ck : Candidate itemset of size kLk : Frequent itemset of size kL1 = {frequent items};for (k = 1; Lk !=∅; k++) do begin          Ck+1 = candidates generated from Lk;      ...
  • What is the meaning of Q1 / Q2? Q1 ist der Median von der ersten Hälfte des Median (25 % vor und 75% danach)Q3 von der zweiten Hälfte.
  • trainings-, validation- and testdata Mit den Trainingsdaten baut man das System auf. (beste Parameter finden)Mit den Validationdaten überprüft man das Ergebnis und kann somit die erneuten Trainingsdaten verändern um andere Ergebnisse ...
  • UNDONE Perceptron Foliensatz 6!MLP"XNOR-Problem" [Negiertes XOR] mit einem MLP lösen und Entwurf begründen (Gewichtemussten nicht berechnet werden). Dazu dann noch "Lineare Separierbarkeit" erklären.
  • The k-means algorithm Pseudocode:Initialisierung:     • Setze k auf einen Wert (Overfitting zu viel, Underfitting zu wenig)     • k Cluster auf zufällige Positionen verteilen Lernen: Wiederholen..     • Für ...
  • Complex Problems: Travelling Salesman Beispiel: Starte eine Tour mit selben Anfang- und Endziel, ohne ein Zwischenstopp doppelt zu besuchen (Städte z.B.) und mit minimaler Distanz.
  • Describe and name some examples to genetic Algorithms. ... - Trial-and-Error für die Problemlösung- Standard für das evolutionäre Computing- Population von Individuen mit Reproduktion und Mutation- "Survival of the fittest" (Darwin)Beispiele: In der Wirtschaft ...
  • Genotyp vs. Phenotype Genotyp gibt genaue Rückschlüsse auf die genetischen Eigenschaften eines Objekts.Phänotyp gibt Rückschlüsse auf die äußerlichen Eigenschaften eines Objekts.
  • Genetic Algorithms Sequence Grafik + Ablauf:1. Initialisierung          Die erste Generations von Lösungskandidaten wird (meist zufällig) erzeugt.2. Evaluation          Jedem Lösungskandidaten der Generation wird entsprechend ...
  • Genetic Algorithms - Parent Selection (Mechanisms) Fitness Proportional Selection:Die Individuelle Fitness im Verhältnis zur Fitness der BevölkerungRanking Selection:Der Fitness nach sortieren und nach einer Formel die Eltern aussuchen.
  • Genetic Algorithms - Crossover Kreuzung mit einer Wahrscheinlichkeit zwischen 50% und 100%, da die Eltern sonst einfach kopiert werden. n-Point Crossover:- split parents at n points and recombine segments- jeder Punkt hat nur die ...
  • Genetic Algorithms - Termination Condition Wenn das Optimum erreicht ist, wird der Algorithmus beendet.Problem: Genetic Algorithms sind stochastisch, weshalb unser Optimum eventuell nie erreicht wird.Alternativen:- Nach einer gewissen Zeit beenden- ...
  • Fuzzy Rules? - Wenn wir eine Tatsache kennen (Premise), dann können wir eine anderen Tatsache ableiten (Conclusion)- Die Bausteine für die fuzzy IF-THEN rules sind Fuzzy Sets- Ein Fuzzy System besteht aus mehreren ...
  • Part-of-Speech (POS) Tagging Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten. Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z. B. angrenzende Adjektive oder Nomen) berücksichtigt.Problem: Phrasal ...
  • Überwachtes und unüberwachtes Lernen Überwacht (Klassifikation) mit Trainingsdaten, Daten werden in Trainings-Sets einsortiert:MLPRegressionsanalyse Unüberwacht (Clustering) ohne Trainingsdaten (Klassennamen nicht bekannt)Self-organizing ...
  • Linear seperable Linear seperable bedeutet, dass ein Problem linear aufgeteilt werden kann. Vorstellbar wird diesanhand eines Koordinatensystems, auf dem alle korrekten Lösungen durch eine lineare Funktionvon den fehlerhaften ...
  • Parsing Grammatikalisch Top-Down einen Satz aufbauen.
  • Parsing Parsing als EntwurfsmusterVon Sentence zum kompletten Satz.Vorteil:- Grammatik kann leicht geändert oder erweitert werdenNachteil:Für komplexe Grammatiken und sehr große Sätze ist das Interpretermuster ...