Kapitel 1-6 - Machine-Learning online lernen

Machine-Learning (Fach) / Kapitel 1-6 (Lektion)

In dieser Lektion befinden sich 44 Karteikarten

Machine-Learning

Diese Lektion wurde von sodikama erstellt.

Lektion lernen

Finden SVMs bessere Klassengrenzen als die bisher ... Ja, denn sie ermitteln die optimale Grenze, welche den minimalen Abstand zu den Trainingsdaten hat.
Welche Bedeutung hat der Parameter C vor dem Regularisierungsterm? ... sehr großes C : Modell passt sich stärker den Trainingsdaten an, da man mehr Wert auf die Minimierung des Fehlers legt sehr kleines C: Man legt ...
Warum ist eine Komplexität proportional zur Anzahl ... Bei SVMs werden die Daten in einer höherdimensionalen Raum transformiert, was bei vielen Parametern extrem Performance kostet. Zudem ist die Anzahl der Trainingsvektoren N besser kontrollierbar und selbst ...
Was versteht man unter dem Kernel-Trick? Man ersetzt das Skalarprodukt durch die Kernel-Funktion K(xp, x) = (x^T * xp +1)^q , welches das Ergebnis simuliert, ohne die Daten tatsächlich in einer höherdimensionalen Raum zu transformieren (Siehe ...
Wie evaluiert man einen SVM-Klassifikator, bzw. allgemein ... Einen Klassifikator evaluiert man mit einer Confusion-Matrix, bei der man Accuracy / Precision und Recall berechnet. Accuracy / Precision = Anzahl richtig klassifizierter Merkmale : Anzahl aller Merkmale, ...
Wann ist die Bestimmung der Accuracy irreführend? Wenn die Trainingsdaten nicht ausbalanciert sind, d.h. z.b 99x Klasse 1, 1x Klasse 2 ---> 99% Accuracy für Klasse 1, aber erkennt nicht die zweite
Inwiefern steckt Regularisierung in der SVM? Man minimiert nicht nur den Fehler, sondern auch die Gewichte. Regularisierung ist von Anfang an inbegriffen und über den Hyperparameter C steuerbar.
Warum sind Regression-SVMs (SVR) im Fall von Ausreissern ... Bei SVRs tragen die Ausreißer nur linear zum Gesamtfehler bei, wenn Elemente außerhalb der Epsilon-Tube liegen. Bei SVMs tragen alle Elemente linear dazu bei. Die duale Form Fehlerfunktion bei SVMs ...
Wie wirkt sich die Erhöhung des Parameters Epsilon ... Mit Epsilon wächst der Radius des Schlauches, wodurch Overfitting reduziert wird. Übertreibt man es jedoch, kommt es zu Underfitting.
Wie kann mit Regressionsverfahren, wie z.B. der SVR, ... Mithilfe einer Featurematrix, welche als Eingabewerte die bisherigen Werte hat und anhand von diesen eine neue Eingabe berechnen kann.
Was ist dabei bei der Konstruktion der Eingabevektoren ... Je weiter die Vorhersage in die Zukunft führt, desto unsicherer wird sie. Der Grund dafür ist, dass mit wachsendem, zeitlichen Abstand zu den Trainingsdaten immer mehr eigene Schätzungen der vorherigen ...
Was sind Support-Vektoren? Es sind bei SVRs Trainingselemente, bei denen einer der beiden Lagrange-Koeffizienten α und a^ nicht gleich null ist. Sie liegen also auf der Schlauchgrenze oder außerhalb davon.
Worin unterscheiden sich diskriminative und generative ... Generative Modell lernen klassenspezifische Verteilungsfunktionen. Diskriminative Modell lernen Klassengrenzen in Form von Hyper-Ebenen.
Bei Linearer Diskriminanz, welchen Beitrag liefert ... Der Mensch nimmt einen Typ an Verteilungsfunktion bzw. Klassengrenze an. Der Algorhytmus lernt innerhalb dieses Typs die besten Parameter bzw. Diskriminanten.
Was ist eine Diskriminante? Diskriminanten sind Funktionen, in die Eingabewerte gegeben werden. Der berechnete Funktionswert ist die Basis für eine Klassenunterscheidung.
Von welcher Form sind die Klassengrenzen eines linearen ... Die Klassengrenzen sind konvex, also gebogen.
Wie kann mit diskriminativen Verfahren Zuverlässigkeitsinformation ... Bei K=2 Klassen : Indem man die gewichtete Summe A am Eingang des Neurons auf die Aktivierungsfunktion Sigmoid gibt. (Lineare Regression) Bei K>2 ...
Was ist logistische Diskriminanz? Von welcher Annahme ... Bei logistischer Diskriminanz nimmt man an, dass das Log-Likelihood-Verhältnis zumindest annähernd linear ist ( trifft meist zu). Zusätzlich zur Klasseneinteilung wird noch eine Zuverlässigkeitsinformation ...
Wie unterscheiden sich die Klassengrenzen eines linearen ... Die logistischen Klassengrenzen geben zusätzlich noch Zuverlässigkeitsinformation.
Wie werden lineare und logistische Diskriminanten ... Lineare Diskriminanten werden als Klassifikatoren eingesetzt. Logistische Diskriminanten werden in allen Dense-Layern beim Output von Neuronen verwendet.
Was könnten -Task T -Performance Measure P -Experience ... Task T = Spam erkennen Experience E = bisher gefilterte, sowie vom Nutzer als Spam gekennzeichnete Mails Performance Measure P = Mit welcher Genauigkeit und wieviel Spam gefiltert wird
Mit welcher Art von Wissen tut sich die KI schwer? - Kausalitäten ( ist nicht gleich Korrelation) - zusammenhängende Weltmodelle, Wissen sinnvoll im Gesamtbild verknüpfen ("gesunder Menschenverstand")
Was ist ein Modell in Machine Learning? Allgemein: Ein vereinfachtes Abbild der Wirklichkeit ML: Output = f(Input) Ein Modell beschreibt eine Abbildung von Eingabe auf Ausgabe. Ein Computerprogramm, welches Erfahrung E durch Ausführen ...
Was ist induktives Schließen? Aus spezifischen Samples an (Trainingsdaten) ein allgemeines Modell zu lernen.
Was ist Lernen mit Lehrer bzw. mit Kritiker? Supervised Learning: Für jedes Trainingselement existiert ein korrektes Label r. Lehrer: Gibt konstant Feedback, ob eine Entscheidung richtig oder falsch ist. Kritiker: Gibt sporadisch nach mehreren ...
Was kann überwacht, bzw. unüberwacht gelernt werden? ... Überwacht: Klassifikation und RegressionUnüberwacht: Assoziation zwischen Instanzen und Merkmalen (Ähnlichtkeitsbeziehungen) und Clustering Man kann die Bestärkung ...
In welcher Form werden die Daten für das maschinelle ... In Form von numerischen Vektoren, die gleich lang sind. Man strukturiert die Daten tabellarisch, die Merkmale xk werden nacheinander aufgelistet und am Ende der Soll-Wert r. Nach unten sind es dann insgesamt ...
Von welchen Faktoren hängt die notwendige Anzahl ... Sie hängt ab von: - der Komplexität des Modells- der Anzahl der Merkmale und zu lernenden Parametern- sowie der Varianz der Daten. Gegenmaßnahmen bei zu wenig Trainingsdaten: a) vorsichtige Auswahl ...
Worin besteht der Unterschied zwischen Regression ... Interpolation geht so genau wie möglich durch die Punkte der Trainingsdaten, Regression geht von verrauschten Trainingsdaten aus und nähert sich diesen nur an.
Wie findet man zu gegebenen gelabelten Daten das beste ... Man validiert es mit einem Anteil der gelabelten Daten. Das Modell bekommt Input aus den TD, generiert einen Output, dieser wird dann mit dem Label verglichen. Danach versucht man durch Anpassung der ...
Was versteht man unter “Curse of Dimensionality”? ... Komplexere Modelle werden mit unzähligen Parametern beschrieben. Je mehr Parameter gelernt werden müssen, umso expotentiell mehr gelabelte Trainingsdaten benötigt man.
Welcher generative Klassifizierer ist extrem weit ... Der Naive Bayes Classifier, bei dem man davon ausgeht, dass N diskrete Merkmale statistisch unabhängig sind.
Was ist Maximum-Likelihood Parameterschätzung? Man schätzt die Parameter einer Verteilungsfunktion so, dass die gegebenen Trainingsdaten mit maximaler Wahrscheinlichkeit generiert werden.
Wie kann mit linearer Regression eine quadratische ... g = w0 + w1 *( x1^1) + w2 *( x2^2) + ... + wn *( xn^k) Die Eingabewerten müssen in ihrer Matrix bei k+1 Spalten quadriert werden, mit Ausnahme der diagonalen Werte.
Unter welcher Bedingung können die Maximum Likelihood ... Wenn der Fehler, bzw. das Rauschen n gaußverteilt ist.
Nach welchen “Variablen” werden beim maschinellen ... Sie werden nach den Gewicht Koeffizienten wk abgeleitet.
Wann sollte parametrische Klassifikation nicht angewandt ... Wenn kein Verteilungstyp angenommen werden kann.
Wann sollte lineare Regression nicht angewandt werden? ... Wenn die Varianz zu groß ist, bzw. der Fehler gaußverteilt ist. Ansonsten quadriert sich der Fehler im Mean-Square-Error. Dann bietet sich beispielweise der RANSAC Algorithmus an, der beim Minimum ...
Worin besteht das allgemeine Prinzip der Gradient ... Beim Gradientenabstiegsverfahren wird eine aufgestellte Fehlerfunktion abgeleitet, wonach sie gleich null gesetzt wird und die Gewichte iterativ in Richtung der negativen Ableitung ( Minimum) angepasst ...
Welche Voraussetzung muss die Fehlerfunktion für ... Sie muss ableitbar sein.
Worin besteht der Unterschied zwischen Stochastic ... Beim GAV werden alle Trainingselemente für die Gewichtsanpassung berücksichtigt (Batch-Lernen) , beim SGAV nur ein einziges Trainingselement (Online-Lernen). Ein Kompromiss aus beidem bietet Mini-Batch-Lernen, ...
Nennen Sie einen Hyperparameter für Gradient Descent ... Lernrate η Generalisierungsgewicht λ L1/L2-Norm Anzahl Iterationsepochen t Minibatch-Size
Was versteht man unter Regularisierung? Was wird damit ... Regularisierung versucht ein Modell besser zu generalisieren, indem nicht nur der Fehler sondern auch die Gewichte minimiert werden. Dies geschieht durch Addition des Regulariserungsterms λ/2 * ∑ wi^2 ...
Was ist Kreuzvalidierung? Man unterteilt die Trainingsdaten in n Partitionen und pro Iteration eine von ihnen zur Validierung der restlichen Daten. Es werden also alle TDs n-1-mal benutzt. Dann bildet man aus allen Fehlerraten ...

Karteikarten online lernen - wann und wo du willst!

Machine-Learning (Fach) / Kapitel 1-6 (Lektion)