Medienapplikationen (Fach) / Multimedia Retrieval (Lektion)
In dieser Lektion befinden sich 33 Karteikarten
Hier geht es um die Prüfungsvorbereitung für Medienapplikationen. Medienretrieval
Diese Lektion wurde von Kirsa erstellt.
Diese Lektion ist leider nicht zum lernen freigegeben.
- Was ist Information Retrieval? Wie wird es definiert? zu deutsch Informationsgewinnung Gegenstand des IR ist die Repräsentation, Speicherung und Organisation von Informationen und der Zugriff auf Informationen mit im Prinzip keinen Einschränkungen
- Was sind Daten? Was ist Wissen? Was ist Information? Daten: syntaktische Ebene reine Datensammlung mit syntaktischen Relationen Wissen (semantische Ebene) Bedeutung der Daten also wenn der Zusammenhang der Daten (Was sie beschreiben und welche Eigenschaften sie haben) Information pragmatische Ebene "Wissen in Aktion" - das für eine aktuelle Situation für die Lösung von Problemen benötigt wird
- Wie läuft der allgemeine IR-Prozess ab? gibt es zwei Seiten: 1. Seite = Anwender ; 2.Seite = Objekt der Anwender hat Informationsbedürfnisse und stellt somit eine Suchanfrage das Objekt hat bereits vorverarbeitete Materiealien. beide treffen sich und es findet ein Abgleich/ Match der vorgearbeiteten Daten mit der Suchanfrage statt danach zieht das System vergleichbaren Daten aus einer vorhandenen Datenbank heraus und stellt eine Ergenisanzeige da, die dem Anwender präsentiert wird
- Was bedeutet Iteration im Zusammenhang mit dem Information Retrieval-Prozess? Das der Prozess der Suchanfrage und dem Vergleich mit den schon vorhandenen Daten (was das System macht) schrittweise ist und sich öfters wiederholen kann bis ein gut übereinstimmendes Ergebnis erscheint.
- Aus welchen Systemkomponenten besteht ein typisches Textretrievalsystem? Welche Reihenfolge haben sie? Anfrage oder Dokumente >> Textransformationen >> Anfragerepräsentation oder Dokumentenrepräsentation --> Matching/Ranking --> Pseudo-Feedback -- > Ergenisanzeige --> Feedback (fast wie beim normalen IR Prozess, zwei Seiten)
- Welche Texttransformationen werden im IR verwendet und wozu benötigt man sie? Textransformationen: Tokenisierung Stoppwortliste Stammformreduktion Kompositazerlegung Sie dienen: vereinfachten Suche durch z.B. Zerlegung in Wortstämme, weglassen von unwichtigen Wörtern, Zerlegung der Wörter an sich, Aussagen auf das wesentliche beschränken
- Was ist Tokenisierung? eine Texttransformation im Text Retrieval der Text wird in seine Wörter zerlegt Token= Instanz eines Wortes
- Was ist eine Stoppwort Liste? eine Liste mit den meist gebrauchten Wörtern, die dann im Transfer entfernt werden sollten Stoppwörter: und, in, der, die, das....
- Was bedeutet Stammformreduktion? Rückführung auf die Wortstämme in zwei verschiedenen Verfahren erstes Verfahren: Lexikalisch: man schließt von dem Wort auf die Grundform und auf das Stammwort zweites Verfahren: heuristisches Verfahren: Endungen abschneiden, oder Umlaute umschreiben
- Was ist Kompositazerlegung? eine Texttransformation im Textretrieval es werden zusammengesetzte Worte in einzelne Worte umgesetzt Beispiel: Hausboot - Haus und Boot
- Wie unterscheidet sich die Stammformreduktion im Englischen und im Deutschen? durch den Algorithmus, der in jeder Sprache verschieden ist im englischen werden die Wörter anders gebildet als im deutsche
- Wo findet man eine invertierte Liste und wie ist diese aufgebaut? in der Dokumentenrepräsentation im Textretrieval Aufbau: man hat einen Index von Wörtern oder Termen, die auf bestimmte einzelne Einträge von Dokumenten verweisen
- Was bedeutet exact match und partial match? exact match: genaue Frage und genau das Dokument auf die Suche gefunden und zurück geführt (boolesches Retrieval) partial match (Clustering, Fuzzy) teile der Suche können zurück geführt werden, also nicht auf exakte Frage, sondern bestmögliche Rücklieferung
- Was ist Boolesches Retrieval? Was sind die Probleme beim Booleschen Retrieval? Suchanfrage bei der die gesuchten Wörter mit "Und, oder, nicht" verknüpft werden Problem: der Nutzer benötigt Kenntnisse über diese Wörter, da es die Wörter in allen Kominationen verknüpft und daher auch andere Zusammenhänge herauskommen können.
- Beschreibe das Vektorraum Modell! Das Vektorraum Modell unterscheidet verschiedene Vektoren. Zwischen den Termen gibt es eine höhere Relevanz, das heißt kein "Schwarz-Weiß" Denken mehr. Die Anfrage hat nun mehr Spielraum durch das Dokument beantwortet zu werden.
- Was gibt die diverse Dokumentenfrequenz an und wie wird sie berechnet? Def.: (IDF) wird zur Bestimmung der Spezifität eines Termes verwendet Berechnung: (IDF)t = log(N/nt) N=Gesamtwörteranzahlnt = Anzahl der gefundenen jeweiligen Wörter t=Term Beispiel: Hans liebt die liebe Sophia so sehr. Gesamwörter (N) = 7 einzelne Wörter: lieb = (nt)2 IDF = log(7/2) -- In(7/2) =1,25
-
- Wie unterscheiden sich Relevanz Feedback und Pseudo Feedback? Pseudo Feedback ist ein Feedback ohne Anwender, quasi was oben steht bekommt mehr Relevanz als weiter unten Relevanz Feedback ist dann das Feedback durch den Anwender, ein Reranking findet statt
- Nenne drei Einsatzgebiete des Text Retrievals! Adhoc - Retrieval (klassisches) Social Media Expert Search (Foren) Cross Language Retrieval ( Suchanfrage in englisch - Ergebnis auf deutsch)
- Welche Probleme bzw. Schwierigkeiten können beim Multimedia Retrieval vorhanden sein? Vagheit bei Bildern höher als bei Texten Semantik hängt stark vom Kontext und Subjekt ab keine analoge Einheit zu Wort und Satz keine eindeutigen Ähnlichkeiten
- Wie nennt sich das Retrieval für Bilder? Contant Based Image Retrieval (CBIR)
- Wie ist das CBIR aufgebaut? fast wie beim Text Retrieval Anfrage/Dokument -- Modelling -- Anfragerepräsentation/Dokumentenrepräsentation -- usw.
- Welche Modelle gibt es im Contant Based Image Retrieval? Beschreibe sie und stelle den Zusammenhang her. Color Based Modeling Farbverteilung, Farbe, Farbwerte eines Bildes werden analysiert Texture Based Modeling Texturen werden analysiert Shape Based Modeling Kanten werden untersucht (bei z.B. Farbwechsel, gibt es Kanten? wenn ja wie viele?) Spatial Based Modeling räumliche Verteilung Zusammenhang: Spatial Based Modeling geht nicht ohne mindestens eines der anderen drei Kategorien Struktureigenschaften sind also auf alle anderen mit aufgebaut - eine Art Layout
- Wie werden im CBIR Anfragen gestellt? 1. Query by example (Wenn man eine Anfrage stellt durch ein Beispielbild) 2. Query by sketching ( Wenn man etwas mal, kommt eventuell ein Ergebnis heraus)
- Wie funktioniert der Ähnlichkeitsvergleich von Bildern in Farb-Histogrammen? 1. Festlegung der Farbanzahl (Auswahl eines Farbmodells) 2. Auswahl eines geeigneten Farbraumes 3. Bestimmung des Bins (Farbtupfel/Farbwert = Zusammenfassung bestimmter Farben) 4. Matching: Ähnlichkeitsfunktion als Abstand zwischen zwei Histogrammen
- Was sind Textureigenschaften/merkmale? Grobkörnigkeit Rauheit kontrast Komplexität Richtung (gerade Linien etc) Linearität Regelmäßigkeit Zufälligkeit
- Wie lautet die Prozesskette beim Video Retrieval? Video Stream -- Low Level Feature Extraction -- Shot Detection -- Key Frame --High Level Feature Recognition -- Index Low Level Feature extraction + shot detection = kein ganzes Video sondern, hier an der Stelle wird ein einzelnes Bild hersausgenommen, was alles repräsentiert High Level Feature Recogition = Bildbetrachtung, Objekterkennung - Personen, Bewegungen etc.
- Was kann beim Audio Retrieval alles gesucht werden? Musik, Geräusche, Sprache ...
- Welche akustischen Merkmale verwendet das Contant Based Audio Retrieval? Lautstärke Tonhöhe Helligkeit Bandbreite Harmonie das eingeteil in: Varianz, Mittelwert und Autokorrelation (Selbstähnlichkeit)
- Wie können beim Musik Retrieval Anfragen gestellt werden? 1. ganz normal über Text 2. query by humming (summen) Problem: Hemmnis vor dem PC zu singen Lösung: Parson Code ( Höhen und Tiefen als Buchstaben auf Musipedia)
- Wie ist die Prozesskette beim Speech Retrieval? 1. Audiostrom (System erkennt ob überhaupt gesprochen wird) 2. Sprechererkennung 3. Spracherkennung 4. Transskription 5. Indexierung
- Wie ist die Spracherkennung bei CMU Sphinx? Audiostrom -- akustisches Modell --// Laute// -- phonetisches Wörterbuch --//Wörter// --Sprachmodell --//Text//
- Wie ist der klassische Aufbau eines Retrieval Tests? Korpus z.B. zeitungen Anfragen zu denen Idealergenisse bekannt sind Vergleich der Retrievalergebnisse mit den Idealergebnissen
-
- Welche Gütemaße werden bei Evaluationen von Retrievals verwendet? (klassische Maße)? Vollständigkeit (recall) Genauigkeit (precision)