Informatik (Fach) / Data Warehouse (Lektion)
In dieser Lektion befinden sich 86 Karteikarten
Karten zu Data Warehouse (Prof. Teubner, SS2018, TU Dortmund)
Diese Lektion wurde von checko erstellt.
- Was sind die beiden Strategien, durch dessen Anwendung ... Strategie 1: Index auf den Spaltenbeschriftungen von Dimensionstabellen(In jeder Dimensionstabelle werden die übereinstimmenden Zeilen gefiltert, um Schlüsselspalten zu ermitteln, auf die Faktentabellen-RIDs ...
- Was ist ein "Hub Star Join"? Was sind die Vor- und ... Bei einem "Hub Star Join" werden zunächst die Dimensionstabellen miteinander verknüpft (join!). Dies entspricht der Bildung eines immer größer werden kart. Produktes, da die Dimensionstabellen (im ...
- Wie lautet der Algorithmus des zig-zag-joins? Was ... Voraussetzung: Die RIDs beider Tabellen müssen sortiert sein. Algorithmus:1.) Es werden die jeweiligen niedrigsten RIDs aus beiden Listen gewählt und verglichen.2a.) Stimmen die RIDs überein, dann ...
- Wie funktioniert der Hash Join? Was sind die Voraussetzungen? ... Voraussetzungen: Es wird ein Vergleichsoperator benötigt. (=, <, >, \=) Die kleinere Relation muss vollständig in den Speicher passen. Algorithmus: Aufbauphase (Die Tupel (Einträge, Zeilenr) oder ...
- Was ist ein Bloomfilter und wie funktioniert er? Der Bloom-Filter dient zum Entfernen von Duplikaten aus einer Tabelle. Im Falle des DW hilft dieser Filter den join der Dimensionstabellen mit der Faktentabelle zu beschleunigen. Positve Fehler sind möglich. ...
- Welche 3 Arten von join-Indices gibt es? (Am Beispiel ... Typ 1: join key --> <{ridCities}, {ridSales}>(Wähle aus den Listen der RIDs von Cites und Sales diejenigen, die den angegeben join-Schlüsselwert enthalten.) Typ 2: ridCities --> {ridSales}(Wähle ...
- Wie funktioniert der Star Join mit Hilfe von Join ... Es werden zunächst die übereinstimmenden RIDs der Faktentabelle mit den jeweiligen Dimensionstabelle ermittelt. Für jede Dimensionstabelle wird dabei eine Liste mit übereinstimmenden RIDs angelegt. ...
- Was ist ein Bitmap-Index und was ist der Vorteil hinsichtlich ... Ein Bitmap-Index ist ein Bit in einem Bitvektor. Der Bitvektor wird dabei aus den Spaltenwerten (oder bei sortierten Werten aus Teilwerten des Spaltenwertes) generiert. Die Länge eines Bitvektors entspricht ...
- Wie groß ist der Speicherplatzverbrauch für n bit ... N * n bits.
- Wie funktioniert die Word-Aligend-Hybrid (WAH) Kompression ... Die Bitvektoren werden auf eine Länge von 32 reduziert. Dabei gilt: Der erste Bit zeigt an, ob es sich um ein Füllwort (=1) oder ein Literal (=0) handelt. Bei einem Füllwort zeigt der zweite Bit an, ...
- Auf welche zwei Arten können Änderungen in der DW ... 1.) Führen einer Änderungshistorie in Form von zusätzlichen Spalten. 2.) Versionierung der DW. Ein frühere Snapshot wird mit dem Aktuellen verglichen. Diese Methode ist allerdings rechenintensiv. ...
- Reale Daten sind oft fehlerbehaftet. Eine Integrationsplattform ... 1.) Korrektur von Schreibfehlern 2.) Identifizierung von Übereinstimmungen und Duplikaten (ggf. aufgrund der Schreibfehler) 3.) Auflösen von Datenkonflikten und -inkosistenzen. 4.) Normalisierung der ...
- Nenne die drei primitiven Operationen für die Datenbereinigung! ... 1.) Similarity Join (Auswahlalgorithmus für die Wahl von Datenpaaren und Berechnung der Ähnlichkeit zwischen Ihnen) 2.) Clustering (Anhand der Ähnlichkeit werden die Daten gruppiert.) 3.) Parsing (Je ...
- Nenne drei Methoden für die Berechnung der Ähnlichkeit ... 1.) Änderungsdistanz (Es wird kürzeste Änderungsdistanz, d.h. die geringste Anzahl an Operationen berechnet, um String 1 in String 2 zu überführen. Die zuässigen Operationen sind Einfügen (ab ...
- Was versteht man unter der Levenhstein Distanz und ... Die Levenhstein-Distanz bezeichnet die Anzahl der notwendigen Operationen, die benötigt werden um einen String A in einen String B zu überführen. Sie dient zur Berechnung der Ähnlichkeit zwei Strings. ...
- Wie funktioniert der phonetische Algorithmus, welcher ... 1. Nehme den 1. Buchstaben des Wortes 2. Ersetze die nachfolgenden Buchstaben durch folgende Nummern gemäß englischer Betonung des Buchstabens: b,f,p,v = 1 c,g,j,k,q,s,x,z = 2 d,t = 3 l = 4 m,n = 5 ...
- Wie lauten die phonetischen Indices (Soundex) der ... Sweet = S300 Robert = R163 House = H200 Flipper = F416
- Welche Strategien können beim Similarity Join angewendet ... 1.) Naive Strategie (Jeder Wert mit jedem Wert verglichen. Kosten: N2/2) 2.) Blocking (Werte werden in Blöcke aufgeteilt und innerhalb der Blöcke mit jedem anderen Wert verglichen. Kosten bei n Daten ...
- Nenne die drei Möglichkeiten, mit denen man Datenkonflikte ... 1.) Spaltenscreening (Schnelles Screening erhält man durch Testdaten in den Spalten. Es werden dann nur diese auf Richtigkeit des Wertes, des Formats und der Nullwerte geprüft.) 2.) Strukturscreening ...
- Was sollte zuerst geladen werden? Die Faktentabelle ... Alle Dimensionstabellen müssen zuerst geladen werden, da die Faktentabelle Fremdschlüssel der Dimensionstabellen enthält. Diese müssen alle verfügbar sein, bevor die Faktentabelle aufgebaut wird. ...
- Wie ist die Vorgehensweise, wenn Änderungen in eine ... 1. Suche in der Dimensionstabelle anhand eines natürlichen Schlüssel nach der passenden Zeile. 2. Wurde in 1. eine Zeile gefunden, überschreibe ggf. die alten Werte durch die neuen Werte. 3. Wurde ...
- Wie ist die Vorgehensweise, wenn Änderungen in eine ... Füge für jede Änderung eine neue Zeile ein. Erstelle dabei für jede neue Zeile einen Stellvertreterschlüssel. Füge zusätzlich die Spalten "seit" und "bis", um die Gültigkeit einer Zeile zu dokumentieren. ...
- Nenne vier von sechs Möglichkeiten, um das Laden ... 1.) Protokollierung deaktivieren. (Datenbanken verwenden das Prinzig der write-ahead-Protokollierung (Änderungen werden erst protokolliert und dann übernommen.) Dieses Prinzip ist zeilenweise sehr aufwendig.) ...
- Was sind die drei Herausforderungen bei der Hochskalierung ... 1.) Robustheit (Umso mehr Komponenten, umso höher ist die Fehleranfälligkeit. Dabei kann bereits eine Komponente das gesamte System lahm legen.) 2.) Skalierbarkeit/Elastizität der Resourcen (Sollten ...
- Wie funktioniert das Programmiermodel MapReduce, mit ... MapReduce unterteilt sich in drei Phasen: (s. auch (9)) 1.) Map-Phase: Die Eingabedaten werden auf eine Menge von Map-Prozessen verteilit und die Map-Funktion ausgewertet. Idealerweise werden die Map-Prozesse ...
- Was macht das MapReduce-Modell "von sich aus"? Das MapReduce-Modell ... entscheidet über die Anzahl an Map- und Reduce-Funktionen, die realisiert werden. entscheidet über die Partitionierung von Daten und Berechnungen auf die Knoten. verschiebt ...
- Wie umgeht man die hohe Fehleranfälligkeit bei der ... Die Map- und Reduce-Funktionen müssen rein sein. D.h. keine Nebeneffekte und die Ausgaben hängen ausschließlich von den Eingaben ab. Unter diesen Bedingung kann die Berechnung auf einem beliebigen ...
- Was ist der Unterschied zwischen MapReduce und Data ... DW = Datenbank (enthält Tabellen, Tupel, Zeilen, Indices etc.) MapReduce wird typischerweise in einem verteilten Filesystem gespeichert. D.h. keine Betandteile einer Datenbank und damit auch kein Optimieren, ...
- Was lädt länger? MapReduce Filesystem oder Data ... Data Warehouse, wegen der Schema und die physische Datenorganisation.
- Was ist Apache Pig, Apache Hadoop und Pig Latin? Apache Pig ist eine High-Level-Plattform zum Erstellen von Programmen, die auf Apache Hadoop laufen. In Apache Pig können Jobs u.a. in MapReduce ausgeführt werden. Apache Hadoop ist ein Rahmenprogramm, ...
- Was ist im Bezug auf materialisierte Sichten ein Datenwürfel? ... Datenwürfel: Ein Schema, in dem die Abhängigkeiten der materialisierten Sicht dargestellten werden. Werden bei der Gruppierung drei Dimensionstabellen A, B, C berücksichtigt, so ergibt sich der in ...
- Wie kann aus einer materialisierten Sicht bestehend ... A: Erst zusammenfassen der B-, dann der C-Werte oder umgekehrt.(ABC -> AC -> A bzw. ABC -> AB -> A) B: Erst zusammenfassen der A-, dann der C-Werte oder umgekehrt.(ABC -> BC -> B bzw. ABC -> AB -> B) ...
- Gegeben sind zwei WAH-codierte Bitvektoren. Es soll ... Literal ∧ Literal: AND-Operation wird bitweise ausgewertet. Literal ∧ 1-Füllwort: Literal wird übernommen und von der Binärzahl des 1-Füllwortes 1 abgezogen. Literal ∧ 0-Füllwort: 0-Füllwort ...
- Gegeben sind zwei WAH-codierte Bitvektoren. Es soll ... Literal ∨ Literal: OR-Operation wird bitweise ausgewertet. Literal ∨ 1-Füllwort: 1-Füllwort wird übernommen und dessen Binärzahl um 1 reduziert. Literal ∨ 0-Füllwort: Literal wird übernommen und ...
- Wie funktioniert der von Harinarayan, Rajaraman und ... Anmerkungen: Der Algorithmus bzw. auf einen Datenwürfel (zeigt die Abhängigkeit zw. den materialisierten Sichten) und wählt diejenigen Ecken des Würfels aus, deren Kosten in der Materialisierung der ...
- Was ist die ABC-Analyse? (mit Beispiel) Bei der ABC-Analyse werden die Werte eines Attributs der Faktentabelle in drei Kategorien A, B und C eingeteilt. Dabei haben die Werte der Gruppe A die höchste, die der Gruppe eine mittlere und die der ...