Informatik (Fach) / Data Warehouse (Lektion)
In dieser Lektion befinden sich 86 Karteikarten
Karten zu Data Warehouse (Prof. Teubner, SS2018, TU Dortmund)
Diese Lektion wurde von checko erstellt.
- Was bedeutet "Data Warehouse"? Was sind die Eigenschaften? ... Data Warehouse ist eine Datenbank Eigenschaften: eher groß (mehrere Terabytes bis wenige Pentabytes)
- Was sind die Probleme beim Generieren einer Datenbank? ... 1. Data Warehouse ist dynamisch, heißt verändert sich kontinuierlich 2. Vorhersage der Anfrage eines Users ist sehr schwierig 3. Business Anforderungen ändern sich mit der Zeit 4. Benutzer und deren ...
- Was bedeutet OLTP? OLTP = Online Transaction Processing (Online Transaktionsverarbeitung) Verarbeitung von Transaktionen mit minimaler Zeitverzögerung Transaktionssicherheit bei parallelen Anfragen und Änderungen (minimale ...
- Was bedeutet OLTP aus der Sicht einer Datenbank? Schnell ausführbare Operationen Anfragen meistens im voraus bekannt Zugriffe über Punkte (meist Indizes) Schreibrecht
- Was bedeutet OLAP? OLAP = Online Analytical Processing Analyst muss vorab eine Hypothese aufstellen, welche durch die Anfrage dann bestätigt oder widerlegt wird. Grundlage für BIAs (Business-Intelligence-Anwendungen) ...
- Was bedeutet ODS? ODS = Operational Data Store (Separater Datenspeicher, dessen Inhalt stets up-to-date ist.)
- Was bedeutet OLAP aus der Sicht einer Datenbank? Lang dauernde Operationen (meistens read-only) Anfrage im voraus nicht bekannt und komplex Scan von großen Datenmenge kann notwendig sein. Daten werden fast nur angehängt und nicht überschrieben.
- OLTP, ODS, OLAP, DW - Business Focus? OLTP -> Operational ODS -> Operational/Tactical OLAP -> Tactical DW -> Tactical/Strategical
- OLTP, ODS, OLAP, DW - DB Technologie? OLTP, ODS, ... Technologie: OLTP, ODS, DW -> Relational OLAP -> Kubisch Transaction Time: OLTP -> Short ODS, OLAP -> Medium DW -> Long
- OLTP, ODS, OLAP, DW - DB Size in GB? OLTP -> 10-400 ODS, OLAP -> 100-800 DW -> 800 - 80000
- Wie sieht die Data Warehouse Architektur aus? s. (1)
- Was ist der ETL-Process? (Übersicht) ODS -> Extract -> Transform -> Load -> DW Extract: Daten aus verschiedenen Quellen entpacken. Dabei Variation der Datenerfassung Transform: Datenbereinigung. Dabei die Daten an den Bestand anpassen, doppelte ...
- Data Warehouse Lebenszyklus s. (2)
- Was ist der Single Source of Truth (SSOT), auch bekannt ... Single Source of Truth = Einziger Quell der Wahrheit Das heißt: EIN allgemeingültiger Datenbestand, der verlässlich und korrekt ist. Besonders wichtig bei Speicherung von redundanten (mehrfach vorkommenden) ...
- Was sind die drei Anforderungen an ein DW-Projekt? ... Starker Management Sponsor (Finanzierung; am besten mehrere nicht rein IT-spezifizierte Sponsoren. Aber: mehrere Sponsoren führen u. U. zu komplexeren Erwartungen an die DW) Überzeugende Geschäftsmotivation ...
- Was sind die beiden Schritte vor dem Start eines DW-Projektes? ... 1. Rahmen definieren (Welche Geschäftsprozess sind Teil des Projektes? Zu erwartende Kosten? Verantwortlichkeiten? Zeitplan? Wie wird der Erfolg/Fortschritt gemessen? 2. Projektmitglieder anheuern (Am ...
- Was beinhaltet der Datenbank-Design-Process? Problem -> Anforderungsanalyse (Kundengespräche) -> Konzept -> Logisches Design -> Schema Verfeinerung -> Physikalisches Design -> Datenbank-Schema
- Strategie für die Gestaltung eines DW? 1. Kundengespräche (soviele, bis das Kundenproblem mit eigenen Worten wiedergegeben werden kann.) 2. Erstellen eines detaillierten Modells, welches in die Kundengespräche mit einbezogen werden. 3. Schrittweises ...
- Wie sieht die Anforderungsanalyse für ein DW im Vergleich ... Normale Datenbank: Fokus aus Subjekte. Verben stehen für die Beziehungen Data Warehouse: Fokus auf Prozesse wie Abrechnung, Versand, Bearbeitung Sericeanfragen etc. "By" Wörter (deutsch: nach, wie) ...
- Was ist eine "enterprise data-warehouse bus matrix"? ... Tabelle, die zeigt, welche Prozesse (Fakten) welche Gruppen/Faktoren enthalten. Dabei sind die Zeilen die Prozesse und die Spalten die Faktoren ("By"-Wörter). Die Anzahl der Spalten ergibt die Dimension. ...
- Was ist eine opportunity matrix? Opportunity Matrix = Gelegenheitsmatrix Diese Matrix (Tabelle) zeigt, welcher Arbeitsbereich/Organisation in welchen Prozess involviert ist. (Hilfreich für Rechtfertigungen)
- Wie ist die Vorgehensweise bei der Definition eines ... 1. Fokussierung auf einen einzelnen Geschäftsprozess. Wähle hierfür einen Geschäftsprozess, der überschaubar ist und dennoch geschäftlichen Nutzen bringt. Eine gute Entscheidungsgrundlage liefert ...
- Welche zwei Arten von Daten gibt es? 1. Dimensionen (Sie beschreiben den Kontext von anderen Einträgen, bspw. das Alter zu einer Person) 2. Fakten/Messwerte (Sie beschreiben eine Sache selbst, bspw. der Verkaufspreis oder Verkaufsdatum)
- Was ist eine Pivot-Tabelle im Vergleich zu einer normalen ... Eine Pivot-Tabelle bietet die Möglichkeit, Daten auf verschiedene Art und Weise darzustellen ohne die Ursprungsdaten zu verändern.
- Was sind die Eigenschaften von Fakten/Messwerte? Performenz-Messung numerisch, kontinuierlich bewertet erlaubt detailierte Zusammenfassung von Daten durch Filterung
- Welche drei Arten von Fakten/Messwerte gibt es? 1. Additive Fakten (Sie können über irgendeine Dimension zusammengefasst werden) 2. Semi-additive Fakten (Sie können über mehrere, aber nicht alle Dimensionen zusammengefasst werden.) 3. Nicht-additive ...
- Was sind die Eigenschaften von Dimensionen? Typisches Kriterium für eine Gruppierung sind häufig Teil einer oder mehrere Hierachien (Bsp.: Land -> Bundesland -> Stadt -> Stadteil oder Jahr -> Monat -> Tag bzw. Jahr -> Quartal -> Woche -> Tag) ...
- Was ist ein Star schema und wie ist es aufgebaut? Star schema = Form der Darstellung einer (relationalen) Datenbank: Aufbau: Eine Fakten-Tabelle, die mindestens von jeder Dimensionstabelle einen Fremdschlüssel enthält. Zusätzlich können auch Fakten ...
- Was ist der Unterschied zwischen einem privaten und ... Privater Schlüssel (private key, PK): Der Schlüsselwert einer Dimension/Tabelle Fremdschlüssel (foreign key, FK): Der Schlüsselwert einer anderen Dimension/Tabelle, der auch der Teil der vorliegenden ...
- Was sind die vier Schritte, um ein Star Schema zu ... 1. Wähle ein Geschäftsprozesse (bspw. mit einem zentralen Geschäftsprozess) 2. Deklariere die Genauigkeit der Faktentabelle (Was genau soll eine Zeile der Faktentabelle repräsentieren? Bspw. bei einem ...
- Bei Dimensionen treten häufiger Redundanzen auf? ... Redundanz = Information, welche auch weggelassen werden kann ohne das Informationen verloren gehen. Sie stören nicht, weil sie praktisch sind (bspw. Daten (Datum!) können so wochen-, monats- oder quartalsweise ...
- Ist es ein Ziel des Data Warehouse, die einzelnen ... Nein!
- Was ist das "Snowflaking"-Prinzip und sollte es in ... Jede Dimensionstabelle enthält einen privaten und einen Fremdschlüssel einer anderen Dimension. Dadurch können die Dimensionstabellen aneinandergereiht dargestellt werden. Auf diese Weise kann eine ...
- Gegeben ist die Pivottabelle "sales" (6). Schreibe ... Einfache Tabelle:SELECT SUM (sales.quantity)FROM sales_flat AS salesWHERE sales.state = 'California'AND QUARTER (sales.date) = 3 Star Schema:SELECT SUM (sales.quantity)FROM sales_fact AS sales, date_dimension ...
- Was bewirken die Befehle "GROUP BY (a,b,c)", "GROUPY ... GROUP BY (a,b,c): Es werden die Werte nach a, b, und c aufsummiert. GROUP BY (): Es werden alle Werte aufsummiert. GROUP BY CUBE (a,b): Wie GROUP BY, wobei die angegebenen Spalten alle Teilmengen von ...
- Wie werden Nullwerte (NULL, 0) in einer Data Warehouse ... Attribut: Kein Problem. Angabe als NULL oder 0 möglich. Schlüssel: Problematisch wegen JOIN! Daher hier keine Nullwerte verwenden, sondern zusätzliches Attribut einfügen.
- Was ist eine degenerierte Dimension? Eine degenerierte Dimension ist ein "Attribut" der Faktentabelle, die auf keine weiteren Informationen verweist.
- Was ist der einzige Updating-Prozess in DW und was ... Der einzige Update-Prozess ist der ETL Dabei muss eine Änderungshistorie geführt werden. Updates einer DW sind komplex.
- Auf welche fünf Arten (type 0 - type 4) können Updates ... Type 0: Behalte das Original oder Passive Methode (Ist die DW einmal geladen, können bestimmte Attribute nicht mehr verändert werden (sind statisch) wie z.B. Erstelldatum, Objekt- ID. Diese werden als ...
- Was bedeutet die Operation "drill down"? "drill down" bedeutet eingraben. Gemeint ist, dass zunächst Beobachtungen gemacht werden, welche dann durch genauere Anfragen/Gruppierung spezifiziert werden. Man gräbt sich also immer weiter in DB ...
- Was bedeutet die Operation "drill across"? Welche ... "drill across" bedeutet, dass zwei Geschäftsprozesse miteinander verknüpft werden. Dabei werden Werte, die in beiden Prozesse von Bedeutung sind, miteinander verglichen und Übereinstimmungen herausgearbeitet. ...
- Was sind die drei Typen von Faktentabellen? a) transactional (zentriert um Geschäftsprozesse wie Einkauf, Verkauf, Lager) b) periodic snapshot (zentriert um Bestände wie Lagerbestände, Produktbestände) c) accumulating snapshot (zentriert um einzelne ...
- Nenne die Ebenen der Speicherhierachie, deren Kapazität ... CPU (B, < 1 ns) Cache (KB/MB, < 10 ns) Hauptspeicher (GB, 70-100 ns) Festplatte (TB, 3-10 ms) Kassettenbibliothek (PB, variiert)
- Was ist das Volcano Iterator model? Was sind die Vorteile? ... Volcano Iterator Model = Ein Anfrageplan, den eine Datenbank durchläuft. Dabei wird die Anfrage solange über next()-Operatoren an nachfolgende Operatoren weitergegeben, bis das/die gewünschte Tupel ...
- Was ist der lookup Mechanismus? Beim lookup-Mechanismus ist der Wert eines Attributs ein record identifier (rid), welcher den physikalischen Speicherplatz von einem übereinstimmenden Tupel kodiert.
- Wie sieht der grundsätzliche Aufbau einer Star Query ... 1. Join der Faktentabelle mit einer Anzahl von Dimensionstabellen 2. schränke die Anzahl der Tupel ein (es kann effizienter sein, wenn dieser Schritt zuerst gemacht wird.) 3. groupiere die Tupel durch ...
- Was ist eine materialized view? Was sind die Eigenschaften ... materialized view: Datenbank-Objekt, welches das Ergebnis einer Anfrage enthält. Sie wird einmal berechnet und kann dann an verschiedenen Stellen verwendet werden. Zudem wird sie bei Aktualisierungen ...
- Kann eine materialized view verwendet werden, um eine ... Ja, wenn (unter der Annahme, dass V und Q star queries sind) gilt, dass die Selektionsprädikate in Q durch die von V subsumiert werden. (Diese sollten in disjunktiver Normalform angegeben werden.) die ...
- Welche Gruppen von Aggregationsfunktionen gibt es? ... 1. additive: f(X1 ∪ X2) = f(f(X1), f(X2) und f-1 existiert. (Bsp.: sum(a,b,c) = sum(sum(a,b), sum(c)) und somit auch sum(c) = sum(a,b,c) - sum(a,b)) 2. semi-additiv: wie additiv, wobei f-1 nicht existiert. ...
- Welche zwei Schritte werden bei der Suche nach Datensätzen ... 1. Index durchlaufen mit Hilfe des Suchschlüssels (Kosten: ca. eine E/A pro Suche, wobei innere Knoten (oder die ganze Tabelle, wenn sie klein genug ist) zwischengespeichert werden.) 2. Abrufen von Tupeln ...