Fuenfgeld / 2022TeamADataEngineeringBC

This is a repository for a Data Engineering Tutorial
MIT License
0 stars 2 forks source link

DataVault recherchieren #22

Closed niklasbuechner closed 2 years ago

niklasbuechner commented 2 years ago

Was ist ein DataVault?

Es gibt 2 Möglichkeiten einen DataVault zu betrachten. Die erste Möglichkeit ist ihn als Element in ETL-Prozess zu betrachten. Dabei wird der DataVault zum Einlesen der Rohdaten verwendet. Von dort können die Daten dann transformiert werden und in die Analysedatenbanken geladen werden. Alternativ kann man den DataVault als eine komplett unterschiedliche Herangehensweise an das Thema DataWarehousing betrachtet werden. Dabei ist der DataVault der eine zentrale Datenspeicher, in dem man dann alle ETL-Prozess abbildet. (Also werden dabei die Daten aus einer Struktur des DataVault in eine andere geladen.)

Konzeptionell kann man sich das Ganze so vorstellen. Alle Rohdaten werden in eine Datenbank eingelesen. Diese Datenbank beinhaltet den DataVault (das ist eine rein konzeptionelle Schicht). Aus den (Rohdaten-) DataVault werden die Daten dann von ETL-Prozessen ausgelesen und weiterverarbeitet. Das Ergebnis wird dann meist wieder im (Business-) DataVault gespeichert. Das sind dann z.B. Sternschemas, die für die Auswertung genutzt werden können.

Welche Probleme löst ein DataVault?

Was ist der Unterschied zwischen dem DataVault und dem Sternschema (Aufgabe der anderen Gruppe)?

Die beiden Konzepte haben erstmal nichts mit einander zu tun. Der DataVault arbeitet auf der Ebene der Datenaufbewahrung und wie man alle Rohdaten und deren Änderungen erfasst. Darauf aufbauend kann ein ETL-Prozess etabliert werden, der die Daten dann für die verschiedenen Stakeholder aufbereitet.

Das Sternschema ist eine Art und Weise Daten für die Auswertung zu modellieren. Ein DataVault speichert daher die Daten für das Sternschema und kann - als Datenaufbewahrungsort - auch Sternschemas beinhalten.

niklasbuechner commented 2 years ago

Hallo Herr @Fuenfgeld, wie viel Fokus sollen wir auf das Konzept des DataVaults legen und auf welche Teile legen Sie hier besonders wert?

DataVault als Konzept ist sehr groß und alleine durch die Größe sehr komplex. Gerade die Modellierung der Daten macht auf den ersten Blick keinen Sinn, wenn man nicht im Detail damit vertraut ist, wie man mit sich verändernden Daten und sich verändernden Schemas in diesem Datenmodel umgehen muss. Das können wir natürlich gerne erklären, damit müssten wir aber einen Großteil des Tutorials nur der Theorie des DataVaults widmen.

Falls der DataVault nur eine untergeordnete Rolle spielen soll, würden wir es wahrscheinlich bei einem High-Level-Überblick belassen, plus ein bis zwei Szenarios, die etwas mehr in die Tiefe gehen. Wäre das akzeptabel?

Fuenfgeld commented 2 years ago
niklasbuechner commented 2 years ago

Hallo Herr @Fuenfgeld,

wir wollten noch einmal kurz nachfragen wie wir weitermachen sollen. Wir haben eine Literaturrecherche gemacht und sind zu dem Ergebnis gekommen, dass in OLAP Systemen so gut wie nur Sternschemas und deren Abwandlung (Schneeflockenschemas) zum Einsatz kommen. Andere Modelle scheinen nicht wirklich in Gebrauch zu sein.

Wir wissen leider nicht weiter und haben uns zwei Möglichkeiten überlegt, die wir noch in unser Tutorial einbinden können:

Wäre eine dieser beiden Möglichkeiten für sie akzeptabel oder kennen Sie noch ein anderes Datenmodel, das gut zum Daten analysieren ist und das wir zeigen können?