Data Warehouse: Definition & Erklärung — Glossar
Ein Data Warehouse ist ein zentrales Datenmanagementsystem, das Daten aus verschiedenen operativen Quellsystemen – ERP, CRM, Onlineshop, Produktionsdaten, externe Datenquellen – zusammenführt, bereinigt, historisch speichert und für Analysen und Reporting optimiert zur Verfügung stellt. Im Gegensatz zu operativen Datenbanken, die für schnelle Lese- und Schreiboperationen im Tagesgeschäft optimiert sind, ist ein Data Warehouse für komplexe Abfragen über große Datenmengen und lange Zeiträume ausgelegt.
Warum ein Data Warehouse?
Ohne Data Warehouse sieht die Reporting-Realität vieler Mittelständler so aus: Jede Abteilung exportiert Daten aus ihrem System, überträgt sie in Excel, bereinigt manuell und erstellt Berichte – wöchentlich oder monatlich, mit Verzögerung und Fehleranfälligkeit. Ein Data Warehouse automatisiert diesen Prozess: Daten fließen kontinuierlich ein, werden automatisch bereinigt und stehen in Echtzeit für Abfragen zur Verfügung.
Aufbau eines Data Warehouse
Die klassische Architektur besteht aus drei Schichten:
- Staging Layer: Rohdaten aus Quellsystemen werden extrahiert und temporär gespeichert (ETL-Prozess: Extract, Transform, Load).
- Core Layer (Data Warehouse): Bereinigte, konsolidierte und historisierte Daten in einem einheitlichen Datenmodell.
- Data Mart: Fachbereichsspezifische Teilmengen des Data Warehouse für bestimmte Nutzergruppen (z. B. Vertrieb-Data-Mart, Finanz-Data-Mart).
Data Warehouse vs. Data Lake
Ein Data Lake speichert Daten aller Art in Rohform – strukturiert und unstrukturiert – ohne vorher definiertes Schema. Ein Data Warehouse speichert strukturierte Daten in einem klar definierten Modell. Data Warehouses sind besser für standardisiertes Reporting und BI; Data Lakes für explorative Analysen und Machine-Learning-Workloads.
Fazit
Ein Data Warehouse ist die technische Grundlage für datengetriebenes Management. Wer Entscheidungen auf Basis konsistenter, aktueller und vollständiger Daten treffen will, braucht eine zentrale Datenbasis – und kein Excel-Sammelsurium aus fünf verschiedenen Systemen.