ETL-Prozess: Definition & Erklärung — Glossar
ETL steht für Extract, Transform, Load – und bezeichnet den standardisierten Prozess, mit dem Daten aus einem oder mehreren Quellsystemen extrahiert, in das gewünschte Format umgewandelt und in ein Zielsystem geladen werden. ETL ist das Rückgrat jeder Datenintegrations-Architektur: von der Migration in ein neues ERP-System über die Befüllung eines Data Warehouse bis hin zu automatisierten Datenaustausch-Prozessen zwischen verschiedenen Unternehmenssystemen.
Die drei Schritte im Detail
Extract (Extrahieren): Daten werden aus den Quellsystemen ausgelesen. Quellen können sein: relationale Datenbanken, REST-APIs, CSV-Dateien, XML-Exporte, E-Mails, ERP-Systeme. Die Extraktion ist oft der komplexeste Schritt, weil Quellsysteme unterschiedliche Formate, Zugangsmethoden und Verfügbarkeiten haben.
Transform (Transformieren): Die extrahierten Rohdaten werden bereinigt, vereinheitlicht und in das Zielformat gebracht. Typische Transformationen: Datumsformate vereinheitlichen, Dubletten entfernen, fehlende Werte behandeln, Codes übersetzen (z. B. Kundennummern zwischen Systemen mappen), Aggregierungen berechnen.
Load (Laden): Die transformierten Daten werden ins Zielsystem geschrieben – Data Warehouse, neue Datenbank, anderes ERP. Unterschied zwischen Full Load (komplette Datenmenge) und Incremental Load (nur geänderte Datensätze seit dem letzten Durchlauf).
ETL in der Praxis: Häufige Anwendungsfälle
- Tägliche Übertragung von Verkaufsdaten ins Data Warehouse für Reporting
- Migration von Altdaten bei Systemwechsel (z. B. ERP-Migration)
- Synchronisation von Kundendaten zwischen CRM und ERP
- Aufbereitung von Rohdaten für Machine-Learning-Modelle
ETL vs. ELT
Modernes Pendant: ELT (Extract, Load, Transform) – Daten werden zunächst roh ins Zielsystem geladen und erst dort transformiert. Möglich durch leistungsfähige Cloud-Datenbankplattformen, die Transformationen intern durchführen können. ELT ist flexibler und skaliert besser für große Datenmengen.
Fazit
ETL ist das unsichtbare Fundament jeder datengetriebenen Organisation. Wer Daten aus verschiedenen Systemen zusammenführen, historisieren oder integrieren will, kommt an ETL-Prozessen nicht vorbei – automatisiert, dokumentiert und überwacht.