Glossar19. Juni 20263 Min. Lesezeit

Daten-Streaming: Definition & Erklärung — Glossar

Was ist Daten-Streaming?

Daten-Streaming (auch Stream Processing) bezeichnet die kontinuierliche, Echtzeit-Verarbeitung von Daten, die als fortlaufender Strom (Stream) eingehen — im Gegensatz zur Batch-Verarbeitung, die Daten gesammelt und zeitversetzt verarbeitet. Streaming-Systeme reagieren auf Ereignisse innerhalb von Millisekunden bis Sekunden nach ihrer Entstehung.

Anwendungsfälle

Betrugserkennung: Kreditkartentransaktionen werden in Echtzeit auf verdächtige Muster analysiert — innerhalb von 100 ms vor Genehmigung. IoT-Monitoring: Sensordaten von Produktionsanlagen werden kontinuierlich auf Anomalien überwacht. Echtzeit-Analytics: Live-Dashboards für Website-Traffic, Bestelleingänge oder Lagerbestände. Event-driven Microservices: Ereignisse fließen sofort zwischen Diensten, ohne Batch-Verzögerungen. Log-Analyse: Sicherheitsereignisse werden in Echtzeit korreliert.

Streaming-Technologien

Apache Kafka ist die dominierende Streaming-Plattform — ein verteiltes, persistentes Publish-Subscribe-System, das Millionen Ereignisse pro Sekunde verarbeiten kann. Apache Flink und Apache Spark Streaming bieten komplexe Streaming-Verarbeitungsoperationen (Fenster, Joins, Aggregationen). AWS Kinesis, Azure Event Hubs und Google Pub/Sub sind die managed Cloud-Äquivalente. Apache Kafka Connect integriert Streaming mit Datenbanken und externen Systemen.

Streaming vs. Batch

Nicht jede Anwendung braucht Echtzeit-Streaming. Streaming-Systeme sind komplexer zu entwickeln, zu betreiben und zu debuggen als Batch-Systeme. Die Entscheidungsfrage: Wie groß ist der Schaden, wenn Daten mit Verzögerung verarbeitet werden? Für tägliche Reports reicht Batch; für Betrugsschutz ist Streaming unverzichtbar. Lambda-Architektur kombiniert beide: Streaming für Echtzeit-Insights, Batch für historische Korrektheit.

Zurück zum Experten-Center