Zum Inhalt springen
Start/Experten-Center/Glossar/Web Scraping: Definition & Erklärung — Glossar

Web Scraping: Definition & Erklärung — Glossar

Was ist Web Scraping?

Web Scraping (dt. Web-Extraktion) bezeichnet die automatisierte Extraktion strukturierter Daten aus Websites durch Software-Programme (Scraper oder Spider). Diese lesen den HTML-Quellcode einer Seite aus und extrahieren relevante Daten — Preise, Produktinformationen, Bewertungen, Kontaktdaten oder Nachrichten — ohne manuelle Arbeit.

Technische Methoden

HTML-Parsing: Bibliotheken wie BeautifulSoup (Python) oder Cheerio (Node.js) parsen den HTML-Code einer Seite und extrahieren Daten über CSS-Selektoren oder XPath. Browser-Automatisierung: Tools wie Playwright oder Puppeteer steuern echte Browser und ermöglichen das Scraping dynamisch geladener Inhalte (JavaScript-Rendering). APIs: Viele Webseiten bieten offizielle APIs als strukturierten Alternative zum Scraping — diese sollte immer bevorzugt werden.

Anwendungsfälle

Wettbewerbsbeobachtung: Regelmäßige Erfassung von Preisen, Produktsortimenten oder Stellenangeboten von Mitbewerbern. Marktforschung: Automatische Sammlung von Kundenbewertungen, Branchennews oder Trendthemen. Lead-Generierung: Extraktion von Kontaktdaten aus öffentlichen Verzeichnissen. Datenerhebung für KI-Training: Zusammenstellung von Trainingsdaten aus Web-Quellen. Preismonitoring in E-Commerce und Beschaffung.

Rechtliche und ethische Aspekte

Web Scraping bewegt sich in einem rechtlich unklaren Bereich. Nutzungsbedingungen vieler Websites verbieten automatisiertes Scraping. DSGVO setzt Grenzen bei personenbezogenen Daten. Das EuGH-Urteil zu Ryanair (2021) stärkte das Recht von Websitebetreibern gegen unerlaubtes Scraping. Scrapers sollten robots.txt respektieren, angemessene Anfrage-Intervalle einhalten und sich auf öffentlich zugängliche, nicht-personenbezogene Daten beschränken. Bei Zweifeln ist juristische Prüfung ratsam.

Zurück zum Experten-Center