Web Scraping (auch Screen Scraping genannt) ist die automatisierte Extraktion von Daten aus Webseiten. Mithilfe von Software oder Scripts werden Informationen aus dem HTML-Code einer Website ausgelesen, strukturiert und in einem nutzbaren Format gespeichert -- beispielsweise als CSV, JSON oder in einer Datenbank.
Web Scraping ist ein vielseitiges Werkzeug: Von der Wettbewerbsanalyse ueber die Preisbeobachtung bis hin zur Content-Recherche und SEO-Analyse. Gleichzeitig bewegt es sich in einem rechtlichen und ethischen Spannungsfeld, das Anwender kennen muessen.
Anwendungsfaelle im Marketing
Wettbewerbsanalyse
Automatisierte Erfassung von Wettbewerber-Preisen, Produktsortimenten, Kundenbewertungen und Content-Strategien. Diese Daten fliessen in Keyword-Recherchen, Positionierungsstrategien und Content-Gap-Analysen ein.
SEO-Analyse
Crawling-Tools wie Screaming Frog oder Sitebulb nutzen Web-Scraping-Techniken, um technische SEO-Probleme zu identifizieren: fehlende Meta-Tags, kaputte Links, Duplicate Content und fehlende Alt-Texte.
Daten fuer Data-Driven Marketing
Die Extraktion von Marktdaten, Branchentrends und Kundenrezensionen liefert Rohdaten fuer datengetriebenes Marketing und Predictive Analytics.
Technische Grundlagen
HTTP-Request-basiertes Scraping
Die einfachste Methode: Ein HTTP-Request ruft den HTML-Code einer Seite ab, ein Parser extrahiert die gewuenschten Daten. Python mit den Bibliotheken requests und Beautiful Soup ist der Klassiker.
| Sprache/Tool | Staerke | Einsatz |
|---|---|---|
| Python + Beautiful Soup | Einfach, flexibel | Statische Seiten |
| Python + Scrapy | Skalierbar, schnell | Grosse Datenmengen |
| Node.js + Cheerio | Schnell, JavaScript-nativ | Einfache Extraktion |
Browser-basiertes Scraping
Fuer Seiten, die JavaScript fuer die Inhaltsdarstellung verwenden (Single-Page-Applications, dynamisch geladene Inhalte), reicht ein einfacher HTTP-Request nicht aus. Headless Browser wie Puppeteer oder Playwright rendern die Seite vollstaendig, bevor die Daten extrahiert werden.
API-Nutzung als Alternative
Viele Websites bieten offizielle APIs an, die strukturierte Daten in maschinenlesbarem Format (JSON) liefern. APIs sind immer die bevorzugte Alternative zu Scraping: Sie sind zuverlaessiger, schneller und rechtlich unproblematisch.
Rechtliche und ethische Grenzen
DSGVO und Datenschutz
Die DSGVO setzt klare Grenzen: Personenbezogene Daten (Namen, E-Mail-Adressen, Telefonnummern) duerfen nicht ohne Rechtsgrundlage gescrapt werden. Auch oeffentlich sichtbare personenbezogene Daten fallen unter den Datenschutz.
robots.txt respektieren
Die robots.txt signalisiert, welche Bereiche einer Website nicht automatisiert aufgerufen werden sollen. Ethisches Scraping respektiert diese Anweisungen -- auch wenn sie technisch umgehbar sind.
Fair Use und Belastung
Scraping darf den Server der Zielwebsite nicht ueberlasten. Implementieren Sie Verzoegerungen zwischen Requests (Throttling), nutzen Sie Caching, und senden Sie realistische User-Agent-Strings. Aggressives Scraping kann als Denial-of-Service-Angriff gewertet werden.
Best Practices
- APIs bevorzugen: Pruefen Sie immer zuerst, ob eine offizielle API existiert
- robots.txt beachten: Respektieren Sie die Anweisungen der Website-Betreiber
- Throttling einbauen: Maximal 1 Request pro Sekunde als Faustregel
- Daten minimieren: Nur die tatsaechlich benoetigten Daten extrahieren
- Keine personenbezogenen Daten: DSGVO-Konformitaet sicherstellen
- User-Agent identifizieren: Einen identifizierbaren User-Agent-String verwenden