Die Kontrolle zurückgewinnen: Wie Publisher gegen unerwünschtes KI-Scraping vorgehen können

Principal Industry Marketing Manager, Medien und Unterhaltung, Fastly

Generative KI-Modelle verändern, wie Menschen auf Informationen zugreifen und diese konsumieren. Large Language Models (LLMs) basieren auf riesigen Datenmengen, die zu einem erheblichen Teil von Web-Scrapern zusammengetragen werden, die automatisch öffentlich zugängliche Inhalte aus dem Internet extrahieren.
Das Scraping an sich ist zwar nicht neu, doch sein Umfang und Zweck haben sich dramatisch verändert: von der Indizierung für Suchmaschinen hin zur Versorgung robuster generativer KI-Systeme. Der Anstieg des Bot-Traffics ist signifikant. Tollbit, eine Plattform, die Websites dabei unterstützt, eine faire Vergütung für ihre Inhalte und Daten zu gewährleisten, verzeichnete im ersten Quartal dieses Jahres einen Anstieg des KI-Bot-Traffics um 87 %. Diese Entwicklung hat langjährige rechtliche und ethische Debatten über das Eigentum an Inhalten neu entfacht. Publisher, Ersteller und Plattformen fragen sich, ob es fair oder überhaupt rechtmäßig ist, dass ihre Inhalte von KI-Modellen ohne Genehmigung, Anerkennung oder Vergütung genutzt werden. Unter den bekannten Fällen hat Reddit Anthropic verklagt und behauptet, dass Anthropic-Bots mehr als 100.000 Mal auf seine Website zugegriffen haben.
Das unbefugte Scraping von Online-Inhalten durch KI-Bots stellt eine große Herausforderung für Content-Ersteller und Publisher dar. Renn Turiano, Chief Consumer and Product Officer bei Gannett Media, erklärt:
„Es ist von entscheidender Bedeutung, die Integrität unseres Journalismus bei USA TODAY und unseren über 200 lokalen Publikationen zu bewahren. KI-Bots, die unsere Arbeit ohne Erlaubnis oder Entschädigung scrapen, untergraben diese Integrität – und werfen dringende Fragen hinsichtlich Fairness, Legalität, Nachhaltigkeit und der Zukunft unabhängiger Medien auf. Wir sind ermutigt durch die Arbeit, die Fastly und Tollbit leisten, um unser geistiges Eigentum zu verteidigen und den Wert echter Berichterstattung zu schützen.“
Das Training von KI-Modellen anhand von gescrapten Inhalten stellt eine zusätzliche Herausforderung dar. LLMs müssen riesige Mengen an Online-Informationen „konsumieren“, um besser zu werden. Dazu gehören Blog-Inhalte, Tutorials, Forschungsarbeiten und nutzergenerierte Inhalte, die sie zur Entwicklung ihrer Sprachkenntnisse und Fachkompetenzen nutzen. Einige dieser Inhalte werden unter offenen Lizenzen bezogen. Vieles davon werden es nicht.
Zu spät zum Handeln: Wenn Scraping unentdeckt bleibt
Inhaltsproduzenten stehen vor einem doppelten Problem, wenn ihre Arbeit gescrapt wird, da das Problem über den Diebstahl hinausgeht. Das Problem besteht nicht darin, dass Scraping stattfindet, sondern vielmehr darin, dass die Urheber der Inhalte dies in der Regel erst nachträglich bemerken, da nur wenige über die Technologie verfügen, um Scraper zu erkennen und zu blockieren.
Die Eigentümer von Inhalten müssen Scraping-Aktivitäten häufig selbst erkennen. Dazu gehören unerklärliche Traffic-Rückgänge, duplizierte Formulierungen auf den Websites von Wettbewerbern und möglicherweise ein niedrigeres Suchmaschinenranking aufgrund der erneuten Veröffentlichung ihrer Inhalte auf einer anderen Website.
Sie suchen nach Lösungen, die klare Transparenz darüber bieten, wann und wie auf ihre Inhalte zugegriffen wird. Doch über die Erkennung hinaus erkunden viele auch strategische Reaktionen, sei es durch die Festlegung von Bot-Richtlinien, die Beschränkung des Zugriffs auf Premiuminhalte oder das Aushandeln von Lizenz-Frameworks.
Navigieren in rechtlichen Grauzonen
Das Scraping öffentlicher Inhalte ist nicht unbedingt ein Diebstahl. Der Rechtsrahmen schützt Scraping-Tätigkeiten, wenn Scraper einen Verstoß gegen die Nutzungsbedingungen vermeiden und ihre umgewandelte Ausgabe einen eigenständigen Charakter behält. Die Situation vermittelt sicherlich den Eindruck von Ausbeutung, auch wenn sie nicht immer gegen gesetzliche Vorschriften verstößt. Die Möglichkeit, das Scraping von Inhalten zu unterbinden, bleibt eingeschränkt, wenn kein Login oder keine Zugangsbeschränkung durch Bezahlung erforderlich ist.
Einige wehren sich dagegen, wie beispielsweise das Unternehmen für Bildungstechnologie Chegg. Der Rechtsstreit zwischen Chegg und Google zeigt den sich verschärfenden Konflikt zwischen diesen beiden Unternehmen. Chegg behauptet, dass Google AI Overviews verwendet, um Bildungsinhalte für die Generierung von Antworten zu extrahieren, die dann in den Suchergebnissen erscheinen, wodurch die Notwendigkeit für Studierende, die Originalquelle aufzurufen, verringert wird. Die Situation verdeutlicht, wie durch KI-generierte Zusammenfassungen die Notwendigkeit für Studierende entfällt, die Original-Website aufzurufen, auf der die Inhalte erstellt wurden.
Einsatz von Fastly AI Bot Management zur Bekämpfung von Scraping
Für Unternehmen, die sich Sorgen um das Eigentum an Inhalten, die unbefugte Datenerfassung und die Belastung der Infrastruktur machen, ist die Verwaltung dieser neuen Art von Traffic bereits ein dringendes Thema. AI Bot Management von Fastly begegnet dieser Herausforderung, indem es Kunden ermöglicht, das Verhalten von KI-gesteuerten Bots zu erkennen und zu kontrollieren, die Inhalte von ihren Websites scrapen.
Diese Funktion basiert auf den bestehenden Bot-Management-Funktionen von Fastly. Sie hilft Organisationen dabei, KI-Bots zu identifizieren, die auf Inhalte zugreifen, und entsprechend ihren eigenen Richtlinien zu reagieren, sei es durch Blockieren des Datenverkehrs, Zulassen bestimmter Bots oder Abfangen von Anfragen zur Überprüfung. Dieser flexible Ansatz ermöglicht es Publishern, Entwicklern und Plattformbetreibern, ein Gleichgewicht zwischen Offenheit und Kontrolle zu finden.
Die Funktion steht qualifizierten Open-Source-Projekten und gemeinnützigen Organisationen kostenlos über das Fast Forward-Programm von Fastly zur Verfügung, das derzeit über eine Million Anfragen pro Sekunde für die von ihm betreuten Projekte unterstützt.
Schnell, aber nicht exponiert: Schutz von zwischengespeicherten Inhalten vor Scrapern
Caching ist für die Bereitstellung schneller, reaktionsfähiger digitaler Erlebnisse unerlässlich. Es reduziert die Ladezeiten, entlastet die Origin-Server und hilft dabei, Inhalte während Traffic-Spitzen reibungslos zu skalieren. Doch gerade die Zugänglichkeit, die das Caching so effektiv macht, kann es auch zu einem Angriffsziel machen. Ohne angemessene Schutzmaßnahmen wird der Cache-Inhalt zu einem leichten Ziel für Scraper und Bots, die Daten in großem Maßstab erfassen, oft unentdeckt und ohne Erlaubnis.
Die Sicherung von Cache-Inhalten ist genauso wichtig wie die Sicherung Ihrer Ursprungsinfrastruktur. Mit Fastly Bot Management und einem einfachen VCL-Update können Sie Cache Hits prüfen, intelligente Herausforderungen anwenden und den Bot-Traffic in Echtzeit validieren, ohne dabei Geschwindigkeit oder User Experience zu beeinträchtigen. Dieser proaktive Ansatz schützt Ihre Suchmaschinenoptimierung, sichert Ihren Umsatz und sorgt dafür, dass Ihre digitalen Inhalte in den richtigen Händen bleiben.
Mehr als nur Blockieren: Monetarisierungsmöglichkeiten
Mit mehr Kontrolle über den Zugriff und AI Bot Management ergibt sich die Möglichkeit, diese wachsende Traffic-Klasse in eine neue Monetarisierungsmöglichkeit umzuwandeln.
Fastly ist eine Partnerschaft mit TollBit eingegangen, um Advanced Bot Management mit der Bot Paywall und der Pay-per-Access-Monetarisierungslösung von TollBit zu integrieren. Durch diese Integration werden KI-Bots nicht einfach blockiert, sondern erhalten die Möglichkeit, auf skalierbare und nachhaltige Weise für den Zugriff auf legitime Inhalte zu bezahlen. Dadurch entsteht die Möglichkeit, einen einst reinen Kostenfaktor in eine Einnahmequelle zu verwandeln.