Wikipedia fordert KI-Unternehmen auf, "mit dem Scraping aufzuhören".

Senior Content Marketing Manager

Der Widerstand gegen Bots hat begonnen.
Am Montag gab Wikipedia – die vertrauenswürdige „crowd-sourced“ Enzyklopädie des Internets – eine Erklärung ab, in der die großen KI-Scraper aufgefordert wurden, ihre kostenpflichtige API zu verwenden, anstatt ihre Informationen „kostenlos“ zu beziehen. Wikipedia, das auf Spenden und Gemeinschaftsfinanzierung angewiesen ist, sieht, wie KI-Unternehmen das Modell umgehen, das ihre Plattform ermöglicht. Sie bitten die KI-Unternehmen inständig, stattdessen ihre kostenpflichtige Lösung zu verwenden.
In ihrer Erklärung erklärte Wikipedia, dass sie „KI-Entwickler und andere Inhaltswiederverwender, die auf unsere Inhalte zugreifen, auffordern, diese verantwortungsbewusst zu nutzen und Wikipedia zu unterstützen. "Dies können Sie durch zwei einfache Maßnahmen erreichen: Anerkennung und finanzielle Unterstützung.“ Die Anforderung ist einfach: Richtige Zuschreibungen und „[richtiger] Zugriff [auf] Wikipedia-Inhalte über die Wikimedia Enterprise Plattform“. Wikipedia sagt: „Dieses kostenpflichtige Opt-in-Produkt ermöglicht es Unternehmen, Wikipedia-Inhalte in großem Umfang und nachhaltig zu nutzen, ohne die Server von Wikipedia stark zu belasten, während sie gleichzeitig unsere gemeinnützige Mission unterstützen.“
Publisher spüren den Druck.
Warum also die Frage? Weil die Publisher die Auswirkungen des ungebremsten Scrapings spüren.
Im Oktober Release eine Statistik über einen 8%igen Rückgang des Web Traffics im Jahresvergleich aufgrund von KI. Marshall Miller, Senior Director of Product bei der Wikipedia Foundation, sagte, dass sie daran arbeiten, menschlichen Traffic von Bot-Traffic zu unterscheiden. Es tauchen weitere Bedenken hinsichtlich des Mangels an Community-Bearbeitungen von Wikipedia-Seiten auf – die eigentliche Grundlage dafür, wie Wikipedia seinen reichhaltigen Inhalt beibehält. Wenn Verbraucher KI-Übersichten verwenden, anstatt direkt auf Wikipedia zu klicken, führt dies zwar zu weniger Besuchern, aber auch zu weniger Editoren. Dies könnte dazu führen, dass Wikipedia zu einem toten Raum wird.
Wikipedia hat zwei Hauptanliegen: Erstens führt das Scraping ihrer Inhalte zu weniger Besuchern und einer geringeren Abhängigkeit von ihrer Plattform, was zu sinkendem Umsatz und weniger Traffic führt. Zweitens sind sie besorgt über die enorme Belastung, die der Scraping-Traffic auf ihre Server ausübt. Deshalb fordert Wikipedia die Nutzer (insbesondere KI-Unternehmen) auf, ihre kostenpflichtige Suchoption zu nutzen, die es den Nutzern ermöglicht, ihre Inhalte in großem Umfang zu durchsuchen, ohne die Server zu überlasten oder diese wertvollen Informationen im Wesentlichen „kostenlos“ zu stehlen.
Die Themen dieser speziellen Geschichte stimmen genau mit dem überein, was wir von unserem Security Research Team sehen. Unser Q2 Threat Insights Report und unser bevorstehender Q3-Bericht heben ähnliche Einblicke hervor. Da Bots einen großen Anteil am gesamten Website-Traffic ausmachen, führt dies zu einer Überlastung der Infrastruktur, zu 'gestohlenen' Inhalten und zum Risiko, dass böswillige Absichten unkontrolliert bleiben. In unserem Bericht für das 2. Quartal wurde hervorgehoben, dass „KI-Bots die ungeschützte Web-Infrastruktur erheblich belasten können, wobei die Traffic-Spitzen bis zu 39.000 Anfragen pro Minute erreichen“.
Der Widerstand gegen KI ist im Gange.
Miller erklärte in seinem Blogpost, dass die Einführung besserer Bot-Management-Lösungen zur „Neuklassifizierung ihres Traffics“ zu der Erkenntnis geführt habe, dass „ein Großteil ihres ungewöhnlich hohen Traffics … von Bots stammte, die als Build zur Umgehung der Erkennung gebaut wurden“.
Dies deutet auf einen Trend hin, den wir in unseren eigenen Daten verfolgen – Organisationen erkennen zunehmend, dass selbst „gewünschte Bots“ oder solche, die scheinbar keine böswilligen Absichten haben, ihre Infrastruktur übermäßig belasten und ihr wertvolles geistiges Eigentum „stehlen“ können.
Tatsächlich hat unser demnächst erscheinender Q3-Bericht zu Bedrohungs-Einblicken ergeben, dass Unternehmen zunehmend sogenannte „gewünschte“ Bots blockieren, also solche, die als nicht bösartig gelten. Dies zeigt uns, dass die Toleranz gegenüber KI-Scraping, selbst für legitime Zwecke, zunehmend kritisch betrachtet wird. Organisationen erlauben nicht mehr offen, dass Scraping ihre Daten ohne Entschädigung verwendet.
Während Wikipedia aufgrund seines Non-Profit-Status zunehmend unter Druck steht, bleibt dasselbe Problem für Publisher weltweit bestehen.
Angesichts der Auswirkungen auf den Umsatz und die Infrastrukturkosten erwarten wir, dass sich weitere Akteure Wikipedia anschließen und weiterhin gegen KI-Scraping vorgehen.
Eine Bot-Management-Strategie ist kein nettes Extra mehr.
Bot-Management-Lösungen sind nicht mehr optional – sie sollten ein verpflichtender Bestandteil eines jeden AppSec-Programms sein. Fähigkeiten wie unser Angebot in Partnerschaft mit Tollbit ermöglichen es Organisationen, Bots zu berechnen, anstatt sie komplett zu verbieten – genau diesen Ansatz verfolgt Wikipedia.
Unterm Strich? Organisationen greifen zunehmend durch – es ist weder profitabel noch nachhaltig, die kostenlose Nutzung Ihrer Inhalte einfach zu erlauben, und es wird immer wichtiger, eine Bot-Strategie parat zu haben.
Organisationen sollten bedenken, dass Robots.txt-Dateien kein Schutzschild sind – sie sind lediglich eine Empfehlung.