Wikipédia demande aux entreprises d’AI d’« arrêter de scraper »

Senior Content Marketing Manager

La riposte contre les bots a commencé.
Lundi, Wikipedia - l'encyclopédie « participative » fiable d'Internet - a publié une déclaration exhortant les principaux scrapers d'AI à utiliser leur API payante , plutôt que de récupérer leurs informations « gratuitement ». Wikipedia, qui dépend des dons et du financement communautaire, constate que des entreprises AI contournent le modèle même qui rend leur plateforme possible. Ils supplient les entreprises AI de plutôt adhérer à l'utilisation de leur solution payante.
Dans leur déclaration, Wikipédia a déclaré qu'ils « appellent les développeurs d'AI et les autres réutilisateurs de contenu qui accèdent à notre contenu à l'utiliser de manière responsable et à soutenir Wikipédia ». Ils peuvent y parvenir grâce à deux actions simples : l'attribution et le soutien financier. La demande est simple : des attributions correctes et « [un] accès correct [au] contenu de Wikipédia par le biais de la plateforme Wikimedia Enterprise ». Wikipédia déclare que « ce produit payant permet aux entreprises d’utiliser le contenu de Wikipédia à l'échelle et de manière durable sans surcharger les serveurs de Wikipédia, tout en leur permettant de soutenir notre mission à but non lucratif ».
Les éditeurs ressentent l'impact du scraping
Alors, pourquoi cette demande ? Parce que les éditeurs ressentent les effets d'un scraping non atténué.
En octobre, Wikipedia a version une statistique indiquant une baisse de 8 % du trafic web d'une année sur l'autre en raison de l'AI. Marshall Miller, Directeur principal des produit à la Fondation Wikipedia, a déclaré qu'ils travaillent à distinguer le trafic humain du trafic des robots. L'absence de modifications communautaires sur les pages Wikipédia, qui est à la base de la manière dont Wikipédia conserve son contenu enrichi, suscite de nouvelles inquiétudes. Lorsque les consommateurs utilisent les aperçus de l’AI au lieu de cliquer sur Wikipédia lui-même, cela entraîne une diminution du nombre de visiteurs, certes, mais aussi du nombre d’éditeurs. Cela laisse Wikipédia comme un vide vide.
La préoccupation de Wikipédia est double : premièrement, le scraping de leur contenu signifie moins de visiteurs et une moindre dépendance à leur plateforme, ce qui entraîne une baisse des revenus et du trafic. Deuxièmement, elles s'inquiètent de l'énorme pression que le trafic de scraping exerce sur leurs serveurs. C’est pourquoi Wikipédia incite les utilisateurs (notamment les entreprises d’IA) à recourir à leur option de recherche payante, qui permet de consulter leur contenu à l'échelle, sans surcharger les serveurs ni « voler » ces informations précieuses « gratuitement ».
Les thèmes abordés dans cette histoire correspondent parfaitement à ce que notre équipe de recherche dans le domaine de la sécurité a constaté. Notre Rapport sur les informations de Threat du T2 et notre rapport du T3 à venir mettent en évidence des résultats similaires. Les robots représentant une grande partie du trafic global des sites web, il en résulte une surcharge de l'infrastructure, du contenu « volé » et le risque que des intentions malveillantes passent inaperçues. Notre rapport du deuxième trimestre a souligné comment « les robots d’IA peuvent exercer une pression importante sur l’infrastructure web non protégée, avec des pics de trafic atteignant jusqu’à 39 000 requêtes par minute ».
La résistance contre AI est en cours.
Dans son article de blog, Miller a déclaré que l'adoption par l'entreprise de meilleures solutions de Bot Management, afin de « reclasser [leur] trafic », a permis de constater qu'« une grande partie de leur trafic anormalement élevé… provenait de bots qui étaient créés pour échapper à la détection ».
Cela indique une tendance que nous suivons dans nos propres données : les organisations prennent conscience que même les « bots recherchés » ou ceux apparemment sans intention malveillante peuvent encore exercer une pression excessive sur leur infrastructure et « voler » leur précieuse propriété intellectuelle.
En fait, notre prochain rapport d'informations Threat Insights du troisième trimestre a révélé que les organisations bloquent de plus en plus les bots « recherchés », c'est-à-dire ceux considérés comme non malveillants. Cela nous indique que la tolérance à l'égard du scraping par AI, même à des fins légitimes, commence à faire l'objet d'un examen minutieux. Les organisations n'autorisent plus ouvertement le scraping pour utiliser leurs données sans compensation.
Alors que Wikipédia subit une pression accrue en raison de son statut d'organisation à but non lucratif, le même problème persiste pour les éditeurs du monde entier.
Compte tenu de l'impact sur les revenus et les coûts d'infrastructure, nous prévoyons que d'autres rejoindront Wikipédia et continueront à sévir contre le scraping de l'AI.
Une stratégie de Bot Management n'est plus un simple atout
Les solutions de Bot management ne sont plus optionnelles — elles devraient être un composant obligatoire de tout programme AppSec. Des fonctionnalités telles que notre offre en partenariat avec Tollbit permettent aux organisations de facturer les bots au lieu de simplement les bannir complètement — c’est exactement l’approche que Wikipédia adopte.
Net net ? Les organisations commencent à sévir — il n'est ni rentable ni durable de permettre la libre utilisation de votre contenu, et il devient de plus en plus important de mettre en place une stratégie pour les bots.
Les organisations doivent se rappeler que les fichiers Robots.txt ne constituent pas un bouclier - ils sont simplement une suggestion.