Revenir au blog

Follow and Subscribe

Reprendre le contrôle : comment les éditeurs peuvent contrer le scraping indésirable par l'IA

John Agger

Principal Industry Marketing Manager, Media & Entertainment, Fastly

Les modèles d'IA générative modifient la manière dont les gens accèdent aux informations et les exploitent. Les grands modèles de langage (LLM) s'appuient sur de vastes quantités de données qui, dans une large mesure, sont collectées par des bots de Web scraping qui extraient automatiquement les contenus accessibles au public sur Internet. 

Bien que le scraping ne soit pas nouveau en soi, son échelle et son objectif ont radicalement changé, passant de l’indexation pour les moteurs de recherche à l’alimentation de systèmes d’IA génératifs robustes. L’augmentation du nombre de bots est significative. Tollbit, une plateforme qui aide les sites Web à garantir une rémunération équitable pour leur contenu et leurs données, a constaté une augmentation de 87 % du trafic des bots d'IA au premier trimestre de cette année. Cette évolution a ravivé les débats juridiques et éthiques de longue date sur la propriété des contenus. Les éditeurs, les créateurs et les plateformes se demandent s'il est équitable, voire légal, que leur contenu soit utilisé par des modèles d'IA sans autorisation, sans mention de la source et sans compensation. Parmi les litiges les plus connues, Reddit a poursuivi Anthropic, affirmant que des bots d'Anthropic avaient accédé à son site plus de 100 000 fois.

L'extraction non autorisée de contenu en ligne par des bots d'IA représente un défi important pour les créateurs et les éditeurs de contenu. Comme le déclare Renn Turiano, directeur des consommateurs et des produits chez Gannett Media :

« Il est vital de préserver l'intégrité de nos activités journalistiques au sein de USA TODAY et de nos plus de 200 publications locales. Les bots d'IA qui récupèrent notre travail sans autorisation ni compensation compromettent cette intégrité et soulèvent des questions urgentes sur l'équité, la légalité, la durabilité et l'avenir des médias indépendants. Nous sommes confortés par le travail accompli par Fastly et Tollbit pour défendre notre propriété intellectuelle et protéger la valeur du journalisme authentique. »

La formation de modèles d'IA à partir de contenus récupérés introduit une nouvelle problématique à ce sujet. Les LLM nécessitent de consommer des quantités massives d’informations en ligne pour s’améliorer. Cela inclut le contenu des blogs, des tutoriels, des articles de recherche et du contenu généré par les utilisateurs, qu'ils utilisent pour développer leurs compétences linguistiques et leur expertise dans le domaine. Une partie de ce contenu est disponible sous licence libre. Mais une grande partie ne l’est pas.

Trop tard pour agir : quand le scraping passe inaperçu

Les producteurs de contenu sont confrontés à deux problèmes lorsque leur travail est récupéré, car il ne s'agit pas seulement d'un vol. Le problème n'est pas que le scraping se produise, mais plutôt que les créateurs de contenu ne le découvrent généralement qu'une fois leur travail volé, car peu d'entre eux disposent de la technologie nécessaire pour détecter et bloquer les scrapers. 

Les propriétaires de contenu se retrouvent souvent obligés de détecter eux-mêmes les activités de scraping, ce qui peut inclure des baisses de trafic inexpliquées, des phrases dupliquées sur les sites web concurrents et potentiellement un classement inférieur dans les moteurs de recherche en raison de la republication de leur contenu sur un site différent. 

Ils recherchent des solutions qui offrent une visibilité claire sur le moment et la manière dont leur contenu est consulté. Mais au-delà de la détection, beaucoup explorent également des réponses stratégiques, qu'il s'agisse de définir des politiques de bot, de restreindre l'accès au contenu premium ou de négocier des frameworks de licence.

Explorer les zones grises du droit

Le scraping de contenu public ne constitue pas nécessairement un vol. Le framework juridique protège les activités de scraping lorsque les scrapers évitent d'enfreindre les conditions de service et que leur résultat modifié conserve un caractère distinct. Cette situation évoque certainement un sentiment d'exploitation, même si elle ne viole pas toujours les limites légales. La possibilité d'empêcher le scraping de contenu reste limitée lorsqu'il n'y a pas de connexion ou de barrière de paiement.

Certains ripostent, comme l’entreprise de technologie éducative Chegg. La bataille juridique entre Chegg et Google démontre l’intensification du conflit entre ces deux entités. Chegg affirme que Google utilise AI Overviews pour extraire son contenu éducatif afin de générer des réponses, qui apparaissent ensuite dans les résultats de recherche, réduisant ainsi la nécessité pour les étudiants de visiter la source d’origine. Cette situation illustre la façon dont les résumés générés par l'IA évitent aux étudiants d'avoir à accéder au site web original qui a produit le contenu.

Utiliser AI Bot Management de Fastly pour lutter contre le scraping

Pour les organisations préoccupées par la propriété du contenu, la collecte non autorisée de données et la pression sur l'infrastructure, la gestion de cette nouvelle catégorie de trafic est déjà une question urgente. AI Bot Management de Fastly répond à ce défi en permettant aux clients de détecter et de contrôler le comportement des bots IA qui extraient du contenu de leurs sites web.

Créé sur la base des capacités existantes de Bot Management de Fastly, cette fonctionnalité aide les organisations à identifier les bots d'IA qui accèdent au contenu et à réagir selon leurs propres politiques, qu'il s'agisse de bloquer le trafic, d'autoriser certains bots ou d'intercepter des requêtes pour examen. Il s'agit d'une approche flexible qui renforce les capacités des éditeurs, développeurs et opérateurs de plateforme à trouver un équilibre entre ouverture et contrôle. 

Cette fonctionnalité est offerte gratuitement aux projets open source éligibles et aux organisations à but non lucratif via le programme Fast Forward de Fastly, qui traite actuellement plus d'un million de requêtes par seconde pour l'ensemble des projets qu'il gère.

Rapide mais pas exposé : protéger le contenu du cache contre les scrapers

La mise en cache est essentielle pour livrer des expériences numériques rapides et réactives. Elle réduit les temps de chargement, allège la pression sur les serveurs d’origine et aide le contenu à évoluer en douceur pendant les pics de trafic. Mais l’accessibilité même qui rend la mise en cache efficace peut également en faire une cible. Sans mesures de protection appropriées, le contenu du cache devient une cible facile pour les scrapers et les bots qui collectent des données à grande échelle, souvent sans être détectés et sans autorisation.

Protéger le contenu du cache est tout aussi essentielle que protéger votre infrastructure. Grâce à Bot Management de Fastly et à une simple mise à jour du VCL, vous pouvez inspecter les accès au cache, appliquer des défis intelligents et valider le trafic des bots en temps réel, sans sacrifier la vitesse ni l’expérience utilisateur. Cette approche proactive protège votre SEO, préserve les revenus et assure que votre contenu numérique soit entre de bonnes mains.

Au-delà du blocage : opportunités de monétisation

Avec un contrôle accru de l'accès et AI Bot Management, il est possible de convertir cette catégorie croissante de trafic en une nouvelle opportunité de monétisation. 

Fastly s'est associé à TollBit pour intégrer l'Advanced Bot Management avec le Bot Paywall de TollBit et la solution de monétisation par paiement à l'accès. Grâce à cette intégration, plutôt qu’à un simple blocage, les bots d’IA peuvent avoir la possibilité de payer pour un accès légitime au contenu de manière évolutive et durable. Cela crée une opportunité de transformer ce qui était autrefois un simple coût en une source de revenus. 

En savoir plus sur l'intégration Fastly - TollBit