Revenir au blog

Follow and Subscribe

Disponible uniquement en anglais

Cette page n'est actuellement disponible qu'en anglais. Nous nous excusons pour la gêne occasionnée, merci de revenir sur cette page ultérieurement.

Apprenez une nouvelle astuce à votre fichier robots.txt (pour l'IA)

Brooks Cunningham

Stratège en sécurité senior, Fastly

Il est temps de procéder à une mise au point rapide du fichier robots.txt ! 🤖

Bonjour à tous, à quand remonte la dernière fois que vous avez examiné votre fichier robots.txt ? Apple et Google entraînent leur nouvelle IA sur la vaste quantité d'informations disponibles sur le web, et nous ont offert de nouvelles façons d’exercer un contrôle si notre contenu est utilisé à cette fin.

Quel est le buzz ?

Récemment, Google et Apple ont introduit de nouveaux agents utilisateurs visant à améliorer leurs produits et fonctionnalités d'IA.

  • Google-Extended: Il ne s'agit pas d'un nouveau robot d'exploration, mais d'une instruction spéciale que vous pouvez ajouter à votre fichier robots.txt. Il indique à Google de ne pas utiliser votre contenu pour entraîner leurs modèles d’IA, y compris Gemini. Le classement habituel de votre site dans les moteurs de recherche ne sera pas affecté.

  • Applebot-Extended: À l'instar du nouvel agent de Google, ce bot d'Apple vous permet de refuser que votre contenu soit utilisé pour entraîner l'IA d'Apple, qui alimente des fonctionnalités telles qu'Apple Intelligence. Interdire cela ne supprimera pas votre site des résultats de recherche d'Apple.

Pourquoi vous devriez mettre à jour votre fichier robots.txt

La raison principale est le contrôle. En ajoutant quelques lignes à votre fichier robots.txt, vous pouvez décider si vous souhaitez que le contenu de votre site web fasse partie des données d'apprentissage de ces grands modèles linguistiques. Si vous possédez du contenu que vous considérez comme une propriété intellectuelle précieuse, cette mise à jour vous est destinée.

Le mode d'emploi : un simple copier-coller

Il est aussi simple que d'ajouter ce qui suit à votre fichier robots.txt :

Pour bloquer l'entraînement de l'IA de Google :

User-agent: Google-Extended
Disallow: /

Pour bloquer la formation de l’IA d’Apple :

User-agent: Applebot-Extended
Disallow: /

Vous pouvez ajouter ces blocs à votre fichier robots.txt existant.

La raison pour laquelle ces modifications sont nécessaires dans le fichier robots.txt est que la source du trafic et le user-agent sont les mêmes que ceux des robots d'indexation. Voici la citation tirée de la documentation de Google.

« Google-Extended n\'a pas de chaîne d\'user-agent distincte pour les requêtes HTTP. L\'exploration se fait avec les chaînes d\'user-agent Google existantes ; le jeton d\'user-agent robots.txt est utilisé à des fins de contrôle. »

Alors, prenez quelques minutes aujourd'hui pour revoir et mettre à jour votre fichier robots.txt. C'est un petit changement qui vous donne plus de poids dans la manière dont votre contenu est utilisé pour former l'IA. Si vous n'avez pas de fichier robots.txt ou si vous souhaitez rapprocher ce fichier de vos utilisateurs finaux, vous pouvez facilement créer un fichier robots.txt à l'aide de Fastly.  

Bien que Google et Apple aient eu la gentillesse de vous aider à contrôler la manière dont ils accèdent à votre contenu, il existe des dizaines de robots d'exploration, de récupération et d'autres bots susceptibles d'accéder à votre contenu et pour lesquels il n'est pas si facile de trouver une solution.  Pour plus de visibilité sur les bots (y compris les bots AI) qui peuvent être vérifiés, ainsi que sur ceux qui ne le sont pas facilement, consultez Fastly Bot Management.

Voici les sources si vous souhaitez examiner les informations par vous-même.