Enséñale un nuevo truco a tu robots.txt (para IA)

Senior Security Strategist, Fastly

¡Es hora de una rápida puesta a punto de robots.txt! 🤖
Hola amigos, ¿cuándo fue la última vez que revisaste tu archivo robots.txt? Apple y Google están entrenando su nueva IA con la vasta cantidad de información disponible en la web, y nos han dado nuevas formas de control si nuestro contenido se utiliza para este propósito.
¿De qué se trata todo este revuelo?
Recientemente, tanto Google como Apple introdujeron nuevos User-Agent que tienen como objetivo mejorar sus productos y características de IA.
Google-Extended: no es un nuevo rastreador, sino una instrucción especial que puedes añadir a tu archivo robots.txt. Le dice a Google que no utilice tu contenido para entrenar sus modelos de IA, incluido Google Gemini. El posicionamiento de búsqueda regular de tu sitio no se verá afectado.
Applebot-Extended: Al igual que el nuevo agente de Google, este bot de Apple te permite optar por no usar tu contenido para entrenar la IA de Apple, que impulsa funciones como Apple Intelligence. No permitir esto no eliminará tu sitio de los resultados de búsqueda de Apple.
Por qué deberías actualizar tu robots.txt
La razón principal es el control. Al añadir unas líneas a tu archivo robots.txt, puedes decidir si quieres que el contenido de tu sitio web sea parte de los datos de entrenamiento para estos grandes modelos de lenguaje. Si tienes contenido que consideras una propiedad intelectual valiosa, entonces esta actualización es para ti.
Cómo hacerlo: Copiar y pegar fácilmente
Es tan sencillo como añadir lo siguiente a tu archivo robots.txt:
Para bloquear el entrenamiento de la IA de Google:
User-agent: Google-Extended
Disallow: /
Para bloquear el entrenamiento de IA de Apple:
User-agent: Applebot-Extended
Disallow: /
Puedes añadir estos bloques a tu archivo robots.txt existente.
La razón por la que se necesitan estas modificaciones en el archivo robots.txt es que la fuente del tráfico y el user-agent son los mismos que los rastreadores. Aquí tienes la cita de la documentación de Google.
«Google-Extended no tiene una cadena de user-agent de petición HTTP independiente. El rastreo se realiza con las cadenas de user-agent de Google existentes; el token de user-agent de robots.txt se utiliza en calidad de control».
Así que, tómate unos minutos hoy para revisar y actualizar tu archivo robots.txt. Es un pequeño cambio que te da más control sobre cómo se utiliza tu contenido para entrenar IA. Si no tienes un archivo robots.txt o quieres acercar ese archivo a tus usuarios finales, puedes crear fácilmente un archivo robots.txt usando Fastly.
Aunque Google y Apple han sido lo suficientemente amables como para ayudarte a controlar cómo acceden a tu contenido, hay docenas de rastreadores, buscadores y otros bots que probablemente accedan a tu contenido y que no sean tan fáciles de manejar. Para tener más visibilidad sobre los bots (incluidos los bots de IA) que pueden ser verificados, así como aquellos que no son fácilmente verificables, consulta Fastly Bot Management.
Aquí tienes las fuentes si quieres revisar la información por ti mismo.