Recuperar el control: cómo las editoriales pueden contrarrestar el scraping no deseado de la IA

Principal Industry Marketing Manager para medios de comunicación y entretenimiento, Fastly

Los modelos generativos de IA están cambiando la forma en que accedemos a la información y la consumimos. Los grandes modelos lingüísticos (LLM) se nutren de ingentes cantidades de datos que, en gran medida, son recopilados por scrapers web que extraen automáticamente contenidos de acceso público en Internet.
Aunque el scraping en sí no es nuevo, su escala y su finalidad han cambiado radicalmente, pasando de la indexación para motores de búsqueda a la alimentación de potentes sistemas de IA generativa. El aumento del tráfico de bots es significativo. Tollbit, una plataforma que permite a los sitios web garantizar una compensación justa por sus contenidos y datos, registró un aumento del 87 % en el tráfico de bots de IA en el primer trimestre de este año. Esta evolución ha reavivado antiguos debates legales y éticos en torno a la propiedad de los contenidos. Editores, creadores y plataformas se preguntan si es justo, o incluso lícito, que sus contenidos sean ingeridos por modelos de IA sin permiso, crédito o compensación. Entre los casos más conocidos se encuentra el de Reddit, que ha demandado a Anthropic alegando que los bots de Anthropic habían accedido a su sitio web más de 100 000 veces.
El scraping no autorizado de contenido online por parte de bots de IA presenta un desafío significativo para los creadores y editores de contenido. Como afirma Renn Turiano, director de Productos y Consumo de Gannett Media:
«Es vital preservar la integridad de nuestro periodismo en USA TODAY y en nuestras más de 200 publicaciones locales. Los bots de IA que extraen nuestro trabajo sin permiso ni compensación socavan esa integridad y plantean preguntas urgentes sobre la equidad, la legalidad, la sostenibilidad y el futuro de los medios independientes. Nos estimula el trabajo que están realizando Fastly y Tollbit para ayudar a defender nuestra propiedad intelectual y proteger el valor de la información original.
El entrenamiento de modelos de IA a través de contenidos extraídos aporta una dificultad adicional a esta cuestión. Los LLM necesitan consumir cantidades ingentes de información en Internet para mejorar. Se trata de contenidos de blogs, tutoriales, artículos de investigación y contenidos generados por los usuarios, que usan para desarrollar sus habilidades lingüísticas y sus conocimientos especializados. Algunos de estos contenidos están sujetos a licencias abiertas. Muchos otros no.
Demasiado tarde para actuar: cuando el scraping pasa desapercibido
Los productores de contenidos se enfrentan a un problema doble cuando su trabajo es objeto de scraping, ya que el problema va más allá del robo. El problema no es que se produzca el scraping, sino que los creadores de contenidos suelen descubrirlo cuando ya ha ocurrido, pues pocos disponen de la tecnología necesaria para detectar y bloquear a los scrapers.
Los propietarios del contenido suelen tener que detectar por sí mismos las actividades de scraping, que pueden incluir darse cuenta de caídas inexplicables en el tráfico, frases duplicadas en sitios web de la competencia y, potencialmente, una clasificación más baja en los motores de búsqueda debido a que su contenido se vuelve a publicar en otro sitio.
Buscan soluciones que ofrezcan una visibilidad clara de cuándo y cómo se accede a su contenido. Pero más allá de la detección, muchos también están explorando respuestas estratégicas, ya sea estableciendo políticas contra bots, bloqueando contenido prémium o negociando marcos de licencias.
Ámbitos grises de la legislación
El scraping de contenidos públicos no equivale necesariamente a un robo. El marco jurídico protege las actividades de «scraping» cuando los « scrapers» evitan infringir las condiciones del servicio y su producto transformado conserva un marcado carácter diferenciador. La situación suscita sin duda una sensación de explotación, aunque no siempre vulnere los límites legales. La capacidad de detener el scraping de contenidos sigue estando restringida cuando no se utiliza un inicio de sesión o una barrera de pago.
Algunos contraatacan, como la empresa de tecnología educativa Chegg. La batalla legal entre Chegg y Google demuestra la intensificación del conflicto entre estas dos entidades. Chegg alega que Google utiliza resúmenes generados por IA para extraer sus contenidos educativos y generar respuestas que luego aparecen en los resultados de las búsquedas, de modo que los alumnos no tienen que visitar la fuente original. La situación ilustra cómo los resúmenes generados por IA eliminan la necesidad de que los estudiantes accedan al sitio web original que produjo el contenido.
Usando Fastly AI Bot Management para combatir el scraping
Para las organizaciones preocupadas por la propiedad de los contenidos, la recolección no autorizada de datos y la sobrecarga de la infraestructura, la gestión de esta nueva clase de tráfico es ya un problema acuciante. La solución AI Bot Management de Fastly aborda este reto permitiendo a los clientes detectar y controlar el comportamiento de los bots basados en IA que extraen contenido de sus sitios web.
Desarrollada sobre la base de las actuales prestaciones de Bot Management de Fastly, esta función ayuda a las organizaciones a identificar los bots de IA que acceden a los contenidos y a responder de acuerdo con sus propias políticas, ya sea bloqueando el tráfico, permitiendo determinados bots o interceptando solicitudes de revisión. Es un planteamiento flexible que permite a editores, desarrolladores y operadores de plataformas encontrar un equilibrio entre apertura y control.
La función está disponible sin coste alguno para proyectos de código abierto y organizaciones sin ánimo de lucro que cumplan los requisitos a través del programa Fast Forward de Fastly, que actualmente admite más de un millón de peticiones por segundo en todos los proyectos a los que presta servicio.
Rápido pero no expuesto: defensa del contenido almacenado en caché contra los scrapers
El almacenamiento en caché es esencial para ofrecer experiencias digitales rápidas y adaptadas. Reduce los tiempos de carga, alivia la presión sobre los servidores de origen y ayuda a escalar el contenido sin problemas durante los picos de tráfico. Sin embargo, la misma accesibilidad que hace que el almacenamiento en caché sea eficaz también puede convertirlo en un objetivo. Sin las salvaguardas adecuadas, el contenido almacenado en caché se convierte en un blanco fácil para scrapers y bots que recopilan datos a gran escala, a menudo sin ser detectados y sin permiso.
Defender el contenido almacenado en caché es tan importante como proteger tu infraestructura de origen. Con Fastly Bot Management y una simple actualización de VCL, puedes inspeccionar los aciertos de caché, aplicar desafíos inteligentes y validar el tráfico de bots en tiempo real, sin sacrificar la velocidad o la experiencia de uso. Este enfoque proactivo protege tu SEO, preserva los ingresos y mantiene tu contenido digital en buenas manos.
Más allá del bloqueo: oportunidades de monetización
Con un mayor control sobre el acceso y la gestión de bots de IA, surge la oportunidad de convertir esta modalidad creciente de tráfico en una nueva oportunidad de monetización.
Fastly se ha asociado con TollBit para integrar Advanced Bot Management con la solución de monetización de pago por acceso y Bot Paywall de TollBit. Con esta integración, en lugar de simplemente bloquear, los bots de IA tienen la posibilidad de pagar por el acceso legítimo a contenidos de forma escalable y sostenible. De este modo, se abre la posibilidad de transformar lo que antes era un mero coste en una fuente de ingresos.