Volver al blog

Síguenos y suscríbete

Wikipedia dice a las empresas de IA que "dejen de hacer scraping"

Natalie Griffeth

Director sénior de marketing de contenidos

La resistencia a los bots ha comenzado

El lunes, Wikipedia - la confiable enciclopedia ‘colaborativa’ de Internet - emitió un comunicado instando a los principales recolectores de IA a utilizar su API de pago , en lugar de tomar su información de forma ‘gratuita’. Wikipedia, que depende de donaciones y financiación comunitaria, observa cómo las empresas de IA eluden el modelo que hace posible su plataforma. Están suplicando a las empresas de IA que, en su lugar, se adhieran al uso de su solución de pago.

En su comunicado, Wikipedia afirmó que «están llamando a los desarrolladores de IA y a otros reusuarios de contenido que acceden a nuestro contenido para que lo usen de forma responsable y sostengan Wikipedia». Pueden lograrlo mediante dos acciones sencillas: la atribución y el apoyo financiero. La petición es simple: atribuciones adecuadas y «acceso [adecuado] al contenido de Wikipedia a través de la plataforma Wikimedia Enterprise». Wikipedia dice que «este producto de suscripción de pago permite a las empresas utilizar el contenido de Wikipedia a escala y de forma sostenible sin sobrecargar los servidores de Wikipedia, al mismo tiempo que les permite apoyar nuestra misión sin fines de lucro».

El sector editorial se resiente

¿Entonces por qué la pregunta? Porque las editoriales están sintiendo los efectos del scraping sin restricciones. 

En octubre, Wikipedia lanzó una estadística de una disminución del 8 % interanual en el tráfico web debido a la IA. Marshall Miller, Director sénior de producto de la Fundación Wikipedia, dijo que están trabajando para diferenciar el tráfico humano del tráfico de bots. Están surgiendo más preocupaciones sobre la falta de ediciones comunitarias en las páginas de Wikipedia, que son la base misma de cómo Wikipedia mantiene su contenido rico. Cuando los consumidores usan resúmenes de IA en lugar de hacer clic en Wikipedia, esto resulta en menos visitantes, sí, pero también en menos editores. Esto podría dejar a Wikipedia como un espacio muerto.

La preocupación de Wikipedia es doble: primero, la extracción de su contenido significa menos visitantes y una menor dependencia de su plataforma, lo que se traduce en una disminución de los ingresos y el tráfico. En segundo lugar, les preocupa la enorme presión que el tráfico de scraping está ejerciendo sobre sus servidores. Por eso Wikipedia insta a los usuarios (en particular a las empresas de IA) a utilizar su opción de búsqueda de pago, que permite a los usuarios buscar su contenido a escala, pero sin sobrecargar los servidores ni 'robar' esta valiosa información de forma 'gratuita'.  

Los temas de esta historia en particular están en línea con lo que estamos observando de nuestro equipo de investigación de seguridad. Nuestro Informe de Conocimientos sobre Amenazas del segundo trimestre y nuestro próximo informe del tercer trimestre destacan hallazgos similares. Con los bots representando una gran proporción del tráfico total del sitio web, el resultado es una sobrecarga en la infraestructura, contenido 'robado' y el riesgo de que las intenciones maliciosas pasen desapercibidas. Nuestro informe del segundo trimestre destacó cómo «los bots de IA pueden ejercer una presión significativa sobre la infraestructura web desprotegida, con un tráfico pico que alcanza hasta 39 000 peticiones por minuto».

La resistencia contra la IA está en marcha

Miller, en su artículo de blog, afirmó que la adopción de mejores soluciones de gestión de bots para «reclasificar [su] tráfico» arrojó el hallazgo de que «gran parte de su tráfico inusualmente alto... provenía de bots que fueron creados para evadir la detección».

Esto señala una tendencia que estamos monitoreando en nuestros propios datos: las organizaciones están comprendiendo que incluso los «bots deseados», o aquellos que aparentemente no tienen intenciones maliciosas, pueden aún sobrecargar su infraestructura y 'robar' su valiosa propiedad intelectual. 

De hecho, nuestro próximo Informe de Conocimientos sobre Amenazas del tercer trimestre encontró que las organizaciones están bloqueando cada vez más los bots 'deseados', o aquellos que se consideran no maliciosos. Esto nos indica que la tolerancia hacia el scraping de IA, incluso con fines legítimos, está comenzando a ser objeto de escrutinio. Las organizaciones ya no permiten abiertamente que se realice scraping para consumir sus datos sin compensación. 

Aunque Wikipedia está bajo una presión creciente debido a su estatus de organización sin ánimo de lucro, el mismo problema persiste para las editoriales en todo el mundo.

Dado el impacto en los ingresos y los costes de infraestructura, anticipamos que otros se unirán a Wikipedia y continuarán tomando medidas enérgicas contra el scraping de IA.

Una estrategia de gestión de bots ya no es solo algo bueno de tener

Las soluciones de gestión de bots ya no son opcionales; deberían ser un componente obligatorio de cualquier programa de AppSec. Capacidades como nuestra oferta de productos en colaboración con Tollbit permiten a las organizaciones cobrar a los bots en lugar de prohibirlos por completo; este es exactamente el enfoque que está adoptando Wikipedia.

¿En resumen? Las organizaciones están empezando a tomar medidas drásticas: no es rentable ni sostenible simplemente permitir el uso gratuito de tu contenido, y cada vez es más importante contar con una estrategia de bots. 

Las organizaciones deben recordar que los archivos Robots.txt no son un escudo ; son simplemente una sugerencia.