La verità sul blocco dell'IA e come gli editori possono comunque avere la meglio

Vicepresidente delle iniziative strategiche, Fastly

19 agosto 2025

Cloudflare ha fatto scalpore il mese scorso annunciando un blocco sui crawler IA. Ma ecco il punto: hanno tralasciato due importanti crawler: Google e Apple, il che significa che la loro "soluzione" di alto profilo non può effettivamente fermare alcuni dei principali motori di scraping IA odierno senza danneggiare la SEO nel processo.

Non è una critica a Cloudflare. È una presa di coscienza della realtà per l'intero settore. Perché quando si tratta di controllare i crawler IA, la verità è più complicata e molto più interessante di un semplice interruttore che permette o nega l'accesso.

Fastly ha lavorato per gran parte di quest'anno con diversi gruppi su iniziative simili. Anziché implementare il nostro standard o richiedere a tutti di utilizzare il nostro gateway di pagamento, stiamo invece lavorando su due approcci diversi ma correlati.

Il primo è collaborare con aziende che offrono soluzioni simili, in particolare quelle con cui condividiamo i clienti. Abbiamo annunciato la nostra partnership con TollBit all'inizio di luglio che, come la soluzione CloudFlare, offre agli editori la possibilità di addebitare i costi ai bot invece di limitarli semplicemente a un divieto di accesso. Stiamo inoltre discutendo con altri fornitori che ci sono stati presentati dai nostri clienti. Il nostro obiettivo è quello di andare incontro alle esigenze dei nostri clienti e fornire loro una vasta scelta di soluzioni, proprio come la nostra funzionalità di Real Time Logging si integra con oltre 30 provider di logging.

Nel frattempo, stiamo collaborando attivamente con gruppi che promuovono standard aperti come IAB (Interactive Advertising Bureau), RSL (Really Simple Licensing) e i grandi nomi del mondo degli standard Internet: W3C e IETF. Abbiamo una grande esperienza nel campo delle norme e quindi, oltre a offrire una vasta scelta, cerchiamo anche di rappresentare le esigenze di tutti i nostri clienti che potrebbero non avere le risorse o le competenze necessarie per partecipare a questi forum.

Questo lavoro è determinato da ciò che osserviamo nel mondo reale: i dati del report Threat Insights Report del secondo trimestre 2025 di Fastly mostrano che i crawler IA prendono di mira in modo sproporzionato domini ad alta autorità come siti di notizie, dataset aperti, pagine governative, risorse educative e documentazione tecnica. E il 95% di quel traffico crawler proviene da soli tre player: Meta (52%), Google (23%) e OpenAI (20%).

Il controllo a livello di edge sta diventando l'ultima linea di difesa per gli editori che si preoccupano di come vengono utilizzati i loro contenuti.

Ecco cosa devono sapere gli editori:

Robots.txt non può impedire lo scraping dell'IA, a meno che il bot non decida di conformarsi
Bloccare completamente l'IA di Google significa bloccare il bot di ricerca di Google, attualmente non esiste una separazione netta tra le due
La maggior parte degli altri bot IA può essere rilevata e filtrata all'edge
L'edge programmabile di Fastly offre controllo in tempo reale sul traffico dei bot. Niente black box, niente false promesse.

Robots.txt: Un suggerimento, non uno scudo

Al centro del dibattito sullo scraping dell'IA c'è un protocollo vecchio di decenni: robots.txt. Il suo scopo è quello di indicare ai bot dove possono e non possono andare. E per molti bot ben addestrati, come Googlebot o Applebot, funziona ancora, più o meno.

Il web crawler di Google non si limita più a effettuare ricerche, ma alimenta anche modelli linguistici di grandi dimensioni tramite una direttiva chiamata Google-Extended, che puoi disabilitare nel tuo robots.txt per escludere l'addestramento dell'IA. Ma ecco il trucco: Google-Extended non è un bot. È un flag, che Googlebot è libero di ignorare se vuole.

Lo stesso vale per Apple-Extended e altre direttive simili. Segnalano solo l'intento e la conformità è completamente volontaria.

Quindi, mentre il tuo file robots.txt potrebbe apparire così:

_{User-agent: Googlebot}

_{Allow: /}

_{User-agent: Google-Extended}

_{Disallow: /}

… continui a dipendere dalla buona volontà di Google nel rispettare la seconda linea. E se bloccassi completamente Googlebot? Dì addio al tuo traffico di ricerca.

Questo è il vero problema. Se vuoi proteggere i tuoi contenuti dall'uso dell'IA, ma non danneggiare il tuo SEO, non esiste una separazione netta tra il crawling di ricerca e lo scraping basato sull'IA, almeno non quando si tratta di Google e Apple. È tutto unito apposta.

Per instaurare fiducia ed evitare di essere bloccati, gli operatori di bot IA devono prendere sul serio la trasparenza e il controllo. A cominciare dalla pubblicazione degli intervalli IP o dal supporto di metodi verificabili come il reverse DNS lookup, cosa che OpenAI già fa, rendendo più facile per gli sviluppatori identificare e filtrare i propri crawler.

I bot dovrebbero anche rispettare il file robots.txt e qualsiasi opt-out emergente basato sugli standard web. Questi segnali potrebbero non essere legalmente vincolanti, ma sono fondamentali per mantenere la buona volontà con gli editori.

Perché bloccare l'IA è più difficile di quanto sembri

Alcune aziende di IA fanno un ottimo lavoro nel separare i propri bot. DuckDuckGo, ad esempio, usa DuckDuckBot per la ricerca e DuckAssistBot per l'IA. Questi sono più facili da individuare e bloccare.

Ma i grandi player come Google utilizzano scraper IA con gli stessi intervalli IP e la stessa infrastruttura dei bot di ricerca. Anthropic (Claude) non pubblica affatto gli IP, rendendo quasi impossibile verificare il traffico che dichiara di provenire da Claude. E alcune aziende saltano completamente il crawling e acquistano l'accesso ai dati raccolti da terze parti, alcune delle quali non si identificano affatto.

I bot alternano gli indirizzi IP, falsificano gli user agent e, in alcuni casi, passano completamente inosservati. Non è chiaro se ciò sia dovuto a limitazioni tecniche o a scelte progettuali, ma l'effetto è lo stesso: non è possibile bloccare ciò che non si vede.

E se ti affidi a robots.txt o a header come X-Robots-Tag, stai giocando in difesa basandoti sul principio dell'onestà.

Gli sviluppatori open source stanno già pagando il prezzo di questo fallimento. Progetti come Diaspora, Fedora, KDE e GNOME sono stati sopraffatti da bot IA che ignorano il file robots.txt, falsificano gli user-agent e ruotano gli IP per eludere il rilevamento.

La storia si ripete

Ci sono parallelismi con le guerre dei motori di ricerca dei primi anni 2000. Gli editori e i motori di ricerca coesistevano in una simbiosi instabile: gli editori avevano bisogno dei motori di ricerca per indirizzare il traffico, mentre i motori di ricerca avevano bisogno degli editori per fornire loro contenuti da indicizzare.

Ma i motori di ricerca vogliono mantenere gli utenti sulle proprie pagine per mostrare loro più annunci, quindi adottano strategie come la visualizzazione dei risultati in linea. Gli editori ovviamente vogliono che quegli stessi visitatori accedano direttamente ai loro siti in modo da poter mostrare LORO gli annunci pubblicitari.

Quindi c'è una tensione nervosa tra le due parti: i siti fanno di tutto per attirare i motori di ricerca, ad esempio eseguendo operazioni di SEO e iscrivendosi a programmi come sitemap.xml e AMP. Ma vivono anche nella paura di essere declassati dall'ONNIPOTENTE ALGORITMO. Le carriere delle persone sono state determinate dal Google Dance, la rivalutazione periodica del loro indice PageRank.

Attualmente stiamo assistendo a una ripetizione di questo fenomeno. I crawler IA necessitano di contenuti per sviluppare i propri modelli e potenziare le loro query RAG, mentre gli editori desiderano ottenere più traffico (o denaro).

Quindi cosa si può fare?

È qui che entra in gioco il controllo edge.

A differenza di robots.txt, che si colloca educatamente al livello di applicazione, strumenti edge come Next-Gen WAF di Fastly operano al livello di rete. Ispezionano il traffico in tempo reale, esaminando le stringhe user-agent, gli intervalli IP noti, i modelli di richiesta e il comportamento, per poi agire istantaneamente.

Come già accennato, stiamo lavorando con una serie di standard aperti quali RSL, IAB e IETF e dialogando con fornitori quali Supertab, Scalepost e Skyfire. Stiamo inoltre valutando la proposta Web Bot Auth W3C presentata da Cloudflare e abbiamo avviato una collaborazione con Tollbit, un sistema di paywall progettato specificamente per i bot. L'integrazione di TollBit significa che non devi solo bloccare i bot IA, ma puoi anche addebitare loro un costo. Alla fine di luglio abbiamo partecipato alla riunione dell'IAB su questo argomento insieme ai rappresentanti di Google, Meta, Cloudflare, Dot Dash Meredith, diversi editori e molti altri, sostenendo la necessità di trasparenza, responsabilità e applicazione effettiva delle norme.

Una soluzione è quella di imporre il pagamento. E se le tattiche bloccanti o addirittura offensive dei bot, come labirinti di contenuti generati casualmente, proof of work o generatori senza senso, rappresentano il bastone, allora esiste anche la possibilità della carota. Gli editori forniscono API di alta qualità ai crawler, facili da accedere e incrociare, contrassegnate semanticamente, in cambio di un comportamento migliore dei bot, diritti di licenza o attribuzione?

Si tratta di una corsa agli armamenti che si svolge su più livelli: non solo tra fornitori di siti e crawler, ma anche tra governi. L'attuale amministrazione statunitense ha dichiarato pubblicamente che, per ora, non si aspetta che i crawler paghino per i contenuti. Ma l'Europa potrebbe adottare un approccio diverso, introducendo eventualmente una regolamentazione che imponga un indennizzo.

Ciò condannerà le startup di IA e le piattaforme di contenuti europee o spingerà più editori a ospitare i propri contenuti in Europa, affidandosi alle Reti di distribuzione dei contenuti per gestire la latenza? Dovremo aspettare e vedere.

Noi di Fastly non cerchiamo solo di offrire ai nostri clienti la possibilità di scegliere in modo da poter soddisfare le LORO esigenze, ma anche di promuovere un ecosistema solido e aperto, senza centralizzare tutto attraverso di noi.

A differenza dei file di testo statici e dei meta tag, le difese a livello di edge possono effettivamente imporre decisioni, non solo suggerirle. Sono perfette? No. Anche il sistema di Fastly non è in grado di distinguere tra i bot IA che ignorano il file robots.txt e quelli che lo seguono. Questo rimane ancora un problema irrisolto. Ma in termini di controllo programmabile e attuabile? L'edge offre agli editori la soluzione migliore.

E a differenza dei concorrenti che evitano tranquillamente di affrontare il problema di Google, Fastly è chiaro sulle limitazioni. Non esiste una soluzione miracolosa per l'IA di Google, ma possiamo fornirti gli strumenti per decidere cosa vuoi fare.

Scarica il report Threat Insights Report del secondo trimestre 2025 di Fastly per esplorare come il traffico dei bot IA si sta evolvendo nei diversi settori e cosa possono fare i proprietari dei siti a riguardo.

Robots.txt: Un suggerimento, non uno scudo

Perché bloccare l'IA è più difficile di quanto sembri

La storia si ripete

Quindi cosa si può fare?

Pronto per iniziare?