Bringen Sie Ihrer robots.txt einen neuen Trick bei (für KI)

Senior Security Strategist, Fastly

16. September 2025

CDN und Auslieferung Security DevOps Entwicklung

Zeit für ein schnelles robots.txt-Tuning! 🤖

Hey Leute, wann haben Sie das letzte Mal Ihre robots.txt -Datei überprüft? Apple und Google trainieren ihre neue KI mit der riesigen Menge an Informationen, die im Web verfügbar sind, und haben uns neue Möglichkeiten gegeben, die Kontrolle darüber zu haben, ob unsere Inhalte zu diesem Zweck verwendet werden.

Worum geht es beim Buzz?

Kürzlich haben sowohl Google als auch Apple neue User-Agenten eingeführt, die darauf abzielen, ihre KI-Produkte und -Funktionen zu verbessern.

Google-Extended: Dies ist kein neuer Crawler, sondern eine spezielle Anweisung, die Sie Ihrer robots.txt-Datei hinzufügen können. Es teilt Google mit, Ihre Inhalte nicht zur Schulung ihrer KI-Modelle, einschließlich Gemini, zu verwenden. Das reguläre Suchranking Ihrer Website wird nicht beeinträchtigt.
Applebot-Extended: Ähnlich wie der neue Agent von Google ermöglicht Ihnen dieser Bot von Apple, das Verwenden Ihrer Inhalte zur Schulung von Apples KI zu verhindern, die Funktionen wie Apple Intelligence unterstützt. Wenn Sie dies nicht zulassen, wird Ihre Website nicht aus den Suchergebnissen von Apple entfernt.

Warum Sie Ihre robots.txt aktualisieren sollten

Der Hauptgrund ist Kontrolle. Indem Sie Ihrer robots.txt-Datei ein paar Zeilen hinzufügen, können Sie entscheiden, ob der Inhalt Ihrer Website Teil der Trainingsdaten für diese großen Sprachmodelle sein soll. Wenn Sie Inhalte besitzen, die Sie als wertvolles geistiges Eigentum ansehen, dann ist dieses Update für Sie gedacht.

Die Anleitung: Einfaches Kopieren und Einfügen

Es ist ganz einfach: Fügen Sie Ihrer robots.txt-Datei Folgendes hinzu:

So blockieren Sie das KI-Training von Google:

User-agent: Google-Extended
Disallow: /

So blockieren Sie das KI-Training von Apple:

User-agent: Applebot-Extended
Disallow: /

Sie können diese Blöcke zu Ihrer bestehenden Datei robots.txt hinzufügen.

Der Grund, warum diese Änderungen in der Datei robots.txt erforderlich sind, ist, dass die Quelle für den Traffic und der user-agent mit den Crawlern identisch sind. Hier ist das Zitat aus der Dokumentation von Google.

„Google-Extended hat keinen separaten User-Agent-String für HTTP-Anforderungen. Das Crawling erfolgt mit den vorhandenen Google-User-Agent-Strings; das robots.txt User-Agent-Token wird zu Kontrollzwecken verwendet.“

Nehmen Sie sich also heute ein paar Minuten Zeit, um Ihre robots.txt-Datei zu überprüfen und zu aktualisieren. Es ist eine kleine Änderung, die Ihnen mehr Einfluss darauf gibt, wie Ihre Inhalte für das Training von KI verwendet werden. Falls Sie keine robots.txt-Datei haben oder diese Datei näher an Ihre Endnutzer bringen möchten, können Sie ganz einfach mit Fastly eine robots.txt-Datei erstellen.

Während Google und Apple so freundlich waren, Ihnen zu helfen, die Kontrolle darüber zu behalten, wie sie auf Ihre Inhalte zugreifen, gibt es Dutzende von Crawlern, Fetchern und anderen Bots, die wahrscheinlich auf Ihre Inhalte zugreifen und für die es nicht so einfach ist, eine Lösung zu finden. Für mehr Transparenz bei Bots (einschließlich KI-Bots), die möglicherweise verifiziert werden können, sowie bei solchen, die nicht leicht verifiziert werden können, besuchen Sie Fastly Bot Management.

Hier sind die Quellen, falls Sie die Informationen selbst überprüfen möchten.