KI-Crawler-Zugriffstester: Derselbe Test, den Lumos wöchentlich auf jeder Seite ausführt

Bot-Zugriffstest in Echtzeit — derselbe, den Lumos wöchentlich auf deiner gesamten Website ausführt.

Von Team Lumos · 15. Mai 2026

Warum der Crawler-Zugriff das erste GEO-Tor ist

Bevor KI-Engines deine Seite zitieren können, müssen sie sie lesen. ChatGPT, Claude, Gemini und Perplexity schicken Crawler — jeder mit eigener User-Agent-Kennung und eigenem Zweck — und jeder prüft deine robots.txt, bevor er Inhalte holt. Sperrst du sie dort, zählt nichts anderes mehr: weder dein Schema, noch deine llms.txt, noch die Qualität deines Textes. Du bist unsichtbar.

In unserem 2026er Audit von 1.000 Mid-Market-Sites blockierten 41% mindestens einen der 13 großen KI-Crawler — fast immer versehentlich. Die üblichen Verdächtigen: ein User-agent: * Disallow: / aus einer Staging-Phase, ein standardmäßig aktivierter Bot-Protection-Toggle in Cloudflare oder ein CMS-Plugin, das die Site „abgesichert" hat, ohne dass jemand bemerkte, dass die KI-Bots im Netz hingen.

Die 13 KI-Crawler, die dieses Tool prüft

Jeder Bot hat eine spezifische Rolle. Manche Sites sollten alle zulassen, andere können legitim einen Teil blockieren:

GPTBot — OpenAIs Trainings-Crawler. Liest Seiten zum Training künftiger GPT-Modelle. Blockieren bedeutet Opt-out vom Training, beeinflusst ChatGPT-Zitationen aber nicht.
OAI-SearchBot — ChatGPTs Echtzeit-Such-Crawler. Der hier macht dich in ChatGPT-Antworten zitierbar. Muss für ChatGPT-Sichtbarkeit erlaubt sein.
ChatGPT-User — feuert, wenn ein ChatGPT-Nutzer einen Link in einer Antwort anklickt. Erlauben ist praktisch Pflicht.
ClaudeBot — Anthropics Haupt-Crawler für Claude, inklusive Echtzeit-Antworten von Claude.ai.
anthropic-ai — Anthropics Trainings-Crawler (getrennt von ClaudeBot).
Claude-Web — User-Agent, den Claude nutzt, wenn er eine Seite im Auftrag eines Nutzers besucht.
PerplexityBot — Perplexitys Haupt-Crawler. Muss erlaubt sein, um in Perplexity-Antworten aufzutauchen.
Perplexity-User — feuert, wenn ein Perplexity-Nutzer einen Link anklickt.
Google-Extended — Googles Trainings-Opt-out-Flag für Gemini. Blockieren = Opt-out vom Training, blockt aber AI Overviews nicht (die nutzen Googlebot).
Googlebot — klassisches Google + Quelle für AI Overviews und Bard-/Gemini-Echtzeitantworten.
Applebot-Extended — Trainings-Opt-out für Apple Intelligence.
Bingbot — Bing + Copilot. Muss für Copilot-Zitationen erlaubt sein.
Bytespider — TikTok-/Doubao-Trainings-Crawler. Optional; viele westliche Marken blockieren ihn.

Wie gute Ergebnisse aussehen

Eine GEO-optimierte Site zeigt alle 13 Bots auf dem Root-Pfad als Erlaubt an. Ausnahmen:

Manche Marken blockieren bewusst GPTBot, anthropic-ai, Google-Extended und Applebot-Extended (Training-only) und behalten die Echtzeit-Bots (OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Googlebot, Bingbot) zugelassen. Das ist das Muster „Opt-out vom Training, Opt-in zur Zitation".
Manche blockieren Bytespider, um das TikTok-Training auszuschließen, ohne westliche KI-Engines zu treffen.

Steht überall Erlaubt, ist das erste Tor genommen. Stehen Blockaden drin, behebe sie — die nächsten Abschnitte zeigen wie.

Häufige Fehler

Versehentliches Blockieren via User-agent: * Disallow. Ein pauschales Disallow erwischt alle Bots, KI-Crawler eingeschlossen. Setze explizite Allow-Regeln für die KI-User-Agents oben.

GPTBot blockieren, aber nicht OAI-SearchBot. Häufiges Muster, aber sei dir der Absicht sicher. Geht es dir um ChatGPT-Sichtbarkeit, zählt OAI-SearchBot — GPTBot betrifft nur Training.

Cloudflare-KI-Bot-Schalter. Das Cloudflare-Dashboard hat 2024 einen Schalter „KI-Bots blockieren" eingeführt, der bei neuen Sites standardmäßig AN ist. Deine robots.txt kann Allow sagen — Cloudflare antwortet trotzdem mit 403.

robots.txt als HTML oder hinter Auth ausliefern. Beides bringt KI-Crawler zum Aufgeben. Erzwinge text/plain und öffentlichen Zugriff.

Veraltete Regeln. Eine robots.txt von 2018 nennt keinen der KI-User-Agents aus 2023-2024. Default-Allow rettet meist, generische Blocks erwischen sie aber trotzdem.

Dem Ergebnis für nur einen Pfad vertrauen. Dieser Tester prüft den Root (/). Hast du KI-Bots auf /blog oder /docs gesperrt, musst du diese Pfade ebenfalls testen — dort wohnt meist dein zitierfähigster Inhalt.

Nach dem Test

Wenn alle 13 als Erlaubt erscheinen: du hast die robots.txt-Ebene für die Wurzel bestanden. Weiter zu Schema, Citability und Per-Pfad-Checks.
Wenn einer Blockiert ist: bearbeite deine robots.txt und füge explizite Allow:-Regeln für die blockierten User-Agents hinzu, dann führe diesen Tester erneut aus.
Wenn dein CDN oder WAF blockiert, obwohl robots.txt erlaubt: prüfe Cloudflare → Sicherheit → Bots → „AI Scrapers and Crawlers"; in Akamai/Imperva suche nach Bot-Management-Regeln mit „AI" oder „scraper".
Kombiniere mit dem Citability-Checker pro Seite — Zugriff ist notwendig, aber nicht ausreichend.

Was Lumos kontinuierlich macht (vs dieser einmalige Test)

Diese Seite testet deine Wurzel auf Anfrage. Nützlich, aber ein Schnappschuss. Die Lumos-Plattform nimmt denselben Test und macht daraus kontinuierliche Infrastruktur:

Jede URL deiner Website, nicht nur /. Hier wird / geprüft. Lumos führt den 13-Bot-Test auf jeder URL aus, die es entdeckt — Blogposts, Produktseiten, Docs, alles aus der Sitemap. Da verstecken sich die Regressionen: /blog blockiert, während / offen bleibt.
Wöchentlich, nicht wenn du dran denkst. Konfigurationen driften. Ein CMS-Plugin aktualisiert sich, ein Cloudflare-Toggle springt an, ein Content-Team fügt eine Regel hinzu. Lumos führt den vollen Test jede Woche aus, damit du die Änderung in Tagen statt Quartalen siehst.
Alarme am selben Tag. Wenn einer der 13 Bots von Erlaubt zu Blockiert wechselt, schickt Lumos einen Alarm mit dem Diff — welcher Bot, welche Pfade, was sich in robots.txt oder der Netzwerkantwort geändert hat. Schluss mit „uns ist aufgefallen, dass der ChatGPT-Traffic vor drei Monaten gefallen ist".
robots.txt + Netzwerkebene in einem Bericht. Dieses eigenständige Tool prüft nur robots.txt. Die Lumos-Plattform ruft jede URL auch als jeden User-Agent ab und meldet die tatsächliche HTTP-Antwort — so erscheinen Cloudflare-403s und WAF-Blockaden neben den robots.txt-Regeln.
Verknüpft mit deinen Zitations- und Sichtbarkeitsdaten. Wenn ein Bot blockiert wird, korreliert Lumos den Tag mit deinem Sichtbarkeitsscore in dieser Engine — du siehst die geschäftliche Wirkung, nicht nur das technische Ereignis.

Dieses eigenständige Tool ist dieselbe Logik, einmal an der Wurzel ausgeführt. Für die kontinuierliche, Per-URL-, alarmierte Version ist die Lumos-Plattform gebaut.

41%

der Sites blockieren mindestens einen KI-Crawler

Lumos Research 2026

von diesem Tool geprüfte KI-Crawler

Lumos

How it works

1
Domain eingeben
Füge deine vollständige Domain ein (z.B. deinemarke.com). Kein Pfad nötig.
2
Auf Testen klicken
Wir holen /robots.txt und werten 13 KI-User-Agents gegen den Root-Pfad aus.
3
Ergebnisse prüfen
Jeder Bot wird als Erlaubt, Blockiert oder Teilweise gemeldet. Vertiefe die Regeln pro Bot.
4
Blockaden beheben
Nutze unseren robots.txt-Generator für KI, um eine korrigierte Datei zu erzeugen, und teste erneut.

FAQ

Was prüft dieses Tool?

Es ruft deine robots.txt ab und testet 13 KI-User-Agents dagegen — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot und Bytespider. Jeder wird als Erlaubt oder Blockiert gemeldet. Die Lumos-Plattform führt denselben Test aus, aber kontinuierlich auf jeder Seite deiner Website — nicht nur einmal an der Wurzel.

Wie vergleicht sich das mit dem, was Lumos kontinuierlich macht?

Dieser einmalige Test prüft deinen Wurzelpfad auf Anfrage. Die Lumos-Plattform führt denselben 13-Bot-Test wöchentlich auf jeder URL deiner Website aus, beobachtet Änderungen und warnt dich am Tag, an dem ein Bot blockiert wird — auch wenn ein Cloudflare-Toggle oder CMS-Plugin die Regeln still ändert. Gleicher Test, volle Abdeckung, immer aktiv.

Reicht 'unblockiert' aus, um zitiert zu werden?

Nein. Zugriff ist notwendig, aber nicht ausreichend. KI-Engines brauchen auch zitierbaren Content: klare Antworten, Schema-Markup, frische Daten, autoritative Autorenschaft. Die Lumos-Plattform paart kontinuierliches Bot-Monitoring mit Citability-Scoring pro Seite — du siehst das ganze Bild.

Was ist mit Blockierung auf Cloudflare- oder WAF-Ebene?

robots.txt ist eine Schicht. Cloudflares KI-Bot-Toggle, Akamai Bot Manager oder eigene WAF-Regeln können KI-Crawler blockieren, auch wenn robots.txt sie erlaubt. Lumos' bezahlte Plattform prüft beide Schichten kontinuierlich — robots.txt + tatsächliche HTTP-Antwort pro User-Agent.

Warum zeigen manche Bots 'partial'?

Manche User-Agents haben nuancierte Regeln — z. B. erlaubt eine Site GPTBot auf /, aber blockiert /api oder /admin. Wir melden Allow / Block / Partial, damit du weißt, ob die Tore weit offen sind oder nur die Homepage. Die Lumos-Plattform erweitert das, indem sie jeden Pfad deiner Site prüft, nicht nur die Wurzel.

Überwacht Lumos das kontinuierlich?

Ja — die Lumos-Plattform führt diese Prüfung wöchentlich auf jeder URL aus und warnt dich am Tag, an dem ein Bot blockiert wird. Dieses eigenständige Tool ist die einmalige Nur-Wurzel-Version. Verbinde deine Site mit Lumos für kontinuierliche Abdeckung.

Weiterführende Lektüre

GEO: Das SEO der KI-Ära — Ihre Marke in ChatGPT und Gemini überwachen

Generative Engine Optimization (GEO): Lernen Sie, wie ChatGPT und Gemini über Ihre Marke sprechen — mit Metriken, Kriterien und einem 30-Tage-Pilot.

Was sagt ChatGPT über Ihr Unternehmen? KI-Sichtbarkeit prüfen

Die meisten Unternehmen wissen nicht, was ChatGPT, Gemini oder Perplexity über sie sagen. Prüfen Sie Ihre KI-Sichtbarkeit, bevor Probleme Kunden kosten.

Was ist GEO? Ein vollständiger Leitfaden zur Generative Engine Optimization

GEO (Generative Engine Optimization) optimiert Ihre Marke für die Nennung in ChatGPT, Gemini und Perplexity. Alles, was Sie wissen müssen.