Testeur d'accès des crawlers IA: Le même test que Lumos exécute chaque semaine sur chaque page
Test d'accès des bots en temps réel — le même que Lumos exécute chaque semaine sur tout votre site.
Par Équipe Lumos · 15 mai 2026
Pourquoi l'accès des crawlers est la première porte du GEO
Avant qu'un moteur IA puisse citer votre page, il doit la lire. ChatGPT, Claude, Gemini et Perplexity envoient des crawlers — chacun avec son user-agent et son rôle — et tous consultent votre robots.txt avant de récupérer le contenu. Si vous les bloquez là , rien d'autre ne compte : ni votre schema, ni votre llms.txt, ni la qualité de votre prose. Vous êtes invisible.
Dans notre audit 2026 de 1 000 sites mid-market, 41% bloquaient au moins un des 13 grands crawlers IA, presque toujours par accident. Coupables habituels : un User-agent: * Disallow: / hérité d'un staging, un toggle de protection bots de Cloudflare activé par défaut, ou un plugin CMS qui a « sécurisé » le site sans que personne ne remarque que les bots IA étaient pris dans le filet.
Les 13 crawlers IA que vérifie cet outil
Chaque bot a un rôle précis. Certains sites devraient tous les autoriser, d'autres peuvent légitimement en bloquer une partie :
GPTBot— crawler d'entraînement d'OpenAI. Lit les pages pour entraîner les futurs modèles GPT. Le bloquer vous exclut de l'entraînement mais n'affecte pas les citations dans ChatGPT.OAI-SearchBot— crawler temps réel de ChatGPT. C'est celui qui vous rend citable dans les réponses ChatGPT. Doit être autorisé pour la visibilité ChatGPT.ChatGPT-User— se déclenche quand un utilisateur ChatGPT clique sur un lien dans une réponse. L'autoriser est quasi obligatoire.ClaudeBot— crawler principal d'Anthropic pour Claude, y compris les réponses temps réel de Claude.ai.anthropic-ai— crawler d'entraînement d'Anthropic (distinct de ClaudeBot).Claude-Web— user-agent que Claude utilise quand il visite une page pour le compte d'un utilisateur.PerplexityBot— crawler principal de Perplexity. Doit être autorisé pour apparaître dans les réponses Perplexity.Perplexity-User— se déclenche quand un utilisateur Perplexity clique sur un lien.Google-Extended— flag d'opt-out d'entraînement pour Gemini. Le bloquer vous exclut de l'entraînement mais ne bloque pas les AI Overviews (qui utilisent Googlebot).Googlebot— Google classique + alimente AI Overviews et les réponses temps réel de Bard/Gemini.Applebot-Extended— opt-out d'entraînement d'Apple Intelligence.Bingbot— Bing + Copilot. Doit être autorisé pour les citations Copilot.Bytespider— crawler d'entraînement TikTok / Doubao. Optionnel ; beaucoup de marques occidentales choisissent de le bloquer.
À quoi ressemble un bon résultat
Un site optimisé pour le GEO affiche les 13 bots en Autorisé sur le chemin racine. Exceptions :
- Certaines marques bloquent intentionnellement
GPTBot,anthropic-ai,Google-ExtendedetApplebot-Extended(entraînement uniquement) tout en gardant ceux en temps réel (OAI-SearchBot,ChatGPT-User,ClaudeBot,PerplexityBot,Googlebot,Bingbot) autorisés. C'est le pattern « opt-out entraînement, opt-in citation ». - Certaines bloquent
Bytespiderpour éviter l'entraînement TikTok sans affecter les moteurs occidentaux.
Si vous voyez Autorisé partout, vous avez passé la première porte. Si vous voyez des blocages, corrigez — les sections suivantes expliquent comment.
Erreurs courantes
Bloquer par accident via User-agent: * Disallow. Un disallow global attrape tous les bots, IA compris. Ajoutez des règles Allow explicites pour les user-agents IA.
Bloquer GPTBot mais pas OAI-SearchBot. Pattern courant, mais soyez sûr de votre intention. Si l'objectif est la visibilité ChatGPT, c'est OAI-SearchBot qui compte — GPTBot ne touche que l'entraînement.
Toggle bots IA Cloudflare. Le tableau de bord Cloudflare a ajouté en 2024 un toggle « Bloquer les bots IA » activé par défaut sur les nouveaux sites. Votre robots.txt aura beau tout autoriser — Cloudflare renverra quand même 403.
Servir robots.txt en HTML ou derrière une auth. Les deux font abandonner les crawlers IA. Forcez text/plain et l'accès public.
Règles obsolètes. Un robots.txt de 2018 ne mentionne pas les user-agents IA apparus en 2023-2024. Le comportement default-allow vous sauve souvent, mais des disallow génériques peuvent les attraper.
Faire confiance au résultat sur un seul chemin. Ce testeur vérifie la racine (/). Si vous avez bloqué des bots IA sur /blog ou /docs, il faut tester aussi ces chemins — c'est souvent là que vit votre contenu le plus citable.
Après le test
- Si les 13 sont Autorisés : vous avez franchi la couche robots.txt à la racine. Passez au schema, à la citabilité et aux vérifications par chemin.
- Si un est Bloqué : modifiez votre robots.txt pour ajouter des règles
Allow:explicites pour les user-agents bloqués, puis relancez ce testeur. - Si votre CDN ou WAF bloque malgré l'autorisation par robots.txt : vérifiez Cloudflare → Sécurité → Bots → « AI Scrapers and Crawlers » ; sur Akamai/Imperva, cherchez les règles de bot management étiquetées « AI » ou « scraper ».
- Combinez avec le Vérificateur de citabilité par page — l'accès est nécessaire, pas suffisant.
Ce que Lumos fait en continu (vs ce test ponctuel)
Cette page teste votre racine Ă la demande. Utile, mais c'est une photo. La plateforme Lumos prend le mĂŞme test et en fait une infrastructure continue :
- Chaque URL de votre site, pas seulement
/. Ici on teste/. Lumos exécute le test des 13 bots sur chaque URL qu'il découvre — articles, fiches produit, docs, tout ce qui est dans le sitemap. C'est là que les régressions se cachent :/blogbloqué pendant que/reste ouvert. - Chaque semaine, pas quand vous y pensez. Les configurations dérivent. Un plugin CMS se met à jour, un toggle Cloudflare s'active, une équipe contenu ajoute une règle. Lumos relance le test complet chaque semaine pour que vous repériez le changement en jours, pas en trimestres.
- Alertes le jour même. Quand l'un des 13 bots passe d'Autorisé à Bloqué, Lumos envoie une alerte avec le diff — quel bot, quels chemins, ce qui a changé dans robots.txt ou dans la réponse réseau. Fini le « on a remarqué que le trafic ChatGPT a baissé il y a trois mois ».
- robots.txt + couche réseau dans un seul rapport. Cet outil autonome n'inspecte que robots.txt. La plateforme Lumos récupère aussi chaque URL en tant que chaque user-agent et rapporte la vraie réponse HTTP — les 403 Cloudflare et blocages WAF apparaissent à côté des règles robots.txt.
- Lié à vos données de citation et de visibilité. Quand un bot est bloqué, Lumos corrèle le jour avec votre score de visibilité sur ce moteur — pour que vous voyiez l'impact métier, pas seulement l'événement technique.
Cet outil autonome, c'est la même logique exécutée une fois à la racine. Pour la version continue, par URL et avec alertes, la plateforme Lumos est faite pour ça.
41%
des sites bloquent au moins un crawler IA
Recherche Lumos 2026
13
crawlers IA vérifiés par cet outil
Lumos
How it works
- 1
Saisissez votre domaine
Collez votre domaine complet (par ex. votremarque.com). Sans chemin.
- 2
Cliquez sur Tester
Nous récupérons /robots.txt et évaluons 13 user-agents IA contre le chemin racine.
- 3
Examinez les résultats
Chaque bot est rapporté Autorisé, Bloqué ou Partiel. Détaillez les règles par bot.
- 4
Corrigez les blocages
Utilisez notre Générateur de robots.txt pour IA pour produire un fichier corrigé, puis retestez.
FAQ
Que vérifie cet outil ?
Il récupère votre robots.txt et teste 13 user-agents IA contre celui-ci — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot et Bytespider. Chacun est rapporté comme Autorisé ou Bloqué. La plateforme Lumos exécute le même test, mais en continu sur chaque page de votre site — pas seulement une fois à la racine.
Comment cela se compare Ă ce que fait Lumos en continu ?
Ce test ponctuel vérifie votre racine à la demande. La plateforme Lumos exécute le même test de 13 bots chaque semaine sur chaque URL de votre site, surveille les changements et vous alerte le jour où un bot passe à bloqué — y compris lorsqu'un toggle Cloudflare ou un plugin CMS modifie les règles silencieusement. Même test, couverture complète, toujours actif.
Être débloqué suffit-il à être cité ?
Non. L'accès est nécessaire mais pas suffisant. Les moteurs IA exigent aussi un contenu citable : réponses claires, schema markup, dates récentes, autorité éditoriale. La plateforme Lumos combine monitoring bot continu et scoring de citabilité par page pour la vue complète.
Et le blocage par Cloudflare ou WAF au niveau réseau ?
robots.txt n'est qu'une couche. Le toggle bots IA de Cloudflare, Akamai bot manager ou des règles WAF personnalisées peuvent bloquer les crawlers IA même si robots.txt les autorise. La plateforme payante de Lumos surveille les deux couches en continu — robots.txt + réponse HTTP réelle par user-agent.
Pourquoi certains bots affichent 'partiel' ?
Certains user-agents ont des règles nuancées — ex. un site autorise GPTBot sur / mais bloque /api ou /admin. Nous rapportons Autorisé / Bloqué / Partiel pour que vous sachiez si les portes sont grandes ouvertes ou seulement la home. La plateforme Lumos étend cela en vérifiant chaque chemin de votre site, pas que la racine.
Lumos surveille-t-il cela en continu ?
Oui — la plateforme Lumos exécute cette vérification chaque semaine sur chaque URL et vous alerte le jour où un bot est bloqué. Cet outil autonome est la version ponctuelle, racine seulement. Connectez votre site à Lumos pour une couverture continue.
Outils associés
Lectures associées
GEO : le SEO de l'ère de l'IA — surveiller votre marque dans ChatGPT et Gemini
Generative Engine Optimization (GEO) : surveillez comment ChatGPT et Gemini parlent de votre marque avec métriques, critères et un pilote de 30 jours.
Que dit ChatGPT de votre entreprise ? Auditez votre visibilité IA
La plupart des entreprises ignorent ce que ChatGPT, Gemini ou Perplexity disent d'elles. Auditez votre visibilité IA avant que cela ne coûte des clients.
Qu'est-ce que le GEO ? Guide complet sur la Generative Engine Optimization
Le GEO (Generative Engine Optimization) optimise votre marque pour apparaître dans les réponses de ChatGPT, Gemini et Perplexity. Tout ce qu'il faut savoir.