Lumos
Créer un compte

Testeur d'accès des crawlers IA: Le même test que Lumos exécute chaque semaine sur chaque page

Test d'accès des bots en temps réel — le même que Lumos exécute chaque semaine sur tout votre site.

Par Équipe Lumos · 15 mai 2026

Pourquoi l'accès des crawlers est la première porte du GEO

Avant qu'un moteur IA puisse citer votre page, il doit la lire. ChatGPT, Claude, Gemini et Perplexity envoient des crawlers — chacun avec son user-agent et son rôle — et tous consultent votre robots.txt avant de récupérer le contenu. Si vous les bloquez là, rien d'autre ne compte : ni votre schema, ni votre llms.txt, ni la qualité de votre prose. Vous êtes invisible.

Dans notre audit 2026 de 1 000 sites mid-market, 41% bloquaient au moins un des 13 grands crawlers IA, presque toujours par accident. Coupables habituels : un User-agent: * Disallow: / hérité d'un staging, un toggle de protection bots de Cloudflare activé par défaut, ou un plugin CMS qui a « sécurisé » le site sans que personne ne remarque que les bots IA étaient pris dans le filet.

Les 13 crawlers IA que vérifie cet outil

Chaque bot a un rôle précis. Certains sites devraient tous les autoriser, d'autres peuvent légitimement en bloquer une partie :

  • GPTBot — crawler d'entraĂ®nement d'OpenAI. Lit les pages pour entraĂ®ner les futurs modèles GPT. Le bloquer vous exclut de l'entraĂ®nement mais n'affecte pas les citations dans ChatGPT.
  • OAI-SearchBot — crawler temps rĂ©el de ChatGPT. C'est celui qui vous rend citable dans les rĂ©ponses ChatGPT. Doit ĂŞtre autorisĂ© pour la visibilitĂ© ChatGPT.
  • ChatGPT-User — se dĂ©clenche quand un utilisateur ChatGPT clique sur un lien dans une rĂ©ponse. L'autoriser est quasi obligatoire.
  • ClaudeBot — crawler principal d'Anthropic pour Claude, y compris les rĂ©ponses temps rĂ©el de Claude.ai.
  • anthropic-ai — crawler d'entraĂ®nement d'Anthropic (distinct de ClaudeBot).
  • Claude-Web — user-agent que Claude utilise quand il visite une page pour le compte d'un utilisateur.
  • PerplexityBot — crawler principal de Perplexity. Doit ĂŞtre autorisĂ© pour apparaĂ®tre dans les rĂ©ponses Perplexity.
  • Perplexity-User — se dĂ©clenche quand un utilisateur Perplexity clique sur un lien.
  • Google-Extended — flag d'opt-out d'entraĂ®nement pour Gemini. Le bloquer vous exclut de l'entraĂ®nement mais ne bloque pas les AI Overviews (qui utilisent Googlebot).
  • Googlebot — Google classique + alimente AI Overviews et les rĂ©ponses temps rĂ©el de Bard/Gemini.
  • Applebot-Extended — opt-out d'entraĂ®nement d'Apple Intelligence.
  • Bingbot — Bing + Copilot. Doit ĂŞtre autorisĂ© pour les citations Copilot.
  • Bytespider — crawler d'entraĂ®nement TikTok / Doubao. Optionnel ; beaucoup de marques occidentales choisissent de le bloquer.

À quoi ressemble un bon résultat

Un site optimisé pour le GEO affiche les 13 bots en Autorisé sur le chemin racine. Exceptions :

  • Certaines marques bloquent intentionnellement GPTBot, anthropic-ai, Google-Extended et Applebot-Extended (entraĂ®nement uniquement) tout en gardant ceux en temps rĂ©el (OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Googlebot, Bingbot) autorisĂ©s. C'est le pattern « opt-out entraĂ®nement, opt-in citation ».
  • Certaines bloquent Bytespider pour Ă©viter l'entraĂ®nement TikTok sans affecter les moteurs occidentaux.

Si vous voyez Autorisé partout, vous avez passé la première porte. Si vous voyez des blocages, corrigez — les sections suivantes expliquent comment.

Erreurs courantes

Bloquer par accident via User-agent: * Disallow. Un disallow global attrape tous les bots, IA compris. Ajoutez des règles Allow explicites pour les user-agents IA.

Bloquer GPTBot mais pas OAI-SearchBot. Pattern courant, mais soyez sûr de votre intention. Si l'objectif est la visibilité ChatGPT, c'est OAI-SearchBot qui compte — GPTBot ne touche que l'entraînement.

Toggle bots IA Cloudflare. Le tableau de bord Cloudflare a ajouté en 2024 un toggle « Bloquer les bots IA » activé par défaut sur les nouveaux sites. Votre robots.txt aura beau tout autoriser — Cloudflare renverra quand même 403.

Servir robots.txt en HTML ou derrière une auth. Les deux font abandonner les crawlers IA. Forcez text/plain et l'accès public.

Règles obsolètes. Un robots.txt de 2018 ne mentionne pas les user-agents IA apparus en 2023-2024. Le comportement default-allow vous sauve souvent, mais des disallow génériques peuvent les attraper.

Faire confiance au résultat sur un seul chemin. Ce testeur vérifie la racine (/). Si vous avez bloqué des bots IA sur /blog ou /docs, il faut tester aussi ces chemins — c'est souvent là que vit votre contenu le plus citable.

Après le test

  1. Si les 13 sont Autorisés : vous avez franchi la couche robots.txt à la racine. Passez au schema, à la citabilité et aux vérifications par chemin.
  2. Si un est Bloqué : modifiez votre robots.txt pour ajouter des règles Allow: explicites pour les user-agents bloqués, puis relancez ce testeur.
  3. Si votre CDN ou WAF bloque malgré l'autorisation par robots.txt : vérifiez Cloudflare → Sécurité → Bots → « AI Scrapers and Crawlers » ; sur Akamai/Imperva, cherchez les règles de bot management étiquetées « AI » ou « scraper ».
  4. Combinez avec le Vérificateur de citabilité par page — l'accès est nécessaire, pas suffisant.

Ce que Lumos fait en continu (vs ce test ponctuel)

Cette page teste votre racine Ă  la demande. Utile, mais c'est une photo. La plateforme Lumos prend le mĂŞme test et en fait une infrastructure continue :

  • Chaque URL de votre site, pas seulement /. Ici on teste /. Lumos exĂ©cute le test des 13 bots sur chaque URL qu'il dĂ©couvre — articles, fiches produit, docs, tout ce qui est dans le sitemap. C'est lĂ  que les rĂ©gressions se cachent : /blog bloquĂ© pendant que / reste ouvert.
  • Chaque semaine, pas quand vous y pensez. Les configurations dĂ©rivent. Un plugin CMS se met Ă  jour, un toggle Cloudflare s'active, une Ă©quipe contenu ajoute une règle. Lumos relance le test complet chaque semaine pour que vous repĂ©riez le changement en jours, pas en trimestres.
  • Alertes le jour mĂŞme. Quand l'un des 13 bots passe d'AutorisĂ© Ă  BloquĂ©, Lumos envoie une alerte avec le diff — quel bot, quels chemins, ce qui a changĂ© dans robots.txt ou dans la rĂ©ponse rĂ©seau. Fini le « on a remarquĂ© que le trafic ChatGPT a baissĂ© il y a trois mois ».
  • robots.txt + couche rĂ©seau dans un seul rapport. Cet outil autonome n'inspecte que robots.txt. La plateforme Lumos rĂ©cupère aussi chaque URL en tant que chaque user-agent et rapporte la vraie rĂ©ponse HTTP — les 403 Cloudflare et blocages WAF apparaissent Ă  cĂ´tĂ© des règles robots.txt.
  • LiĂ© Ă  vos donnĂ©es de citation et de visibilitĂ©. Quand un bot est bloquĂ©, Lumos corrèle le jour avec votre score de visibilitĂ© sur ce moteur — pour que vous voyiez l'impact mĂ©tier, pas seulement l'Ă©vĂ©nement technique.

Cet outil autonome, c'est la même logique exécutée une fois à la racine. Pour la version continue, par URL et avec alertes, la plateforme Lumos est faite pour ça.

41%

des sites bloquent au moins un crawler IA

Recherche Lumos 2026

13

crawlers IA vérifiés par cet outil

Lumos

How it works

  1. 1

    Saisissez votre domaine

    Collez votre domaine complet (par ex. votremarque.com). Sans chemin.

  2. 2

    Cliquez sur Tester

    Nous récupérons /robots.txt et évaluons 13 user-agents IA contre le chemin racine.

  3. 3

    Examinez les résultats

    Chaque bot est rapporté Autorisé, Bloqué ou Partiel. Détaillez les règles par bot.

  4. 4

    Corrigez les blocages

    Utilisez notre Générateur de robots.txt pour IA pour produire un fichier corrigé, puis retestez.

FAQ

Que vérifie cet outil ?

Il récupère votre robots.txt et teste 13 user-agents IA contre celui-ci — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot et Bytespider. Chacun est rapporté comme Autorisé ou Bloqué. La plateforme Lumos exécute le même test, mais en continu sur chaque page de votre site — pas seulement une fois à la racine.

Comment cela se compare Ă  ce que fait Lumos en continu ?

Ce test ponctuel vérifie votre racine à la demande. La plateforme Lumos exécute le même test de 13 bots chaque semaine sur chaque URL de votre site, surveille les changements et vous alerte le jour où un bot passe à bloqué — y compris lorsqu'un toggle Cloudflare ou un plugin CMS modifie les règles silencieusement. Même test, couverture complète, toujours actif.

Être débloqué suffit-il à être cité ?

Non. L'accès est nécessaire mais pas suffisant. Les moteurs IA exigent aussi un contenu citable : réponses claires, schema markup, dates récentes, autorité éditoriale. La plateforme Lumos combine monitoring bot continu et scoring de citabilité par page pour la vue complète.

Et le blocage par Cloudflare ou WAF au niveau réseau ?

robots.txt n'est qu'une couche. Le toggle bots IA de Cloudflare, Akamai bot manager ou des règles WAF personnalisées peuvent bloquer les crawlers IA même si robots.txt les autorise. La plateforme payante de Lumos surveille les deux couches en continu — robots.txt + réponse HTTP réelle par user-agent.

Pourquoi certains bots affichent 'partiel' ?

Certains user-agents ont des règles nuancées — ex. un site autorise GPTBot sur / mais bloque /api ou /admin. Nous rapportons Autorisé / Bloqué / Partiel pour que vous sachiez si les portes sont grandes ouvertes ou seulement la home. La plateforme Lumos étend cela en vérifiant chaque chemin de votre site, pas que la racine.

Lumos surveille-t-il cela en continu ?

Oui — la plateforme Lumos exécute cette vérification chaque semaine sur chaque URL et vous alerte le jour où un bot est bloqué. Cet outil autonome est la version ponctuelle, racine seulement. Connectez votre site à Lumos pour une couverture continue.

Outils associés

48-Hour AI Visibility Audit Report

Full audit covering bot access, schema, page citability — delivered in 48 hours.

Lectures associées

GEO : le SEO de l'ère de l'IA — surveiller votre marque dans ChatGPT et Gemini

Generative Engine Optimization (GEO) : surveillez comment ChatGPT et Gemini parlent de votre marque avec métriques, critères et un pilote de 30 jours.

Que dit ChatGPT de votre entreprise ? Auditez votre visibilité IA

La plupart des entreprises ignorent ce que ChatGPT, Gemini ou Perplexity disent d'elles. Auditez votre visibilité IA avant que cela ne coûte des clients.

Qu'est-ce que le GEO ? Guide complet sur la Generative Engine Optimization

Le GEO (Generative Engine Optimization) optimise votre marque pour apparaître dans les réponses de ChatGPT, Gemini et Perplexity. Tout ce qu'il faut savoir.

Testeur d'accès des crawlers IA: Le même test que Lumos exécute chaque semaine sur chaque page