Lumos
Criar conta

Teste de acesso de crawlers IA: O mesmo que a Lumos roda em cada página semanalmente

Teste de acesso de bots em tempo real — o mesmo que a Lumos roda semanalmente em todo o seu site.

Por Equipe Lumos · 15 de maio de 2026

Por que o acesso de rastreadores Ă© o primeiro portĂŁo do GEO

Antes que motores IA possam citar sua página, eles precisam lê-la. ChatGPT, Claude, Gemini e Perplexity despacham rastreadores — cada um com seu user-agent e propósito — e todos consultam seu robots.txt antes de buscar conteúdo. Bloqueie-os ali e nada mais importa: nem seu schema, nem seu llms.txt, nem a qualidade do texto. Você fica invisível.

Em nossa auditoria 2026 de 1.000 sites mid-market, 41% bloqueavam ao menos um dos 13 grandes rastreadores IA, quase sempre por acidente. Suspeitos de sempre: um User-agent: * Disallow: / herdado de um staging, o toggle de proteção contra bots do Cloudflare ligado por padrão ou um plugin de CMS que "protegeu" o site sem ninguém perceber que os bots IA ficaram presos.

Os 13 rastreadores IA que esta ferramenta verifica

Cada bot tem um papel especĂ­fico. Alguns sites devem permitir todos; outros podem legitimamente bloquear um subconjunto:

  • GPTBot — rastreador de treino da OpenAI. LĂŞ páginas para treinar futuros modelos GPT. Bloqueá-lo te exclui do treino, mas nĂŁo afeta citações no ChatGPT.
  • OAI-SearchBot — rastreador em tempo real do ChatGPT. É ele que te torna citável nas respostas do ChatGPT. Precisa estar permitido para visibilidade no ChatGPT.
  • ChatGPT-User — dispara quando um usuário do ChatGPT clica num link dentro de uma resposta. Permitir Ă© praticamente obrigatĂłrio.
  • ClaudeBot — rastreador principal da Anthropic para Claude, incluindo respostas em tempo real do Claude.ai.
  • anthropic-ai — rastreador de treino da Anthropic (separado do ClaudeBot).
  • Claude-Web — user-agent que o Claude usa ao visitar uma página em nome de um usuário.
  • PerplexityBot — rastreador principal do Perplexity. Precisa estar permitido para aparecer nas respostas do Perplexity.
  • Perplexity-User — dispara quando um usuário do Perplexity clica num link.
  • Google-Extended — flag de opt-out de treino para Gemini. Bloqueá-lo te exclui do treino, mas nĂŁo bloqueia o AI Overviews (que usa Googlebot).
  • Googlebot — Google clássico + alimenta AI Overviews e respostas em tempo real do Bard/Gemini.
  • Applebot-Extended — opt-out de treino do Apple Intelligence.
  • Bingbot — Bing + Copilot. Precisa estar permitido para citações no Copilot.
  • Bytespider — rastreador de treino do TikTok / Doubao. Opcional; muitas marcas ocidentais optam por bloquear.

Como sĂŁo bons resultados

Um site otimizado para GEO mostra os 13 bots como Permitidos no caminho raiz. Exceções:

  • Algumas marcas bloqueiam intencionalmente GPTBot, anthropic-ai, Google-Extended e Applebot-Extended (apenas treino) mantendo os de tempo real (OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Googlebot, Bingbot) permitidos. É o padrĂŁo "opt-out de treino, opt-in para citação".
  • Algumas bloqueiam Bytespider para evitar o treino do TikTok sem afetar motores ocidentais.

Se vir Permitido em tudo, passou o primeiro portão. Se vir bloqueios, corrija — as próximas seções mostram como.

Erros comuns

Bloquear por acidente via User-agent: * Disallow. Um disallow geral pega todos os bots, IA incluĂ­dos. Adicione regras Allow explĂ­citas para os user-agents IA.

Bloquear GPTBot mas não OAI-SearchBot. Padrão comum, mas confirme se é intencional. Se seu objetivo é visibilidade no ChatGPT, o que importa é o OAI-SearchBot — GPTBot só afeta treino.

Toggle de bots IA no Cloudflare. Em 2024 o Cloudflare adicionou um toggle "Bloquear bots IA" ligado por padrão em sites novos. robots.txt pode permitir tudo — o Cloudflare ainda vai devolver 403.

Servir robots.txt como HTML ou atrás de auth. Ambos fazem rastreadores IA desistirem. Force text/plain e acesso público.

Regras desatualizadas. Um robots.txt de 2018 não menciona user-agents IA surgidos em 2023-2024. Default-allow geralmente te salva, mas bloqueios genéricos ainda podem pegá-los.

Confiar no resultado de um único caminho. Este verificador testa a raiz (/). Se você bloqueou bots IA em /blog ou /docs, precisa testar esses caminhos também — costumam abrigar seu conteúdo mais citável.

Depois de testar

  1. Se os 13 aparecem Permitidos: você passou na camada robots.txt para a raiz. Avance para schema, citabilidade e verificações por caminho.
  2. Se algum aparece Bloqueado: edite seu robots.txt para adicionar regras Allow: explĂ­citas aos user-agents bloqueados e rode este testador novamente.
  3. Se seu CDN ou WAF bloqueia mesmo com o robots.txt permitindo: verifique Cloudflare → Segurança → Bots → "AI Scrapers and Crawlers"; em Akamai/Imperva, procure regras de bot management marcadas "AI" ou "scraper".
  4. Combine com o Verificador de citabilidade por página — acesso é necessário, mas não suficiente.

O que a Lumos faz continuamente (vs este teste pontual)

Esta página testa sua raiz sob demanda. Útil, mas é uma foto. A plataforma Lumos pega o mesmo teste e o transforma em infraestrutura contínua:

  • Cada URL do seu site, nĂŁo sĂł /. Aqui se testa /. A Lumos roda o teste dos 13 bots em cada URL que descobre — posts, páginas de produto, docs, tudo que estiver no sitemap. É aĂ­ que as regressões se escondem: /blog bloqueado enquanto / permanece aberto.
  • Semanalmente, nĂŁo quando vocĂŞ lembra. Configurações desviam. Um plugin do CMS atualiza, um toggle do Cloudflare ativa, um time de conteĂşdo adiciona uma regra. A Lumos roda o teste completo toda semana para vocĂŞ pegar a mudança em dias, nĂŁo em trimestres.
  • Alertas no mesmo dia. Quando qualquer um dos 13 bots vai de Permitido para Bloqueado, a Lumos envia um alerta com o diff — qual bot, quais caminhos, o que mudou no robots.txt ou na resposta de rede. Acabou aquele "notamos que o tráfego do ChatGPT caiu há trĂŞs meses".
  • robots.txt + camada de rede em um relatĂłrio sĂł. Esta ferramenta isolada inspeciona apenas robots.txt. A plataforma Lumos tambĂ©m busca cada URL como cada user-agent e reporta a resposta HTTP real — entĂŁo 403s de Cloudflare e bloqueios WAF aparecem junto Ă s regras do robots.txt.
  • Ligado aos seus dados de citação e visibilidade. Quando um bot Ă© bloqueado, a Lumos correlaciona o dia com sua pontuação de visibilidade naquele motor — para vocĂŞ ver o impacto de negĂłcio, nĂŁo sĂł o evento tĂ©cnico.

Esta ferramenta isolada Ă© a mesma lĂłgica, executada uma vez na raiz. Se vocĂŞ quer a versĂŁo contĂ­nua, por URL e com alertas, a plataforma Lumos foi feita para isso.

41%

dos sites bloqueiam ao menos um rastreador IA

Pesquisa Lumos 2026

13

rastreadores IA verificados por esta ferramenta

Lumos

How it works

  1. 1

    Informe seu domĂ­nio

    Cole seu domĂ­nio completo (ex.: suamarca.com). Sem caminho.

  2. 2

    Clique em Testar

    Baixamos /robots.txt e avaliamos 13 user-agents IA contra o caminho raiz.

  3. 3

    Revise os resultados

    Cada bot Ă© reportado como Permitido, Bloqueado ou Parcial. Veja as regras por bot.

  4. 4

    Corrija os bloqueios

    Use nosso Gerador de robots.txt para IA para produzir um arquivo corrigido e teste de novo.

FAQ

O que esta ferramenta verifica?

Ela busca seu robots.txt e testa 13 user-agents de IA contra ele — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot e Bytespider. Cada um é reportado como Permitido ou Bloqueado. A plataforma Lumos roda o mesmo teste, mas continuamente em cada página do seu site — não só uma vez na raiz.

Como se compara ao que a Lumos faz continuamente?

Este teste pontual verifica seu caminho raiz sob demanda. A plataforma Lumos roda o mesmo teste de 13 bots semanalmente em cada URL do seu site, observa mudanças e te alerta no dia em que qualquer bot é bloqueado — incluindo quando um toggle do Cloudflare ou plugin de CMS muda as regras silenciosamente. Mesmo teste, cobertura completa, sempre ativo.

Estar desbloqueado Ă© suficiente para ser citado?

Não. Acesso é necessário mas não suficiente. Motores IA também precisam que seu conteúdo seja citável: respostas claras, schema markup, datas atuais e autoria com autoridade. A plataforma Lumos combina monitoramento contínuo de bots com pontuação de citabilidade por página.

E quanto a bloqueio em Cloudflare ou WAF?

robots.txt é uma camada. O toggle de bots IA do Cloudflare, Akamai bot manager ou regras WAF customizadas podem bloquear crawlers IA mesmo quando o robots.txt permite. A plataforma paga da Lumos verifica ambas as camadas continuamente — robots.txt + resposta HTTP real por user-agent.

Por que alguns bots aparecem como 'parcial'?

Alguns user-agents têm regras com nuances — ex.: um site permite GPTBot em / mas bloqueia /api ou /admin. Reportamos Permitido / Bloqueado / Parcial para você saber se os portões estão abertos ou só a home. A plataforma Lumos estende isso checando cada caminho do seu site, não só a raiz.

A Lumos monitora isso continuamente?

Sim — a plataforma Lumos roda essa checagem semanalmente em cada URL e te alerta no dia em que qualquer bot é bloqueado. Esta ferramenta isolada é a versão pontual, só-raiz. Conecte seu site à Lumos para cobertura contínua.

Ferramentas relacionadas

48-Hour AI Visibility Audit Report

Full audit covering bot access, schema, page citability — delivered in 48 hours.

Leituras relacionadas

GEO: o SEO da era da IA — monitore sua marca no ChatGPT e Gemini

Generative Engine Optimization (GEO): aprenda a monitorar como o ChatGPT e o Gemini falam da sua marca com métricas, critérios e um piloto de 30 dias.

O que o ChatGPT diz sobre sua empresa? Como auditar sua visibilidade na IA

A maioria das empresas nĂŁo sabe o que ChatGPT, Gemini ou Perplexity diz sobre elas. Audite sua visibilidade na IA antes que custe clientes.

O que Ă© GEO? Um Guia Completo sobre Generative Engine Optimization

GEO (Generative Engine Optimization) é a prática de otimizar sua marca para aparecer nas respostas de ChatGPT, Gemini e Perplexity. Saiba tudo aqui.

Teste de acesso de crawlers IA: O mesmo que a Lumos roda em cada página semanalmente