Teste de acesso de crawlers IA: O mesmo que a Lumos roda em cada página semanalmente
Teste de acesso de bots em tempo real — o mesmo que a Lumos roda semanalmente em todo o seu site.
Por Equipe Lumos · 15 de maio de 2026
Por que o acesso de rastreadores Ă© o primeiro portĂŁo do GEO
Antes que motores IA possam citar sua página, eles precisam lĂŞ-la. ChatGPT, Claude, Gemini e Perplexity despacham rastreadores — cada um com seu user-agent e propĂłsito — e todos consultam seu robots.txt antes de buscar conteĂşdo. Bloqueie-os ali e nada mais importa: nem seu schema, nem seu llms.txt, nem a qualidade do texto. VocĂŞ fica invisĂvel.
Em nossa auditoria 2026 de 1.000 sites mid-market, 41% bloqueavam ao menos um dos 13 grandes rastreadores IA, quase sempre por acidente. Suspeitos de sempre: um User-agent: * Disallow: / herdado de um staging, o toggle de proteção contra bots do Cloudflare ligado por padrão ou um plugin de CMS que "protegeu" o site sem ninguém perceber que os bots IA ficaram presos.
Os 13 rastreadores IA que esta ferramenta verifica
Cada bot tem um papel especĂfico. Alguns sites devem permitir todos; outros podem legitimamente bloquear um subconjunto:
GPTBot— rastreador de treino da OpenAI. Lê páginas para treinar futuros modelos GPT. Bloqueá-lo te exclui do treino, mas não afeta citações no ChatGPT.OAI-SearchBot— rastreador em tempo real do ChatGPT. É ele que te torna citável nas respostas do ChatGPT. Precisa estar permitido para visibilidade no ChatGPT.ChatGPT-User— dispara quando um usuário do ChatGPT clica num link dentro de uma resposta. Permitir é praticamente obrigatório.ClaudeBot— rastreador principal da Anthropic para Claude, incluindo respostas em tempo real do Claude.ai.anthropic-ai— rastreador de treino da Anthropic (separado do ClaudeBot).Claude-Web— user-agent que o Claude usa ao visitar uma página em nome de um usuário.PerplexityBot— rastreador principal do Perplexity. Precisa estar permitido para aparecer nas respostas do Perplexity.Perplexity-User— dispara quando um usuário do Perplexity clica num link.Google-Extended— flag de opt-out de treino para Gemini. Bloqueá-lo te exclui do treino, mas não bloqueia o AI Overviews (que usa Googlebot).Googlebot— Google clássico + alimenta AI Overviews e respostas em tempo real do Bard/Gemini.Applebot-Extended— opt-out de treino do Apple Intelligence.Bingbot— Bing + Copilot. Precisa estar permitido para citações no Copilot.Bytespider— rastreador de treino do TikTok / Doubao. Opcional; muitas marcas ocidentais optam por bloquear.
Como sĂŁo bons resultados
Um site otimizado para GEO mostra os 13 bots como Permitidos no caminho raiz. Exceções:
- Algumas marcas bloqueiam intencionalmente
GPTBot,anthropic-ai,Google-ExtendedeApplebot-Extended(apenas treino) mantendo os de tempo real (OAI-SearchBot,ChatGPT-User,ClaudeBot,PerplexityBot,Googlebot,Bingbot) permitidos. É o padrão "opt-out de treino, opt-in para citação". - Algumas bloqueiam
Bytespiderpara evitar o treino do TikTok sem afetar motores ocidentais.
Se vir Permitido em tudo, passou o primeiro portão. Se vir bloqueios, corrija — as próximas seções mostram como.
Erros comuns
Bloquear por acidente via User-agent: * Disallow. Um disallow geral pega todos os bots, IA incluĂdos. Adicione regras Allow explĂcitas para os user-agents IA.
Bloquear GPTBot mas não OAI-SearchBot. Padrão comum, mas confirme se é intencional. Se seu objetivo é visibilidade no ChatGPT, o que importa é o OAI-SearchBot — GPTBot só afeta treino.
Toggle de bots IA no Cloudflare. Em 2024 o Cloudflare adicionou um toggle "Bloquear bots IA" ligado por padrão em sites novos. robots.txt pode permitir tudo — o Cloudflare ainda vai devolver 403.
Servir robots.txt como HTML ou atrás de auth. Ambos fazem rastreadores IA desistirem. Force text/plain e acesso público.
Regras desatualizadas. Um robots.txt de 2018 não menciona user-agents IA surgidos em 2023-2024. Default-allow geralmente te salva, mas bloqueios genéricos ainda podem pegá-los.
Confiar no resultado de um único caminho. Este verificador testa a raiz (/). Se você bloqueou bots IA em /blog ou /docs, precisa testar esses caminhos também — costumam abrigar seu conteúdo mais citável.
Depois de testar
- Se os 13 aparecem Permitidos: você passou na camada robots.txt para a raiz. Avance para schema, citabilidade e verificações por caminho.
- Se algum aparece Bloqueado: edite seu robots.txt para adicionar regras
Allow:explĂcitas aos user-agents bloqueados e rode este testador novamente. - Se seu CDN ou WAF bloqueia mesmo com o robots.txt permitindo: verifique Cloudflare → Segurança → Bots → "AI Scrapers and Crawlers"; em Akamai/Imperva, procure regras de bot management marcadas "AI" ou "scraper".
- Combine com o Verificador de citabilidade por página — acesso é necessário, mas não suficiente.
O que a Lumos faz continuamente (vs este teste pontual)
Esta página testa sua raiz sob demanda. Ăštil, mas Ă© uma foto. A plataforma Lumos pega o mesmo teste e o transforma em infraestrutura contĂnua:
- Cada URL do seu site, nĂŁo sĂł
/. Aqui se testa/. A Lumos roda o teste dos 13 bots em cada URL que descobre — posts, páginas de produto, docs, tudo que estiver no sitemap. É aà que as regressões se escondem:/blogbloqueado enquanto/permanece aberto. - Semanalmente, não quando você lembra. Configurações desviam. Um plugin do CMS atualiza, um toggle do Cloudflare ativa, um time de conteúdo adiciona uma regra. A Lumos roda o teste completo toda semana para você pegar a mudança em dias, não em trimestres.
- Alertas no mesmo dia. Quando qualquer um dos 13 bots vai de Permitido para Bloqueado, a Lumos envia um alerta com o diff — qual bot, quais caminhos, o que mudou no robots.txt ou na resposta de rede. Acabou aquele "notamos que o tráfego do ChatGPT caiu há três meses".
- robots.txt + camada de rede em um relatório só. Esta ferramenta isolada inspeciona apenas robots.txt. A plataforma Lumos também busca cada URL como cada user-agent e reporta a resposta HTTP real — então 403s de Cloudflare e bloqueios WAF aparecem junto às regras do robots.txt.
- Ligado aos seus dados de citação e visibilidade. Quando um bot é bloqueado, a Lumos correlaciona o dia com sua pontuação de visibilidade naquele motor — para você ver o impacto de negócio, não só o evento técnico.
Esta ferramenta isolada Ă© a mesma lĂłgica, executada uma vez na raiz. Se vocĂŞ quer a versĂŁo contĂnua, por URL e com alertas, a plataforma Lumos foi feita para isso.
41%
dos sites bloqueiam ao menos um rastreador IA
Pesquisa Lumos 2026
13
rastreadores IA verificados por esta ferramenta
Lumos
How it works
- 1
Informe seu domĂnio
Cole seu domĂnio completo (ex.: suamarca.com). Sem caminho.
- 2
Clique em Testar
Baixamos /robots.txt e avaliamos 13 user-agents IA contra o caminho raiz.
- 3
Revise os resultados
Cada bot Ă© reportado como Permitido, Bloqueado ou Parcial. Veja as regras por bot.
- 4
Corrija os bloqueios
Use nosso Gerador de robots.txt para IA para produzir um arquivo corrigido e teste de novo.
FAQ
O que esta ferramenta verifica?
Ela busca seu robots.txt e testa 13 user-agents de IA contra ele — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot e Bytespider. Cada um é reportado como Permitido ou Bloqueado. A plataforma Lumos roda o mesmo teste, mas continuamente em cada página do seu site — não só uma vez na raiz.
Como se compara ao que a Lumos faz continuamente?
Este teste pontual verifica seu caminho raiz sob demanda. A plataforma Lumos roda o mesmo teste de 13 bots semanalmente em cada URL do seu site, observa mudanças e te alerta no dia em que qualquer bot é bloqueado — incluindo quando um toggle do Cloudflare ou plugin de CMS muda as regras silenciosamente. Mesmo teste, cobertura completa, sempre ativo.
Estar desbloqueado Ă© suficiente para ser citado?
NĂŁo. Acesso Ă© necessário mas nĂŁo suficiente. Motores IA tambĂ©m precisam que seu conteĂşdo seja citável: respostas claras, schema markup, datas atuais e autoria com autoridade. A plataforma Lumos combina monitoramento contĂnuo de bots com pontuação de citabilidade por página.
E quanto a bloqueio em Cloudflare ou WAF?
robots.txt é uma camada. O toggle de bots IA do Cloudflare, Akamai bot manager ou regras WAF customizadas podem bloquear crawlers IA mesmo quando o robots.txt permite. A plataforma paga da Lumos verifica ambas as camadas continuamente — robots.txt + resposta HTTP real por user-agent.
Por que alguns bots aparecem como 'parcial'?
Alguns user-agents têm regras com nuances — ex.: um site permite GPTBot em / mas bloqueia /api ou /admin. Reportamos Permitido / Bloqueado / Parcial para você saber se os portões estão abertos ou só a home. A plataforma Lumos estende isso checando cada caminho do seu site, não só a raiz.
A Lumos monitora isso continuamente?
Sim — a plataforma Lumos roda essa checagem semanalmente em cada URL e te alerta no dia em que qualquer bot Ă© bloqueado. Esta ferramenta isolada Ă© a versĂŁo pontual, sĂł-raiz. Conecte seu site Ă Lumos para cobertura contĂnua.
Ferramentas relacionadas
Leituras relacionadas
GEO: o SEO da era da IA — monitore sua marca no ChatGPT e Gemini
Generative Engine Optimization (GEO): aprenda a monitorar como o ChatGPT e o Gemini falam da sua marca com métricas, critérios e um piloto de 30 dias.
O que o ChatGPT diz sobre sua empresa? Como auditar sua visibilidade na IA
A maioria das empresas nĂŁo sabe o que ChatGPT, Gemini ou Perplexity diz sobre elas. Audite sua visibilidade na IA antes que custe clientes.
O que Ă© GEO? Um Guia Completo sobre Generative Engine Optimization
GEO (Generative Engine Optimization) é a prática de otimizar sua marca para aparecer nas respostas de ChatGPT, Gemini e Perplexity. Saiba tudo aqui.