Teste de acesso de crawlers IA: O mesmo que a Lumos roda em cada página semanalmente

Teste de acesso de bots em tempo real — o mesmo que a Lumos roda semanalmente em todo o seu site.

Por Equipe Lumos · 15 de maio de 2026

Por que o acesso de rastreadores é o primeiro portão do GEO

Antes que motores IA possam citar sua página, eles precisam lê-la. ChatGPT, Claude, Gemini e Perplexity despacham rastreadores — cada um com seu user-agent e propósito — e todos consultam seu robots.txt antes de buscar conteúdo. Bloqueie-os ali e nada mais importa: nem seu schema, nem seu llms.txt, nem a qualidade do texto. Você fica invisível.

Em nossa auditoria 2026 de 1.000 sites mid-market, 41% bloqueavam ao menos um dos 13 grandes rastreadores IA, quase sempre por acidente. Suspeitos de sempre: um User-agent: * Disallow: / herdado de um staging, o toggle de proteção contra bots do Cloudflare ligado por padrão ou um plugin de CMS que "protegeu" o site sem ninguém perceber que os bots IA ficaram presos.

Os 13 rastreadores IA que esta ferramenta verifica

Cada bot tem um papel específico. Alguns sites devem permitir todos; outros podem legitimamente bloquear um subconjunto:

GPTBot — rastreador de treino da OpenAI. Lê páginas para treinar futuros modelos GPT. Bloqueá-lo te exclui do treino, mas não afeta citações no ChatGPT.
OAI-SearchBot — rastreador em tempo real do ChatGPT. É ele que te torna citável nas respostas do ChatGPT. Precisa estar permitido para visibilidade no ChatGPT.
ChatGPT-User — dispara quando um usuário do ChatGPT clica num link dentro de uma resposta. Permitir é praticamente obrigatório.
ClaudeBot — rastreador principal da Anthropic para Claude, incluindo respostas em tempo real do Claude.ai.
anthropic-ai — rastreador de treino da Anthropic (separado do ClaudeBot).
Claude-Web — user-agent que o Claude usa ao visitar uma página em nome de um usuário.
PerplexityBot — rastreador principal do Perplexity. Precisa estar permitido para aparecer nas respostas do Perplexity.
Perplexity-User — dispara quando um usuário do Perplexity clica num link.
Google-Extended — flag de opt-out de treino para Gemini. Bloqueá-lo te exclui do treino, mas não bloqueia o AI Overviews (que usa Googlebot).
Googlebot — Google clássico + alimenta AI Overviews e respostas em tempo real do Bard/Gemini.
Applebot-Extended — opt-out de treino do Apple Intelligence.
Bingbot — Bing + Copilot. Precisa estar permitido para citações no Copilot.
Bytespider — rastreador de treino do TikTok / Doubao. Opcional; muitas marcas ocidentais optam por bloquear.

Como são bons resultados

Um site otimizado para GEO mostra os 13 bots como Permitidos no caminho raiz. Exceções:

Algumas marcas bloqueiam intencionalmente GPTBot, anthropic-ai, Google-Extended e Applebot-Extended (apenas treino) mantendo os de tempo real (OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Googlebot, Bingbot) permitidos. É o padrão "opt-out de treino, opt-in para citação".
Algumas bloqueiam Bytespider para evitar o treino do TikTok sem afetar motores ocidentais.

Se vir Permitido em tudo, passou o primeiro portão. Se vir bloqueios, corrija — as próximas seções mostram como.

Erros comuns

Bloquear por acidente via User-agent: * Disallow. Um disallow geral pega todos os bots, IA incluídos. Adicione regras Allow explícitas para os user-agents IA.

Bloquear GPTBot mas não OAI-SearchBot. Padrão comum, mas confirme se é intencional. Se seu objetivo é visibilidade no ChatGPT, o que importa é o OAI-SearchBot — GPTBot só afeta treino.

Toggle de bots IA no Cloudflare. Em 2024 o Cloudflare adicionou um toggle "Bloquear bots IA" ligado por padrão em sites novos. robots.txt pode permitir tudo — o Cloudflare ainda vai devolver 403.

Servir robots.txt como HTML ou atrás de auth. Ambos fazem rastreadores IA desistirem. Force text/plain e acesso público.

Regras desatualizadas. Um robots.txt de 2018 não menciona user-agents IA surgidos em 2023-2024. Default-allow geralmente te salva, mas bloqueios genéricos ainda podem pegá-los.

Confiar no resultado de um único caminho. Este verificador testa a raiz (/). Se você bloqueou bots IA em /blog ou /docs, precisa testar esses caminhos também — costumam abrigar seu conteúdo mais citável.

Depois de testar

Se os 13 aparecem Permitidos: você passou na camada robots.txt para a raiz. Avance para schema, citabilidade e verificações por caminho.
Se algum aparece Bloqueado: edite seu robots.txt para adicionar regras Allow: explícitas aos user-agents bloqueados e rode este testador novamente.
Se seu CDN ou WAF bloqueia mesmo com o robots.txt permitindo: verifique Cloudflare → Segurança → Bots → "AI Scrapers and Crawlers"; em Akamai/Imperva, procure regras de bot management marcadas "AI" ou "scraper".
Combine com o Verificador de citabilidade por página — acesso é necessário, mas não suficiente.

O que a Lumos faz continuamente (vs este teste pontual)

Esta página testa sua raiz sob demanda. Útil, mas é uma foto. A plataforma Lumos pega o mesmo teste e o transforma em infraestrutura contínua:

Cada URL do seu site, não só /. Aqui se testa /. A Lumos roda o teste dos 13 bots em cada URL que descobre — posts, páginas de produto, docs, tudo que estiver no sitemap. É aí que as regressões se escondem: /blog bloqueado enquanto / permanece aberto.
Semanalmente, não quando você lembra. Configurações desviam. Um plugin do CMS atualiza, um toggle do Cloudflare ativa, um time de conteúdo adiciona uma regra. A Lumos roda o teste completo toda semana para você pegar a mudança em dias, não em trimestres.
Alertas no mesmo dia. Quando qualquer um dos 13 bots vai de Permitido para Bloqueado, a Lumos envia um alerta com o diff — qual bot, quais caminhos, o que mudou no robots.txt ou na resposta de rede. Acabou aquele "notamos que o tráfego do ChatGPT caiu há três meses".
robots.txt + camada de rede em um relatório só. Esta ferramenta isolada inspeciona apenas robots.txt. A plataforma Lumos também busca cada URL como cada user-agent e reporta a resposta HTTP real — então 403s de Cloudflare e bloqueios WAF aparecem junto às regras do robots.txt.
Ligado aos seus dados de citação e visibilidade. Quando um bot é bloqueado, a Lumos correlaciona o dia com sua pontuação de visibilidade naquele motor — para você ver o impacto de negócio, não só o evento técnico.

Esta ferramenta isolada é a mesma lógica, executada uma vez na raiz. Se você quer a versão contínua, por URL e com alertas, a plataforma Lumos foi feita para isso.

41%

dos sites bloqueiam ao menos um rastreador IA

Pesquisa Lumos 2026

rastreadores IA verificados por esta ferramenta

Lumos

How it works

1
Informe seu domínio
Cole seu domínio completo (ex.: suamarca.com). Sem caminho.
2
Clique em Testar
Baixamos /robots.txt e avaliamos 13 user-agents IA contra o caminho raiz.
3
Revise os resultados
Cada bot é reportado como Permitido, Bloqueado ou Parcial. Veja as regras por bot.
4
Corrija os bloqueios
Use nosso Gerador de robots.txt para IA para produzir um arquivo corrigido e teste de novo.

FAQ

O que esta ferramenta verifica?

Ela busca seu robots.txt e testa 13 user-agents de IA contra ele — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot e Bytespider. Cada um é reportado como Permitido ou Bloqueado. A plataforma Lumos roda o mesmo teste, mas continuamente em cada página do seu site — não só uma vez na raiz.

Como se compara ao que a Lumos faz continuamente?

Este teste pontual verifica seu caminho raiz sob demanda. A plataforma Lumos roda o mesmo teste de 13 bots semanalmente em cada URL do seu site, observa mudanças e te alerta no dia em que qualquer bot é bloqueado — incluindo quando um toggle do Cloudflare ou plugin de CMS muda as regras silenciosamente. Mesmo teste, cobertura completa, sempre ativo.

Estar desbloqueado é suficiente para ser citado?

Não. Acesso é necessário mas não suficiente. Motores IA também precisam que seu conteúdo seja citável: respostas claras, schema markup, datas atuais e autoria com autoridade. A plataforma Lumos combina monitoramento contínuo de bots com pontuação de citabilidade por página.

E quanto a bloqueio em Cloudflare ou WAF?

robots.txt é uma camada. O toggle de bots IA do Cloudflare, Akamai bot manager ou regras WAF customizadas podem bloquear crawlers IA mesmo quando o robots.txt permite. A plataforma paga da Lumos verifica ambas as camadas continuamente — robots.txt + resposta HTTP real por user-agent.

Por que alguns bots aparecem como 'parcial'?

Alguns user-agents têm regras com nuances — ex.: um site permite GPTBot em / mas bloqueia /api ou /admin. Reportamos Permitido / Bloqueado / Parcial para você saber se os portões estão abertos ou só a home. A plataforma Lumos estende isso checando cada caminho do seu site, não só a raiz.

A Lumos monitora isso continuamente?

Sim — a plataforma Lumos roda essa checagem semanalmente em cada URL e te alerta no dia em que qualquer bot é bloqueado. Esta ferramenta isolada é a versão pontual, só-raiz. Conecte seu site à Lumos para cobertura contínua.

Ferramentas relacionadas

48-Hour AI Visibility Audit Report

Full audit covering bot access, schema, page citability — delivered in 48 hours.

Leituras relacionadas

GEO: o SEO da era da IA — monitore sua marca no ChatGPT e Gemini

Generative Engine Optimization (GEO): aprenda a monitorar como o ChatGPT e o Gemini falam da sua marca com métricas, critérios e um piloto de 30 dias.

O que o ChatGPT diz sobre sua empresa? Como auditar sua visibilidade na IA

A maioria das empresas não sabe o que ChatGPT, Gemini ou Perplexity diz sobre elas. Audite sua visibilidade na IA antes que custe clientes.

O que é GEO? Um Guia Completo sobre Generative Engine Optimization

GEO (Generative Engine Optimization) é a prática de otimizar sua marca para aparecer nas respostas de ChatGPT, Gemini e Perplexity. Saiba tudo aqui.