Lumos
Crear cuenta

Test de acceso de crawlers IA: El mismo que Lumos ejecuta semanalmente en cada página

Test de acceso de bots en tiempo real — el mismo que Lumos ejecuta semanalmente en todo tu sitio.

Por Equipo Lumos · 15 de mayo de 2026

Por qué el acceso de rastreadores es la primera puerta de GEO

Antes de que los motores IA puedan citar tu página, tienen que leerla. ChatGPT, Claude, Gemini y Perplexity envían rastreadores — cada uno con su user-agent y propósito — y todos consultan tu robots.txt antes de descargar contenido. Si los bloqueas ahí, nada más importa: ni tu schema, ni tu llms.txt, ni la calidad de tu prosa. Eres invisible.

En nuestra auditoría 2026 de 1.000 sitios mid-market, el 41% bloqueaba al menos uno de los 13 grandes rastreadores IA, casi siempre por accidente. Los culpables habituales: un User-agent: * Disallow: / heredado de un staging, el toggle de protección de bots de Cloudflare activado por defecto o un plugin de CMS que "aseguró" el sitio sin que nadie viera que los bots IA quedaban dentro de la red.

Los 13 rastreadores IA que comprueba esta herramienta

Cada bot tiene un papel específico, y mientras algunos sitios deberían permitirlos todos, otros pueden legítimamente bloquear un subconjunto:

  • GPTBot — rastreador de entrenamiento de OpenAI. Lee páginas para entrenar futuros modelos GPT. Bloquearlo te excluye del entrenamiento pero no afecta a las citas en ChatGPT.
  • OAI-SearchBot — rastreador en tiempo real de ChatGPT. Es el que te hace citable en respuestas de ChatGPT. Debe estar permitido para visibilidad en ChatGPT.
  • ChatGPT-User — se dispara cuando un usuario de ChatGPT pulsa un enlace dentro de una respuesta. Permitirlo es prácticamente obligatorio.
  • ClaudeBot — rastreador principal de Anthropic para Claude, incluidas las respuestas en tiempo real de Claude.ai.
  • anthropic-ai — rastreador de entrenamiento de Anthropic (distinto de ClaudeBot).
  • Claude-Web — user-agent que usa Claude cuando visita una página por encargo de un usuario.
  • PerplexityBot — rastreador principal de Perplexity. Debe estar permitido para aparecer en respuestas de Perplexity.
  • Perplexity-User — se dispara cuando un usuario de Perplexity pulsa un enlace.
  • Google-Extended — bandera de opt-out de entrenamiento para Gemini. Bloquearlo te excluye del entrenamiento pero no bloquea AI Overviews (esos usan Googlebot).
  • Googlebot — Google clásico + alimenta AI Overviews y respuestas de Bard/Gemini.
  • Applebot-Extended — opt-out de entrenamiento de Apple Intelligence.
  • Bingbot — Bing + Copilot. Debe estar permitido para citas en Copilot.
  • Bytespider — rastreador de entrenamiento de TikTok / Doubao. Opcional; muchas marcas occidentales eligen bloquearlo.

Cómo se ven unos buenos resultados

Un sitio optimizado para GEO mostrará los 13 bots como Permitidos en la ruta raíz. Excepciones:

  • Algunas marcas bloquean intencionadamente GPTBot, anthropic-ai, Google-Extended y Applebot-Extended (los de entrenamiento) y dejan permitidos los de tiempo real (OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Googlebot, Bingbot). Es el patrón "opt-out de entrenamiento, opt-in a citación".
  • Algunas bloquean Bytespider para evitar el entrenamiento de TikTok sin afectar a los motores IA occidentales.

Si ves Permitido en todos, has pasado la primera puerta. Si ves bloqueos, corrígelos — las siguientes secciones explican qué hacer.

Errores comunes

Bloquear por accidente vía User-agent: * Disallow. Un disallow global atrapa a todos los bots, incluidos los IA. Añade reglas Allow explícitas para los user-agents IA.

Bloquear GPTBot pero no OAI-SearchBot. Patrón común, pero asegúrate de que es intencional. Si tu objetivo es visibilidad en ChatGPT, lo que importa es OAI-SearchBotGPTBot solo afecta al entrenamiento.

Toggle de bots IA en Cloudflare. El panel de Cloudflare añadió un toggle "Bloquear bots IA" en 2024 que viene ON por defecto en sitios nuevos. Tu robots.txt puede permitir todo — Cloudflare seguirá devolviendo 403.

Servir robots.txt como HTML o tras autenticación. Ambos casos hacen que los rastreadores IA se rindan. Fuerza text/plain y acceso público.

Reglas obsoletas. Un robots.txt de 2018 no menciona los user-agents IA aparecidos en 2023-2024. El comportamiento default-allow suele salvarte, pero los bloqueos genéricos pueden alcanzarles.

Confiar en el resultado solo de una ruta. Este comprobador prueba la raíz (/). Si bloqueas bots IA en /blog o /docs, tienes que probarlas también — ahí suele vivir tu contenido más citable.

Después de probar

  1. Si los 13 aparecen Permitidos: has superado la capa robots.txt para la raíz. Pasa a schema, citabilidad y comprobaciones por ruta.
  2. Si alguno aparece Bloqueado: edita tu robots.txt para añadir reglas Allow: explícitas para los user-agents bloqueados, y vuelve a ejecutar este comprobador.
  3. Si tu CDN o WAF bloquea pese a que robots.txt permite: revisa Cloudflare → Seguridad → Bots → "AI Scrapers and Crawlers"; en Akamai/Imperva, busca reglas de bot management etiquetadas "AI" o "scraper".
  4. Combina con el Comprobador de citabilidad por página — el acceso es necesario pero no suficiente.

Qué hace Lumos continuamente (vs este test puntual)

Esta página prueba tu raíz bajo demanda. Útil, pero es una foto. La plataforma Lumos toma el mismo test y lo convierte en infraestructura continua:

  • Cada URL de tu sitio, no solo /. Aquí se chequea /. Lumos ejecuta el test de 13 bots en cada URL que descubre — posts del blog, fichas de producto, docs, todo lo del sitemap. Ahí es donde se esconden las regresiones: /blog bloqueado mientras / queda abierto.
  • Semanalmente, no cuando te acuerdes. Las configuraciones se desvían. Un plugin del CMS se actualiza, un toggle de Cloudflare se activa, un equipo de contenido añade una regla. Lumos repite el test completo cada semana para que el cambio se detecte en días, no en trimestres.
  • Alertas el mismo día. Cuando cualquiera de los 13 bots pasa de Permitido a Bloqueado, Lumos manda una alerta con el diff — qué bot, qué rutas, qué cambió en robots.txt o en la respuesta de red. No más "notamos que el tráfico de ChatGPT cayó hace tres meses".
  • robots.txt + capa de red en un solo informe. Esta herramienta independiente solo inspecciona robots.txt. La plataforma Lumos también solicita cada URL como cada user-agent y reporta la respuesta HTTP real — así los 403 de Cloudflare y los bloqueos WAF salen junto a las reglas de robots.txt.
  • Vinculado a tus datos de citación y visibilidad. Cuando un bot se bloquea, Lumos correla ese día con tu puntuación de visibilidad en ese motor — para que veas el impacto de negocio, no solo el evento técnico.

Esta herramienta independiente es la misma lógica, ejecutada una vez en la raíz. Si quieres la versión continua, cada URL y con alertas, la plataforma Lumos está hecha para eso.

41%

de sitios bloquean al menos un rastreador IA

Investigación Lumos 2026

13

rastreadores IA verificados por esta herramienta

Lumos

How it works

  1. 1

    Introduce tu dominio

    Pega tu dominio completo (p. ej. tumarca.com). Sin ruta.

  2. 2

    Pulsa Probar

    Descargamos /robots.txt y evaluamos 13 user-agents IA contra la ruta raíz.

  3. 3

    Revisa los resultados

    Cada bot aparece como Permitido, Bloqueado o Parcial. Profundiza en las reglas por bot.

  4. 4

    Corrige los bloqueos

    Usa nuestro Generador de robots.txt para IA para producir un archivo corregido y vuelve a probar.

FAQ

¿Qué comprueba esta herramienta?

Obtiene tu robots.txt y prueba 13 user-agents IA contra él — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot y Bytespider. Cada uno se reporta como Permitido o Bloqueado. La plataforma Lumos ejecuta el mismo test, pero continuamente en cada página de tu sitio — no solo una vez en la raíz.

¿Cómo se compara con lo que hace Lumos continuamente?

Esta prueba puntual revisa tu ruta raíz bajo demanda. La plataforma Lumos ejecuta el mismo test de 13 bots semanalmente en cada URL de tu sitio, vigila cambios y te avisa el día que algún bot pasa a bloqueado — incluso cuando un toggle de Cloudflare o un plugin de CMS cambia las reglas en silencio. Mismo test, cobertura completa, siempre activo.

¿Estar desbloqueado es suficiente para ser citado?

No. El acceso es necesario pero no suficiente. Los motores IA también necesitan que tu contenido sea citable: respuestas claras, schema markup, fechas frescas y autoría con autoridad. La plataforma Lumos combina el monitoreo continuo de bots con citabilidad por página para que veas todo el cuadro.

¿Y qué pasa con Cloudflare o WAF a nivel de red?

robots.txt es una capa. El toggle de bots IA de Cloudflare, Akamai bot manager o reglas WAF personalizadas pueden bloquear crawlers IA aunque robots.txt los permita. La plataforma de pago de Lumos vigila ambas capas continuamente — robots.txt + respuesta HTTP real por cada user-agent.

¿Por qué algunos bots muestran 'parcial'?

Algunos user-agents tienen reglas matizadas — p. ej., un sitio permite GPTBot en / pero bloquea /api o /admin. Reportamos Permitido / Bloqueado / Parcial para que sepas si las puertas están abiertas o solo la home. La plataforma Lumos extiende esto chequeando cada ruta de tu sitio, no solo la raíz.

¿Lumos monitoriza esto continuamente?

Sí — la plataforma Lumos ejecuta esta comprobación semanalmente en cada URL y te avisa el día que cualquier bot se bloquea. Esta herramienta independiente es la versión puntual y solo-raíz. Conecta tu sitio a Lumos para cobertura continua.

Herramientas relacionadas

48-Hour AI Visibility Audit Report

Full audit covering bot access, schema, page citability — delivered in 48 hours.

Lecturas relacionadas

Generative Engine Optimization (GEO). Cómo Monitorear tu marca en ChatGPT y Gemini.

Generative Engine Optimization (GEO): aprende a monitorear cómo ChatGPT y Gemini hablan de tu marca en LATAM con métricas, criterios y un piloto de 30 días.

¿Qué dice ChatGPT sobre tu empresa? Cómo auditar y mejorar tu visibilidad en la IA

La mayoría de empresas no sabe qué dicen ChatGPT, Gemini o Perplexity sobre ellas. Audita tu visibilidad en IA antes de que te cueste clientes.

¿Qué es el GEO? Guía completa de Generative Engine Optimization

Generative Engine Optimization (GEO) es la práctica de optimizar tu marca para aparecer en respuestas de IA de ChatGPT, Gemini y Perplexity. Guía completa.

Test de acceso de crawlers IA: El mismo que Lumos ejecuta semanalmente en cada página