Tester di accesso dei crawler IA: Lo stesso test che Lumos esegue ogni settimana su ogni pagina
Test di accesso bot in tempo reale — lo stesso che Lumos esegue ogni settimana su tutto il tuo sito.
Di Team Lumos · 15 maggio 2026
Perché l'accesso dei crawler è la prima porta del GEO
Prima che un motore IA possa citare la tua pagina, deve leggerla. ChatGPT, Claude, Gemini e Perplexity inviano crawler — ciascuno con il proprio user-agent e ruolo — e ognuno consulta il tuo robots.txt prima di recuperare contenuto. Bloccarli lì significa che nient'altro conta: né il tuo schema, né il tuo llms.txt, né la qualità della prosa. Sei invisibile.
Nel nostro audit 2026 di 1.000 siti mid-market, il 41% bloccava almeno uno dei 13 grandi crawler IA, quasi sempre per errore. Sospetti abituali: un User-agent: * Disallow: / ereditato da uno staging, il toggle di bot protection di Cloudflare attivo per default o un plugin CMS che ha "messo in sicurezza" il sito senza che nessuno notasse i bot IA presi nella rete.
I 13 crawler IA che questo strumento controlla
Ogni bot ha un ruolo specifico. Alcuni siti dovrebbero permetterli tutti, altri possono legittimamente bloccarne un sottoinsieme:
GPTBot— crawler di training di OpenAI. Legge le pagine per addestrare i futuri modelli GPT. Bloccarlo ti toglie dal training ma non incide sulle citazioni in ChatGPT.OAI-SearchBot— crawler in tempo reale di ChatGPT. È quello che ti rende citabile nelle risposte di ChatGPT. Deve essere permesso per la visibilità su ChatGPT.ChatGPT-User— scatta quando un utente di ChatGPT clicca un link in una risposta. Permetterlo è praticamente obbligatorio.ClaudeBot— crawler principale di Anthropic per Claude, incluse le risposte in tempo reale di Claude.ai.anthropic-ai— crawler di training di Anthropic (separato da ClaudeBot).Claude-Web— user-agent che Claude usa quando visita una pagina per conto di un utente.PerplexityBot— crawler principale di Perplexity. Deve essere permesso per apparire nelle risposte di Perplexity.Perplexity-User— scatta quando un utente Perplexity clicca un link.Google-Extended— flag di opt-out training per Gemini. Bloccarlo ti toglie dal training ma non blocca AI Overviews (che usa Googlebot).Googlebot— Google classico + alimenta AI Overviews e risposte in tempo reale di Bard/Gemini.Applebot-Extended— opt-out training di Apple Intelligence.Bingbot— Bing + Copilot. Deve essere permesso per le citazioni in Copilot.Bytespider— crawler di training TikTok / Doubao. Opzionale; molti brand occidentali scelgono di bloccarlo.
Come si presentano dei buoni risultati
Un sito ottimizzato per GEO mostra tutti i 13 bot come Permessi sul percorso radice. Eccezioni:
- Alcuni brand bloccano intenzionalmente
GPTBot,anthropic-ai,Google-ExtendedeApplebot-Extended(solo training) e tengono permessi quelli in tempo reale (OAI-SearchBot,ChatGPT-User,ClaudeBot,PerplexityBot,Googlebot,Bingbot). È il pattern "opt-out dal training, opt-in alla citazione". - Alcuni bloccano
Bytespiderper evitare il training TikTok senza colpire i motori occidentali.
Se vedi Permesso ovunque, hai passato la prima porta. Se vedi blocchi, correggili — le sezioni seguenti spiegano come.
Errori comuni
Bloccare per errore via User-agent: * Disallow. Un disallow generico cattura tutti i bot, IA inclusi. Aggiungi regole Allow esplicite per gli user-agent IA.
Bloccare GPTBot ma non OAI-SearchBot. Pattern frequente, ma assicurati che sia voluto. Se l'obiettivo è la visibilità in ChatGPT, ciò che conta è OAI-SearchBot — GPTBot influisce solo sul training.
Toggle bot IA di Cloudflare. Nel 2024 Cloudflare ha aggiunto un toggle "Blocca bot IA" attivo per default sui nuovi siti. Il robots.txt può permettere quanto vuole — Cloudflare risponderà 403 lo stesso.
Servire robots.txt come HTML o dietro auth. Entrambi fanno desistere i crawler IA. Forza text/plain e accesso pubblico.
Regole obsolete. Un robots.txt del 2018 non menziona gli user-agent IA emersi nel 2023-2024. Il comportamento default-allow di solito ti salva, ma blocchi generici possono comunque catturarli.
Fidarsi del risultato di un solo percorso. Questo strumento controlla la radice (/). Se hai bloccato bot IA su /blog o /docs, devi testare anche quei percorsi — è lì che di solito vive il contenuto più citabile.
Dopo il test
- Se tutti i 13 risultano Permessi: hai superato il livello robots.txt per la radice. Passa a schema, citabilità e controlli per percorso.
- Se uno risulta Bloccato: modifica il tuo robots.txt aggiungendo regole
Allow:esplicite per gli user-agent bloccati e ri-esegui questo tester. - Se il tuo CDN o WAF blocca nonostante il robots.txt permetta: controlla Cloudflare → Sicurezza → Bots → "AI Scrapers and Crawlers"; in Akamai/Imperva cerca regole di bot management etichettate "AI" o "scraper".
- Abbina al Verificatore di citabilità per pagina — l'accesso è necessario ma non sufficiente.
Cosa fa Lumos in continuo (vs questo test una-tantum)
Questa pagina testa la tua radice su richiesta. Utile, ma è una fotografia. La piattaforma Lumos prende lo stesso test e lo trasforma in infrastruttura continua:
- Ogni URL del tuo sito, non solo
/. Qui si testa/. Lumos esegue il test sui 13 bot su ogni URL che scopre — post del blog, pagine prodotto, docs, tutto quello che c'è in sitemap. Lì si nascondono le regressioni:/blogbloccato mentre/resta aperto. - Ogni settimana, non quando te ne ricordi. Le configurazioni cambiano. Un plugin CMS si aggiorna, un toggle Cloudflare si attiva, un team contenuti aggiunge una regola. Lumos ri-esegue il test completo ogni settimana così cogli il cambiamento in giorni, non in trimestri.
- Avvisi il giorno stesso. Quando uno dei 13 bot passa da Permesso a Bloccato, Lumos invia un avviso con il diff — quale bot, quali percorsi, cos'è cambiato nel robots.txt o nella risposta di rete. Basta "abbiamo notato che il traffico ChatGPT è calato tre mesi fa".
- robots.txt + livello di rete in un solo report. Questo strumento autonomo ispeziona solo robots.txt. La piattaforma Lumos recupera anche ogni URL come ogni user-agent e riporta la risposta HTTP reale — quindi 403 Cloudflare e blocchi WAF emergono accanto alle regole robots.txt.
- Legato ai tuoi dati di citazione e visibilità . Quando un bot viene bloccato, Lumos correla il giorno con il tuo punteggio di visibilità su quel motore — vedi l'impatto di business, non solo l'evento tecnico.
Questo strumento autonomo è la stessa logica, eseguita una volta sulla radice. Per la versione continua, per URL e con alert, la piattaforma Lumos è fatta per quello.
41%
dei siti bloccano almeno un crawler IA
Ricerca Lumos 2026
13
crawler IA controllati da questo strumento
Lumos
How it works
- 1
Inserisci il tuo dominio
Incolla il dominio completo (es. tuobrand.com). Senza percorso.
- 2
Clicca Testa
Scarichiamo /robots.txt e valutiamo 13 user-agent IA sul percorso radice.
- 3
Esamina i risultati
Ogni bot è segnalato come Permesso, Bloccato o Parziale. Approfondisci le regole per bot.
- 4
Correggi i blocchi
Usa il nostro Generatore di robots.txt per IA per produrre un file corretto, poi ritesta.
FAQ
Cosa controlla questo strumento?
Recupera il tuo robots.txt e testa 13 user-agent IA contro di esso — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, Claude-Web, PerplexityBot, Perplexity-User, Google-Extended, Googlebot, Applebot-Extended, Bingbot e Bytespider. Ognuno è riportato come Permesso o Bloccato. La piattaforma Lumos esegue lo stesso test, ma continuamente su ogni pagina del tuo sito — non solo una volta sulla radice.
Come si confronta con quello che Lumos fa continuamente?
Questo test puntuale controlla la tua radice su richiesta. La piattaforma Lumos esegue lo stesso test su 13 bot ogni settimana per ogni URL del tuo sito, monitora i cambiamenti e ti avvisa il giorno in cui un bot passa a bloccato — anche quando un toggle di Cloudflare o un plugin CMS cambia le regole silenziosamente. Stesso test, copertura completa, sempre attivo.
Essere sbloccati basta per essere citati?
No. L'accesso è necessario ma non sufficiente. I motori IA chiedono anche contenuti citabili: risposte chiare, schema markup, date fresche e autorialità . La piattaforma Lumos abbina monitoraggio bot continuo e scoring di citabilità per pagina — vedi il quadro completo.
E il blocco a livello Cloudflare o WAF?
robots.txt è uno strato. Il toggle bot IA di Cloudflare, Akamai bot manager o regole WAF personalizzate possono bloccare i crawler IA anche se robots.txt li permette. La piattaforma a pagamento di Lumos controlla entrambi gli strati in continuo — robots.txt + risposta HTTP reale per ogni user-agent.
Perché alcuni bot mostrano 'parziale'?
Alcuni user-agent hanno regole sfumate — es. un sito permette GPTBot su / ma blocca /api o /admin. Segnaliamo Permesso / Bloccato / Parziale per farti sapere se i cancelli sono spalancati o solo la home. La piattaforma Lumos estende questo controllando ogni percorso del tuo sito, non solo la radice.
Lumos lo monitora in continuo?
Sì — la piattaforma Lumos esegue questo controllo settimanalmente su ogni URL e ti avvisa il giorno in cui un bot viene bloccato. Questo strumento autonomo è la versione puntuale, solo-radice. Collega il tuo sito a Lumos per copertura continua.
Strumenti correlati
Letture correlate
GEO: il SEO dell'era dell'IA — monitora il tuo brand su ChatGPT e Gemini
Generative Engine Optimization (GEO): impara a monitorare come ChatGPT e Gemini parlano del tuo brand con metriche, criteri e un pilota di 30 giorni.
Cosa dice ChatGPT della tua azienda? Controlla la visibilità IA
La maggior parte delle aziende non sa cosa ChatGPT, Gemini o Perplexity dicono di loro. Controlla la tua visibilità IA prima che i problemi ti costino clienti.
Cos'è il GEO? Guida completa alla Generative Engine Optimization
Il GEO (Generative Engine Optimization) ottimizza il tuo brand per apparire nelle risposte di ChatGPT, Gemini e Perplexity. Tutto quello che devi sapere.