GPTBot robots.txt per Shopify: esempi pratici e verifiche
Esempi pratici di robots.txt Shopify pronti da copiare per GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot — con una checklist dei percorsi Shopify che devono rimanere crawlabili e di quelli che devono essere sempre bloccati.
robots.txt è la porta che decide se i motori AI shopping possono
nemmeno leggere il tuo store Shopify prima di citarlo. ChatGPT,
Perplexity e Gemini rispondono a query commerciali su prodotti Shopify
solo quando i loro crawler (GPTBot, OAI-SearchBot, ChatGPT-User,
PerplexityBot) hanno effettivamente recuperato il contenuto della
pagina. Bloccarli in robots.txt ti rende invisibile — ogni altro
segnale di visibilità AI (schema, llms.txt, qualità contenuto) diventa
discutibile.
Questa guida fornisce un esempio pratico di robots.txt Shopify calibrato per l’era shopping AI: permettere il contenuto pubblico dello store (prodotti, collezioni, blog, pages) per i crawler AI che contano, bloccare i percorsi checkout / account / admin che non dovrebbero, e verificare che funzioni usando l’Analizzatore Robots.
Cosa l’accesso GPTBot può e non può fare
| Può | Non può |
|---|---|
| Crawlare pagine prodotto, collezioni, blog pubblici | Aggirare l’autenticazione su pagine private |
| Indicizzare contenuto per risposte ChatGPT shopping | Leggere contenuto che richiede login o permessi app |
| Leggere product schema, llms.txt, FAQ, pagine policy | Identificare singoli acquirenti o i loro carrelli |
Rispettare direttive Disallow su crawler conformi | Imporre privacy — scraper avversari ignorano robots.txt |
Onorare direttive meta noindex su pagine crawlabili | Sostituire controlli di accesso Shopify proper |
Concretamente: permettere GPTBot è necessario per la visibilità ChatGPT Shopping, ma non sufficiente. Il crawler che raggiunge la pagina è il pavimento. La visibilità sopra è gated da qualità contenuto
- dati strutturati.
Percorsi Shopify che devono rimanere crawlabili
| Percorso | Perché |
|---|---|
/products/ | Classe di URL più citata per query shopping AI |
/collections/ | Pagine browse categoria; AI le usa per «store vende X» |
/blogs/ | Contenuto long-form da cui AI estrae contesto prodotto |
/pages/faq | Contenuto FAQ — AI cita per «X supporta Y» |
/pages/shipping | Policy spedizione — AI cita per «spedisce in X» |
/pages/returns | Policy reso — AI cita per «se non va bene» |
/pages/size-guide | Contesto taglie — AI cita per «che taglia sono» apparel |
/pages/ingredients | Guida ingredienti beauty — AI cita per compatibilità |
/pages/warranty | Garanzia elettronica — AI cita per «qual è la garanzia» |
/llms.txt | Mappa contenuto compatta — AI la legge a ogni crawl |
/sitemap.xml | Scoperta URL — AI usa per trovare nuove pagine prodotto |
Percorsi Shopify che devono rimanere protetti
| Percorso | Perché |
|---|---|
/cart | Stato personalizzato — crawlarlo non ha mai senso |
/checkout | Flusso pagamento — deve essere privato |
/account | Dashboard cliente loggato |
/admin | Admin Shopify (già protetto da auth, esplicito è meglio) |
/orders/ | Storico ordini per cliente |
/apps/<private> | Endpoint app terze parti che espongono dati privati |
| Pagine risultati ricerca interna | Contenuto sottile o duplicato; motori AI penalizzano siti crawl-pesanti |
| URL preview / staging | Non per visibilità pubblica |
L’esempio robots.txt
Incolla nel robots.txt.liquid del tuo tema Shopify (o nell’asset
robots.txt). Rivedi contro le tue app + tema specifici prima della
pubblicazione — questa è una baseline di partenza, non una risposta
universale.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Checklist di revisione
Prima di pubblicare, esegui questa checklist. Ogni voce corrisponde a un modo in cui gli store Shopify tipicamente perdono visibilità AI o espongono dati privati attraverso robots.txt.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Installare in Shopify
- Nell’admin Shopify, vai a Negozio online → Temi → Modifica codice.
- Sotto Template, cerca
robots.txt.liquid. Se non esiste, clicca «Aggiungi un nuovo template» → «robots» → «.liquid». - Sostituisci il contenuto del file con l’esempio sopra (adattato per il tuo URL store reale e qualunque percorso custom).
- Salva il template.
- Verifica a
https://your-store.myshopify.com/robots.txtche il nuovo contenuto venga servito (cache browser + cache edge Shopify potrebbero impiegare alcuni minuti a pulirsi). - Incolla l’URL robots.txt nell’Analizzatore Robots
e conferma che GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot
appaiano tutti come «allowed» per
/products/e/collections/.
Fatto. I crawler AI raccoglieranno il robots.txt aggiornato alla prossima visita (tipicamente entro 24 ore). Abbina questa guida con il template llms.txt moda (o il fratello beauty/elettronica) così una volta che i crawler raggiungono il tuo store, trovano una mappa di contenuto che vale la pena leggere.
Elenco di verifica
Pagine prodotto pubbliche non sono bloccate
GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot ricevono tutti `Allow: /products/` (o nessun Disallow esplicito che copra /products/).
Pagine collezione pubbliche non sono bloccate
Gli stessi crawler possono raggiungere `/collections/`. Le pagine collezione Shopify sono la classe di URL più citata per le query shopping; bloccarle è la ferita autoinflitta n. 1 in visibilità AI.
Contenuto blog e guida pubblico non è bloccato
Gli stessi crawler possono raggiungere `/blogs/` e `/pages/` (dove Shopify ospita FAQ, guide taglia, pagine ingredienti, pagine policy). Le risposte AI shopping citano molto contenuto blog e guida.
Percorsi cart, checkout, account e admin rimangono protetti
Ogni blocco crawler AI ha esplicitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Questi percorsi rivelano stato personalizzato quando crawlati e non appartengono nelle risposte AI shopping.
robots.txt non è usato come meccanismo di privacy o sicurezza
Dati sensibili (info cliente, dettagli ordine, dati app privati) sono protetti da autenticazione, non da `Disallow`. robots.txt è un hint crawler, non un confine di sicurezza.
Pagine noindex rimangono crawlabili
Se una pagina deve essere esclusa dalla ricerca, deve rimanere crawlabile (nessun `Disallow`) così il crawler può leggere la direttiva `<meta name="robots" content="noindex">`. Disallow una pagina noindex la rende non verificabile e Google potrebbe indicizzarla comunque.
GPTBot e OAI-SearchBot gestiti con blocchi regola separati
Non condividere una sola riga `User-agent: GPTBot,OAI-SearchBot`. I due hanno semantiche policy diverse (training vs fetch search-time) e i merchant potrebbero volere regole diverse per crawler.
Modifiche testate nell'Analizzatore Robots dopo la pubblicazione
Dopo aver deployato il robots.txt aggiornato nel tema Shopify, incolla l'URL in /tools/robots-analyzer e conferma che ogni crawler AI mostra lo stato di accesso atteso.
Esegui l'Analizzatore Robots
Precompilato con l'esempio robots.txt crawler AI Shopify qui sotto. Incolla il tuo robots.txt Shopify reale per confrontare, o usa il prefill per testare la baseline raccomandata contro il tuo store.
Domande frequenti
Permettere GPTBot garantisce la visibilità in ChatGPT Shopping?
No. L'accesso crawler è il pavimento, non il soffitto. GPTBot che raggiunge la tua pagina prodotto è necessario affinché sia indicizzata dai modelli OpenAI, ma la visibilità in ChatGPT Shopping dipende anche dall'avere contesto prodotto utile (Product schema, llms.txt, descrizioni accurate, recensioni reali). Permetti GPTBot, poi audita il contenuto che può vedere — questo è il lavoro completo.
GPTBot e OAI-SearchBot devono usare lo stesso blocco regola?
Non necessariamente. Hanno semantiche policy diverse: GPTBot è il crawler di training di OpenAI (il suo accesso influenza se il tuo contenuto allena futuri modelli GPT), mentre OAI-SearchBot è il fetcher search-time (il suo accesso influenza le risposte ChatGPT/Bing in tempo reale). Alcuni merchant vogliono permettere l'accesso search-time ma bloccare il training. Trattali come scelte policy separate, con blocchi `User-agent:` separati.
robots.txt può proteggere i dati cliente privati di Shopify?
No. robots.txt è un'istruzione crawler, non un meccanismo di sicurezza. Crawler conformi (GPTBot, Googlebot, ecc.) rispettano `Disallow`, ma scraper avversari lo ignorano completamente. Per dati cliente privati, dettagli ordine o endpoint app, usa l'autenticazione + controlli di accesso integrati di Shopify. robots.txt è uno strato; l'auth è la vera linea.
Le pagine noindex dovrebbero essere disallowed in robots.txt?
No — questo è l'errore robots.txt più comune. Se fai `Disallow:` su una pagina noindex, il crawler non legge mai il tag `<meta name="robots" content="noindex">`, e la pagina può essere indicizzata comunque (Google a volte inferisce esistenza da link esterni e indicizza l'URL senza crawlare). Mantieni le pagine noindex crawlabili; blocca solo i percorsi che devono essere totalmente invisibili ai crawler (cart, checkout, account, admin).
Risorse correlate
Template llms.txt Shopify moda
Risorsa sorella — robots.txt e llms.txt lavorano insieme. Permetti il crawler in robots.txt, poi pubblica llms.txt così sa cosa leggere.
Esempio Product Schema per Shopify apparel
Una volta che GPTBot può raggiungere la pagina prodotto (questa guida), lo schema JSON-LD è ciò che i motori AI shopping davvero parseggiano per citare il prodotto.
Analizzatore Robots.txt
Incolla la tua URL o contenuto robots.txt per verificare che ogni crawler AI abbia lo stato di accesso voluto — prima e dopo aver deployato modifiche.
Shopify AI Visibility Optimizer
Lo stack completo di visibilità AI — la policy crawler è uno strato accanto a schema, mappa contenuto e monitoraggio citazioni.
llms.txt per Shopify — guida completa
Una volta che robots.txt permette ai crawler AI di raggiungere il tuo contenuto, llms.txt è la mappa di navigazione compatta che leggono per capire lo store.
Elenco User-Agent Crawler IA
Dopo aver corretto robots.txt per GPTBot, questo è il riferimento completo con fonti del fornitore per ogni altro crawler IA — cosa consentire, cosa bloccare, e quali ignorano comunque robots.txt.