GPTBot robots.txt per Shopify: esempi pratici e verifiche

Esempi pratici di robots.txt Shopify pronti da copiare per GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot — con una checklist dei percorsi Shopify che devono rimanere crawlabili e di quelli che devono essere sempre bloccati.

Alex

CTO & Co-founder

Ultima revisione: 15 maggio 2026 5 min read

robots.txt è la porta che decide se i motori AI shopping possono nemmeno leggere il tuo store Shopify prima di citarlo. ChatGPT, Perplexity e Gemini rispondono a query commerciali su prodotti Shopify solo quando i loro crawler (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) hanno effettivamente recuperato il contenuto della pagina. Bloccarli in robots.txt ti rende invisibile — ogni altro segnale di visibilità AI (schema, llms.txt, qualità contenuto) diventa discutibile.

Questa guida fornisce un esempio pratico di robots.txt Shopify calibrato per l’era shopping AI: permettere il contenuto pubblico dello store (prodotti, collezioni, blog, pages) per i crawler AI che contano, bloccare i percorsi checkout / account / admin che non dovrebbero, e verificare che funzioni usando l’Analizzatore Robots.

Cosa l’accesso GPTBot può e non può fare

Può	Non può
Crawlare pagine prodotto, collezioni, blog pubblici	Aggirare l’autenticazione su pagine private
Indicizzare contenuto per risposte ChatGPT shopping	Leggere contenuto che richiede login o permessi app
Leggere product schema, llms.txt, FAQ, pagine policy	Identificare singoli acquirenti o i loro carrelli
Rispettare direttive `Disallow` su crawler conformi	Imporre privacy — scraper avversari ignorano robots.txt
Onorare direttive meta `noindex` su pagine crawlabili	Sostituire controlli di accesso Shopify proper

Concretamente: permettere GPTBot è necessario per la visibilità ChatGPT Shopping, ma non sufficiente. Il crawler che raggiunge la pagina è il pavimento. La visibilità sopra è gated da qualità contenuto

dati strutturati.

Percorsi Shopify che devono rimanere crawlabili

Percorso	Perché
`/products/`	Classe di URL più citata per query shopping AI
`/collections/`	Pagine browse categoria; AI le usa per «store vende X»
`/blogs/`	Contenuto long-form da cui AI estrae contesto prodotto
`/pages/faq`	Contenuto FAQ — AI cita per «X supporta Y»
`/pages/shipping`	Policy spedizione — AI cita per «spedisce in X»
`/pages/returns`	Policy reso — AI cita per «se non va bene»
`/pages/size-guide`	Contesto taglie — AI cita per «che taglia sono» apparel
`/pages/ingredients`	Guida ingredienti beauty — AI cita per compatibilità
`/pages/warranty`	Garanzia elettronica — AI cita per «qual è la garanzia»
`/llms.txt`	Mappa contenuto compatta — AI la legge a ogni crawl
`/sitemap.xml`	Scoperta URL — AI usa per trovare nuove pagine prodotto

Percorsi Shopify che devono rimanere protetti

Percorso	Perché
`/cart`	Stato personalizzato — crawlarlo non ha mai senso
`/checkout`	Flusso pagamento — deve essere privato
`/account`	Dashboard cliente loggato
`/admin`	Admin Shopify (già protetto da auth, esplicito è meglio)
`/orders/`	Storico ordini per cliente
`/apps/<private>`	Endpoint app terze parti che espongono dati privati
Pagine risultati ricerca interna	Contenuto sottile o duplicato; motori AI penalizzano siti crawl-pesanti
URL preview / staging	Non per visibilità pubblica

L’esempio robots.txt

Incolla nel robots.txt.liquid del tuo tema Shopify (o nell’asset robots.txt). Rivedi contro le tue app + tema specifici prima della pubblicazione — questa è una baseline di partenza, non una risposta universale.

Esempio robots.txt crawler AI Shopify txt

# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist di revisione

Prima di pubblicare, esegui questa checklist. Ogni voce corrisponde a un modo in cui gli store Shopify tipicamente perdono visibilità AI o espongono dati privati attraverso robots.txt.

Checklist di revisione robots.txt crawler AI Shopify txt

Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installare in Shopify

Nell’admin Shopify, vai a Negozio online → Temi → Modifica codice.
Sotto Template, cerca robots.txt.liquid. Se non esiste, clicca «Aggiungi un nuovo template» → «robots» → «.liquid».
Sostituisci il contenuto del file con l’esempio sopra (adattato per il tuo URL store reale e qualunque percorso custom).
Salva il template.
Verifica a https://your-store.myshopify.com/robots.txt che il nuovo contenuto venga servito (cache browser + cache edge Shopify potrebbero impiegare alcuni minuti a pulirsi).
Incolla l’URL robots.txt nell’Analizzatore Robots e conferma che GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot appaiano tutti come «allowed» per /products/ e /collections/.

Fatto. I crawler AI raccoglieranno il robots.txt aggiornato alla prossima visita (tipicamente entro 24 ore). Abbina questa guida con il template llms.txt moda (o il fratello beauty/elettronica) così una volta che i crawler raggiungono il tuo store, trovano una mappa di contenuto che vale la pena leggere.

Elenco di verifica

Pagine prodotto pubbliche non sono bloccate

GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot ricevono tutti `Allow: /products/` (o nessun Disallow esplicito che copra /products/).

Pagine collezione pubbliche non sono bloccate

Gli stessi crawler possono raggiungere `/collections/`. Le pagine collezione Shopify sono la classe di URL più citata per le query shopping; bloccarle è la ferita autoinflitta n. 1 in visibilità AI.

Contenuto blog e guida pubblico non è bloccato

Gli stessi crawler possono raggiungere `/blogs/` e `/pages/` (dove Shopify ospita FAQ, guide taglia, pagine ingredienti, pagine policy). Le risposte AI shopping citano molto contenuto blog e guida.

Percorsi cart, checkout, account e admin rimangono protetti

Ogni blocco crawler AI ha esplicitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Questi percorsi rivelano stato personalizzato quando crawlati e non appartengono nelle risposte AI shopping.

robots.txt non è usato come meccanismo di privacy o sicurezza

Dati sensibili (info cliente, dettagli ordine, dati app privati) sono protetti da autenticazione, non da `Disallow`. robots.txt è un hint crawler, non un confine di sicurezza.

Pagine noindex rimangono crawlabili

Se una pagina deve essere esclusa dalla ricerca, deve rimanere crawlabile (nessun `Disallow`) così il crawler può leggere la direttiva `<meta name="robots" content="noindex">`. Disallow una pagina noindex la rende non verificabile e Google potrebbe indicizzarla comunque.

GPTBot e OAI-SearchBot gestiti con blocchi regola separati

Non condividere una sola riga `User-agent: GPTBot,OAI-SearchBot`. I due hanno semantiche policy diverse (training vs fetch search-time) e i merchant potrebbero volere regole diverse per crawler.

Modifiche testate nell'Analizzatore Robots dopo la pubblicazione

Dopo aver deployato il robots.txt aggiornato nel tema Shopify, incolla l'URL in /tools/robots-analyzer e conferma che ogni crawler AI mostra lo stato di accesso atteso.

Domande frequenti

Permettere GPTBot garantisce la visibilità in ChatGPT Shopping?

No. L'accesso crawler è il pavimento, non il soffitto. GPTBot che raggiunge la tua pagina prodotto è necessario affinché sia indicizzata dai modelli OpenAI, ma la visibilità in ChatGPT Shopping dipende anche dall'avere contesto prodotto utile (Product schema, llms.txt, descrizioni accurate, recensioni reali). Permetti GPTBot, poi audita il contenuto che può vedere — questo è il lavoro completo.

GPTBot e OAI-SearchBot devono usare lo stesso blocco regola?

Non necessariamente. Hanno semantiche policy diverse: GPTBot è il crawler di training di OpenAI (il suo accesso influenza se il tuo contenuto allena futuri modelli GPT), mentre OAI-SearchBot è il fetcher search-time (il suo accesso influenza le risposte ChatGPT/Bing in tempo reale). Alcuni merchant vogliono permettere l'accesso search-time ma bloccare il training. Trattali come scelte policy separate, con blocchi `User-agent:` separati.

robots.txt può proteggere i dati cliente privati di Shopify?

No. robots.txt è un'istruzione crawler, non un meccanismo di sicurezza. Crawler conformi (GPTBot, Googlebot, ecc.) rispettano `Disallow`, ma scraper avversari lo ignorano completamente. Per dati cliente privati, dettagli ordine o endpoint app, usa l'autenticazione + controlli di accesso integrati di Shopify. robots.txt è uno strato; l'auth è la vera linea.

Le pagine noindex dovrebbero essere disallowed in robots.txt?

No — questo è l'errore robots.txt più comune. Se fai `Disallow:` su una pagina noindex, il crawler non legge mai il tag `<meta name="robots" content="noindex">`, e la pagina può essere indicizzata comunque (Google a volte inferisce esistenza da link esterni e indicizza l'URL senza crawlare). Mantieni le pagine noindex crawlabili; blocca solo i percorsi che devono essere totalmente invisibili ai crawler (cart, checkout, account, admin).

Cosa l’accesso GPTBot può e non può fare#

Percorsi Shopify che devono rimanere crawlabili#

Percorsi Shopify che devono rimanere protetti#

L’esempio robots.txt#

Checklist di revisione#

Installare in Shopify#