Vai al contenuto principale
🇮🇹

GPTBot robots.txt per Shopify: esempi pratici e verifiche

Esempi pratici di robots.txt Shopify pronti da copiare per GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot — con una checklist dei percorsi Shopify che devono rimanere crawlabili e di quelli che devono essere sempre bloccati.

5 min read

robots.txt è la porta che decide se i motori AI shopping possono nemmeno leggere il tuo store Shopify prima di citarlo. ChatGPT, Perplexity e Gemini rispondono a query commerciali su prodotti Shopify solo quando i loro crawler (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) hanno effettivamente recuperato il contenuto della pagina. Bloccarli in robots.txt ti rende invisibile — ogni altro segnale di visibilità AI (schema, llms.txt, qualità contenuto) diventa discutibile.

Questa guida fornisce un esempio pratico di robots.txt Shopify calibrato per l’era shopping AI: permettere il contenuto pubblico dello store (prodotti, collezioni, blog, pages) per i crawler AI che contano, bloccare i percorsi checkout / account / admin che non dovrebbero, e verificare che funzioni usando l’Analizzatore Robots.

Cosa l’accesso GPTBot può e non può fare

PuòNon può
Crawlare pagine prodotto, collezioni, blog pubbliciAggirare l’autenticazione su pagine private
Indicizzare contenuto per risposte ChatGPT shoppingLeggere contenuto che richiede login o permessi app
Leggere product schema, llms.txt, FAQ, pagine policyIdentificare singoli acquirenti o i loro carrelli
Rispettare direttive Disallow su crawler conformiImporre privacy — scraper avversari ignorano robots.txt
Onorare direttive meta noindex su pagine crawlabiliSostituire controlli di accesso Shopify proper

Concretamente: permettere GPTBot è necessario per la visibilità ChatGPT Shopping, ma non sufficiente. Il crawler che raggiunge la pagina è il pavimento. La visibilità sopra è gated da qualità contenuto

  • dati strutturati.

Percorsi Shopify che devono rimanere crawlabili

PercorsoPerché
/products/Classe di URL più citata per query shopping AI
/collections/Pagine browse categoria; AI le usa per «store vende X»
/blogs/Contenuto long-form da cui AI estrae contesto prodotto
/pages/faqContenuto FAQ — AI cita per «X supporta Y»
/pages/shippingPolicy spedizione — AI cita per «spedisce in X»
/pages/returnsPolicy reso — AI cita per «se non va bene»
/pages/size-guideContesto taglie — AI cita per «che taglia sono» apparel
/pages/ingredientsGuida ingredienti beauty — AI cita per compatibilità
/pages/warrantyGaranzia elettronica — AI cita per «qual è la garanzia»
/llms.txtMappa contenuto compatta — AI la legge a ogni crawl
/sitemap.xmlScoperta URL — AI usa per trovare nuove pagine prodotto

Percorsi Shopify che devono rimanere protetti

PercorsoPerché
/cartStato personalizzato — crawlarlo non ha mai senso
/checkoutFlusso pagamento — deve essere privato
/accountDashboard cliente loggato
/adminAdmin Shopify (già protetto da auth, esplicito è meglio)
/orders/Storico ordini per cliente
/apps/<private>Endpoint app terze parti che espongono dati privati
Pagine risultati ricerca internaContenuto sottile o duplicato; motori AI penalizzano siti crawl-pesanti
URL preview / stagingNon per visibilità pubblica

L’esempio robots.txt

Incolla nel robots.txt.liquid del tuo tema Shopify (o nell’asset robots.txt). Rivedi contro le tue app + tema specifici prima della pubblicazione — questa è una baseline di partenza, non una risposta universale.

Esempio robots.txt crawler AI Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist di revisione

Prima di pubblicare, esegui questa checklist. Ogni voce corrisponde a un modo in cui gli store Shopify tipicamente perdono visibilità AI o espongono dati privati attraverso robots.txt.

Checklist di revisione robots.txt crawler AI Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installare in Shopify

  1. Nell’admin Shopify, vai a Negozio online → Temi → Modifica codice.
  2. Sotto Template, cerca robots.txt.liquid. Se non esiste, clicca «Aggiungi un nuovo template» → «robots» → «.liquid».
  3. Sostituisci il contenuto del file con l’esempio sopra (adattato per il tuo URL store reale e qualunque percorso custom).
  4. Salva il template.
  5. Verifica a https://your-store.myshopify.com/robots.txt che il nuovo contenuto venga servito (cache browser + cache edge Shopify potrebbero impiegare alcuni minuti a pulirsi).
  6. Incolla l’URL robots.txt nell’Analizzatore Robots e conferma che GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot appaiano tutti come «allowed» per /products/ e /collections/.

Fatto. I crawler AI raccoglieranno il robots.txt aggiornato alla prossima visita (tipicamente entro 24 ore). Abbina questa guida con il template llms.txt moda (o il fratello beauty/elettronica) così una volta che i crawler raggiungono il tuo store, trovano una mappa di contenuto che vale la pena leggere.

Elenco di verifica

  • Pagine prodotto pubbliche non sono bloccate

    GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot ricevono tutti `Allow: /products/` (o nessun Disallow esplicito che copra /products/).

  • Pagine collezione pubbliche non sono bloccate

    Gli stessi crawler possono raggiungere `/collections/`. Le pagine collezione Shopify sono la classe di URL più citata per le query shopping; bloccarle è la ferita autoinflitta n. 1 in visibilità AI.

  • Contenuto blog e guida pubblico non è bloccato

    Gli stessi crawler possono raggiungere `/blogs/` e `/pages/` (dove Shopify ospita FAQ, guide taglia, pagine ingredienti, pagine policy). Le risposte AI shopping citano molto contenuto blog e guida.

  • Percorsi cart, checkout, account e admin rimangono protetti

    Ogni blocco crawler AI ha esplicitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Questi percorsi rivelano stato personalizzato quando crawlati e non appartengono nelle risposte AI shopping.

  • robots.txt non è usato come meccanismo di privacy o sicurezza

    Dati sensibili (info cliente, dettagli ordine, dati app privati) sono protetti da autenticazione, non da `Disallow`. robots.txt è un hint crawler, non un confine di sicurezza.

  • Pagine noindex rimangono crawlabili

    Se una pagina deve essere esclusa dalla ricerca, deve rimanere crawlabile (nessun `Disallow`) così il crawler può leggere la direttiva `<meta name="robots" content="noindex">`. Disallow una pagina noindex la rende non verificabile e Google potrebbe indicizzarla comunque.

  • GPTBot e OAI-SearchBot gestiti con blocchi regola separati

    Non condividere una sola riga `User-agent: GPTBot,OAI-SearchBot`. I due hanno semantiche policy diverse (training vs fetch search-time) e i merchant potrebbero volere regole diverse per crawler.

  • Modifiche testate nell'Analizzatore Robots dopo la pubblicazione

    Dopo aver deployato il robots.txt aggiornato nel tema Shopify, incolla l'URL in /tools/robots-analyzer e conferma che ogni crawler AI mostra lo stato di accesso atteso.

Esegui l'Analizzatore Robots

Precompilato con l'esempio robots.txt crawler AI Shopify qui sotto. Incolla il tuo robots.txt Shopify reale per confrontare, o usa il prefill per testare la baseline raccomandata contro il tuo store.

Domande frequenti

Permettere GPTBot garantisce la visibilità in ChatGPT Shopping?

No. L'accesso crawler è il pavimento, non il soffitto. GPTBot che raggiunge la tua pagina prodotto è necessario affinché sia indicizzata dai modelli OpenAI, ma la visibilità in ChatGPT Shopping dipende anche dall'avere contesto prodotto utile (Product schema, llms.txt, descrizioni accurate, recensioni reali). Permetti GPTBot, poi audita il contenuto che può vedere — questo è il lavoro completo.

GPTBot e OAI-SearchBot devono usare lo stesso blocco regola?

Non necessariamente. Hanno semantiche policy diverse: GPTBot è il crawler di training di OpenAI (il suo accesso influenza se il tuo contenuto allena futuri modelli GPT), mentre OAI-SearchBot è il fetcher search-time (il suo accesso influenza le risposte ChatGPT/Bing in tempo reale). Alcuni merchant vogliono permettere l'accesso search-time ma bloccare il training. Trattali come scelte policy separate, con blocchi `User-agent:` separati.

robots.txt può proteggere i dati cliente privati di Shopify?

No. robots.txt è un'istruzione crawler, non un meccanismo di sicurezza. Crawler conformi (GPTBot, Googlebot, ecc.) rispettano `Disallow`, ma scraper avversari lo ignorano completamente. Per dati cliente privati, dettagli ordine o endpoint app, usa l'autenticazione + controlli di accesso integrati di Shopify. robots.txt è uno strato; l'auth è la vera linea.

Le pagine noindex dovrebbero essere disallowed in robots.txt?

No — questo è l'errore robots.txt più comune. Se fai `Disallow:` su una pagina noindex, il crawler non legge mai il tag `<meta name="robots" content="noindex">`, e la pagina può essere indicizzata comunque (Google a volte inferisce esistenza da link esterni e indicizza l'URL senza crawlare). Mantieni le pagine noindex crawlabili; blocca solo i percorsi che devono essere totalmente invisibili ai crawler (cart, checkout, account, admin).

Risorse correlate