GPTBot robots.txt pour Shopify : exemples pratiques et vérifications

Exemples robots.txt Shopify pratiques à copier pour GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot — avec une checklist des chemins Shopify qui doivent rester crawlables et de ceux qui doivent toujours être bloqués.

Alex

CTO & Co-founder

Dernière révision: 15 mai 2026 5 min read

robots.txt est la porte qui décide si les moteurs IA shopping peuvent même lire ta boutique Shopify avant de la citer. ChatGPT, Perplexity et Gemini ne répondent aux requêtes commerciales sur les produits Shopify que quand leurs crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) ont effectivement récupéré le contenu de la page. Les bloquer dans robots.txt te rend invisible — tous les autres signaux de visibilité IA (schéma, llms.txt, qualité contenu) deviennent caducs.

Ce guide livre un exemple robots.txt Shopify pratique calibré pour l’ère shopping IA : autoriser le contenu boutique public (produits, collections, blogs, pages) pour les crawlers IA qui comptent, bloquer les chemins checkout / account / admin qui ne doivent pas, et vérifier que ça fonctionne avec l’Analyseur Robots.

Ce que l’accès GPTBot peut et ne peut pas faire

Peut faire	Ne peut pas
Crawler pages produit publiques, collections, blogs	Contourner l’authentification sur les pages privées
Indexer le contenu pour les réponses ChatGPT shopping	Lire le contenu nécessitant login ou permissions app
Lire product schema, llms.txt, FAQ, pages politique	Identifier les acheteurs individuels ou leurs paniers
Respecter `Disallow` sur les crawlers conformes	Imposer la confidentialité — les scrapers adverses ignorent robots.txt
Honorer les directives meta `noindex` sur pages crawlables	Se substituer aux contrôles d’accès Shopify proper

Concrètement : autoriser GPTBot est nécessaire pour la visibilité ChatGPT Shopping, mais pas suffisant. Le crawler atteignant la page est le sol. La visibilité au-dessus est gated par qualité contenu + données structurées.

Chemins Shopify qui doivent rester crawlables

Chemin	Pourquoi
`/products/`	Classe d’URL la plus citée pour les requêtes shopping IA
`/collections/`	Pages browse catégorie ; IA les utilise pour « boutique vend X »
`/blogs/`	Contenu long-form où l’IA extrait du contexte produit
`/pages/faq`	Contenu FAQ — IA cite pour « X supporte-t-il Y »
`/pages/shipping`	Politique livraison — IA cite pour « livre à X »
`/pages/returns`	Politique retour — IA cite pour « si ça ne va pas »
`/pages/size-guide`	Contexte taille — IA cite pour « quelle taille » apparel
`/pages/ingredients`	Guide ingrédients beauté — IA cite pour compatibilité
`/pages/warranty`	Garantie électronique — IA cite pour « quelle est la garantie »
`/llms.txt`	Carte contenu compacte — IA la lit à chaque crawl
`/sitemap.xml`	Découverte d’URLs — IA utilise pour trouver nouvelles pages produit

Chemins Shopify qui doivent rester protégés

Chemin	Pourquoi
`/cart`	État personnalisé — jamais de sens de crawler
`/checkout`	Flux paiement — doit rester privé
`/account`	Dashboard client connecté
`/admin`	Admin Shopify (déjà protégé par auth, explicite c’est mieux)
`/orders/`	Historique commandes par client
`/apps/<private>`	Endpoints app tiers exposant données privées
Pages résultats recherche interne	Contenu mince ou dupliqué ; moteurs IA déclassent sites crawl-lourd
URLs preview / staging	Pas pour visibilité publique

L’exemple robots.txt

Coller dans le robots.txt.liquid de ton thème Shopify (ou l’asset robots.txt). Revoir contre tes apps + thème spécifiques avant la publication — c’est une baseline de départ, pas une réponse universelle.

Exemple robots.txt crawler IA Shopify txt

# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist de revue

Avant la publication, passer cette checklist. Chaque item correspond à une façon dont les boutiques Shopify leakent typiquement la visibilité IA ou exposent des données privées via robots.txt.

Checklist de revue robots.txt crawler IA Shopify txt

Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installer dans Shopify

Dans l’admin Shopify, aller à Boutique en ligne → Thèmes → Modifier le code.
Sous Templates, chercher robots.txt.liquid. S’il n’existe pas, cliquer « Ajouter un nouveau template » → « robots » → « .liquid ».
Remplacer le contenu du fichier par l’exemple ci-dessus (ajusté pour ton URL boutique réelle et tout chemin custom).
Sauvegarder le template.
Vérifier à https://your-store.myshopify.com/robots.txt que le nouveau contenu est servi (cache navigateur + cache edge Shopify peuvent prendre quelques minutes à se vider).
Coller l’URL robots.txt dans l’Analyseur Robots et confirmer que GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot apparaissent tous « allowed » pour /products/ et /collections/.

C’est fait. Les crawlers IA récupèrent le robots.txt mis à jour à leur prochaine visite (généralement sous 24h). Paire ce guide avec le modèle llms.txt mode (ou le pendant beauté/électronique) pour qu’une fois les crawlers arrivés à ta boutique, ils trouvent une carte de contenu qui vaut la peine d’être lue.

Liste de vérification

Les pages produit publiques ne sont pas bloquées
GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot obtiennent tous `Allow: /products/` (ou pas de Disallow explicite couvrant /products/).
Les pages collection publiques ne sont pas bloquées
Les mêmes crawlers peuvent atteindre `/collections/`. Les pages collection Shopify sont la classe d'URL la plus citée pour les requêtes shopping ; les bloquer est la blessure auto-infligée n°1 en visibilité IA.
Le contenu blog et guide public n'est pas bloqué
Les mêmes crawlers peuvent atteindre `/blogs/` et `/pages/` (où Shopify héberge FAQs, guides taille, pages ingrédients, pages politique). Les réponses IA shopping citent beaucoup blog et guide.
Les chemins cart, checkout, account et admin restent protégés
Chaque bloc crawler IA a explicitement `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Ces chemins fuitent du state personnalisé au crawl et n'ont pas leur place dans les réponses IA shopping.
robots.txt n'est pas utilisé comme mécanisme de confidentialité ou sécurité
Les données sensibles (infos client, détails commande, données app privées) sont protégées par authentification, pas par `Disallow`. robots.txt est un hint crawler, pas une frontière de sécurité.
Les pages noindex restent crawlables
Si une page doit être exclue de la recherche, elle doit rester crawlable (pas de `Disallow`) pour que le crawler puisse lire la directive `<meta name="robots" content="noindex">`. Disallow une page noindex la rend invérifiable et Google peut quand même l'indexer.
GPTBot et OAI-SearchBot ont des blocs de règles séparés
Ne partage pas une seule ligne `User-agent: GPTBot,OAI-SearchBot`. Les deux ont des sémantiques de policy différentes (training vs fetch search-time) et les marchands voudront peut-être des règles différentes.
Les changements sont testés dans l'Analyseur Robots après publication
Après avoir déployé le robots.txt mis à jour dans le thème Shopify, coller l'URL dans /tools/robots-analyzer et confirmer que chaque crawler IA montre le statut d'accès attendu.

Lancer l'Analyseur Robots

Prérempli avec l'exemple robots.txt crawler IA Shopify ci-dessous. Coller ton vrai robots.txt Shopify pour comparer, ou utiliser le prefill pour tester la baseline recommandée contre ta boutique.

Questions fréquentes

Autoriser GPTBot garantit-il la visibilité ChatGPT Shopping ?

Non. L'accès crawler est le sol, pas le plafond. GPTBot atteignant ta page produit est nécessaire pour qu'elle soit indexée par les modèles OpenAI, mais la visibilité dans ChatGPT Shopping dépend aussi d'avoir du contexte produit utile (Product schema, llms.txt, descriptions précises, vraies reviews). Autoriser GPTBot, puis auditer le contenu qu'il peut voir — c'est le job complet.

GPTBot et OAI-SearchBot doivent-ils utiliser le même bloc de règles ?

Pas nécessairement. Ils ont des sémantiques de policy différentes : GPTBot est le crawler de training d'OpenAI (son accès affecte si ton contenu entraîne les futurs modèles GPT), tandis qu'OAI-SearchBot est le fetcher search-time (son accès affecte les réponses ChatGPT/Bing en temps réel). Certains marchands veulent autoriser l'accès search-time mais bloquer le training. Traiter comme des choix de policy séparés, avec des blocs `User-agent:` séparés.

robots.txt peut-il protéger les données client privées Shopify ?

Non. robots.txt est une instruction crawler, pas un mécanisme de sécurité. Les crawlers conformes (GPTBot, Googlebot, etc.) respectent `Disallow`, mais les scrapers adverses l'ignorent complètement. Pour les données client privées, détails commande ou endpoints app, utiliser l'authentification + contrôles d'accès intégrés Shopify. robots.txt est une couche ; l'auth est la vraie ligne.

Les pages noindex doivent-elles être disallowed dans robots.txt ?

Non — c'est l'erreur robots.txt la plus commune. Si tu `Disallow:` une page noindex, le crawler ne lit jamais le tag `<meta name="robots" content="noindex">`, et la page peut quand même être indexée (Google déduit parfois l'existence des liens externes et indexe l'URL sans crawler). Garde les pages noindex crawlables ; ne bloque que les chemins qui doivent être totalement invisibles aux crawlers (cart, checkout, account, admin).

Ressources connexes

Modèle llms.txt Shopify mode

Ressource sœur — robots.txt et llms.txt travaillent ensemble. Autoriser le crawler dans robots.txt, puis publier llms.txt pour qu'il sache quoi lire.

Exemple Product Schema pour Shopify apparel

Une fois que GPTBot peut atteindre la page produit (ce guide), le JSON-LD schéma est ce que les moteurs IA shopping parsent pour citer le produit.

Analyseur Robots.txt

Coller ton URL ou contenu robots.txt pour vérifier que chaque crawler IA a le statut d'accès voulu — avant et après le déploiement de changements.

Shopify AI Visibility Optimizer

La pile complète de visibilité IA — la policy crawler est une couche aux côtés de schéma, carte de contenu, et monitoring citations.

llms.txt pour Shopify — guide complet

Une fois que robots.txt autorise les crawlers IA à atteindre ton contenu, llms.txt est la carte de navigation compacte qu'ils lisent pour comprendre la boutique.

Liste User-Agent Crawlers IA

Après avoir corrigé robots.txt pour GPTBot, voici la référence complète sourcée éditeur pour chaque autre crawler IA — qu'autoriser, que bloquer, et lesquels ignorent robots.txt de toute façon.

Ce que l’accès GPTBot peut et ne peut pas faire#

Chemins Shopify qui doivent rester crawlables#

Chemins Shopify qui doivent rester protégés#

L’exemple robots.txt#

Checklist de revue#

Installer dans Shopify#