Aller au contenu principal
🇫🇷

GPTBot robots.txt pour Shopify : exemples pratiques et vérifications

Exemples robots.txt Shopify pratiques à copier pour GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot — avec une checklist des chemins Shopify qui doivent rester crawlables et de ceux qui doivent toujours être bloqués.

5 min read

robots.txt est la porte qui décide si les moteurs IA shopping peuvent même lire ta boutique Shopify avant de la citer. ChatGPT, Perplexity et Gemini ne répondent aux requêtes commerciales sur les produits Shopify que quand leurs crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) ont effectivement récupéré le contenu de la page. Les bloquer dans robots.txt te rend invisible — tous les autres signaux de visibilité IA (schéma, llms.txt, qualité contenu) deviennent caducs.

Ce guide livre un exemple robots.txt Shopify pratique calibré pour l’ère shopping IA : autoriser le contenu boutique public (produits, collections, blogs, pages) pour les crawlers IA qui comptent, bloquer les chemins checkout / account / admin qui ne doivent pas, et vérifier que ça fonctionne avec l’Analyseur Robots.

Ce que l’accès GPTBot peut et ne peut pas faire

Peut faireNe peut pas
Crawler pages produit publiques, collections, blogsContourner l’authentification sur les pages privées
Indexer le contenu pour les réponses ChatGPT shoppingLire le contenu nécessitant login ou permissions app
Lire product schema, llms.txt, FAQ, pages politiqueIdentifier les acheteurs individuels ou leurs paniers
Respecter Disallow sur les crawlers conformesImposer la confidentialité — les scrapers adverses ignorent robots.txt
Honorer les directives meta noindex sur pages crawlablesSe substituer aux contrôles d’accès Shopify proper

Concrètement : autoriser GPTBot est nécessaire pour la visibilité ChatGPT Shopping, mais pas suffisant. Le crawler atteignant la page est le sol. La visibilité au-dessus est gated par qualité contenu + données structurées.

Chemins Shopify qui doivent rester crawlables

CheminPourquoi
/products/Classe d’URL la plus citée pour les requêtes shopping IA
/collections/Pages browse catégorie ; IA les utilise pour « boutique vend X »
/blogs/Contenu long-form où l’IA extrait du contexte produit
/pages/faqContenu FAQ — IA cite pour « X supporte-t-il Y »
/pages/shippingPolitique livraison — IA cite pour « livre à X »
/pages/returnsPolitique retour — IA cite pour « si ça ne va pas »
/pages/size-guideContexte taille — IA cite pour « quelle taille » apparel
/pages/ingredientsGuide ingrédients beauté — IA cite pour compatibilité
/pages/warrantyGarantie électronique — IA cite pour « quelle est la garantie »
/llms.txtCarte contenu compacte — IA la lit à chaque crawl
/sitemap.xmlDécouverte d’URLs — IA utilise pour trouver nouvelles pages produit

Chemins Shopify qui doivent rester protégés

CheminPourquoi
/cartÉtat personnalisé — jamais de sens de crawler
/checkoutFlux paiement — doit rester privé
/accountDashboard client connecté
/adminAdmin Shopify (déjà protégé par auth, explicite c’est mieux)
/orders/Historique commandes par client
/apps/<private>Endpoints app tiers exposant données privées
Pages résultats recherche interneContenu mince ou dupliqué ; moteurs IA déclassent sites crawl-lourd
URLs preview / stagingPas pour visibilité publique

L’exemple robots.txt

Coller dans le robots.txt.liquid de ton thème Shopify (ou l’asset robots.txt). Revoir contre tes apps + thème spécifiques avant la publication — c’est une baseline de départ, pas une réponse universelle.

Exemple robots.txt crawler IA Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist de revue

Avant la publication, passer cette checklist. Chaque item correspond à une façon dont les boutiques Shopify leakent typiquement la visibilité IA ou exposent des données privées via robots.txt.

Checklist de revue robots.txt crawler IA Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installer dans Shopify

  1. Dans l’admin Shopify, aller à Boutique en ligne → Thèmes → Modifier le code.
  2. Sous Templates, chercher robots.txt.liquid. S’il n’existe pas, cliquer « Ajouter un nouveau template » → « robots » → « .liquid ».
  3. Remplacer le contenu du fichier par l’exemple ci-dessus (ajusté pour ton URL boutique réelle et tout chemin custom).
  4. Sauvegarder le template.
  5. Vérifier à https://your-store.myshopify.com/robots.txt que le nouveau contenu est servi (cache navigateur + cache edge Shopify peuvent prendre quelques minutes à se vider).
  6. Coller l’URL robots.txt dans l’Analyseur Robots et confirmer que GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot apparaissent tous « allowed » pour /products/ et /collections/.

C’est fait. Les crawlers IA récupèrent le robots.txt mis à jour à leur prochaine visite (généralement sous 24h). Paire ce guide avec le modèle llms.txt mode (ou le pendant beauté/électronique) pour qu’une fois les crawlers arrivés à ta boutique, ils trouvent une carte de contenu qui vaut la peine d’être lue.

Liste de vérification

  • Les pages produit publiques ne sont pas bloquées

    GPTBot, OAI-SearchBot, ChatGPT-User et PerplexityBot obtiennent tous `Allow: /products/` (ou pas de Disallow explicite couvrant /products/).

  • Les pages collection publiques ne sont pas bloquées

    Les mêmes crawlers peuvent atteindre `/collections/`. Les pages collection Shopify sont la classe d'URL la plus citée pour les requêtes shopping ; les bloquer est la blessure auto-infligée n°1 en visibilité IA.

  • Le contenu blog et guide public n'est pas bloqué

    Les mêmes crawlers peuvent atteindre `/blogs/` et `/pages/` (où Shopify héberge FAQs, guides taille, pages ingrédients, pages politique). Les réponses IA shopping citent beaucoup blog et guide.

  • Les chemins cart, checkout, account et admin restent protégés

    Chaque bloc crawler IA a explicitement `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Ces chemins fuitent du state personnalisé au crawl et n'ont pas leur place dans les réponses IA shopping.

  • robots.txt n'est pas utilisé comme mécanisme de confidentialité ou sécurité

    Les données sensibles (infos client, détails commande, données app privées) sont protégées par authentification, pas par `Disallow`. robots.txt est un hint crawler, pas une frontière de sécurité.

  • Les pages noindex restent crawlables

    Si une page doit être exclue de la recherche, elle doit rester crawlable (pas de `Disallow`) pour que le crawler puisse lire la directive `<meta name="robots" content="noindex">`. Disallow une page noindex la rend invérifiable et Google peut quand même l'indexer.

  • GPTBot et OAI-SearchBot ont des blocs de règles séparés

    Ne partage pas une seule ligne `User-agent: GPTBot,OAI-SearchBot`. Les deux ont des sémantiques de policy différentes (training vs fetch search-time) et les marchands voudront peut-être des règles différentes.

  • Les changements sont testés dans l'Analyseur Robots après publication

    Après avoir déployé le robots.txt mis à jour dans le thème Shopify, coller l'URL dans /tools/robots-analyzer et confirmer que chaque crawler IA montre le statut d'accès attendu.

Lancer l'Analyseur Robots

Prérempli avec l'exemple robots.txt crawler IA Shopify ci-dessous. Coller ton vrai robots.txt Shopify pour comparer, ou utiliser le prefill pour tester la baseline recommandée contre ta boutique.

Questions fréquentes

Autoriser GPTBot garantit-il la visibilité ChatGPT Shopping ?

Non. L'accès crawler est le sol, pas le plafond. GPTBot atteignant ta page produit est nécessaire pour qu'elle soit indexée par les modèles OpenAI, mais la visibilité dans ChatGPT Shopping dépend aussi d'avoir du contexte produit utile (Product schema, llms.txt, descriptions précises, vraies reviews). Autoriser GPTBot, puis auditer le contenu qu'il peut voir — c'est le job complet.

GPTBot et OAI-SearchBot doivent-ils utiliser le même bloc de règles ?

Pas nécessairement. Ils ont des sémantiques de policy différentes : GPTBot est le crawler de training d'OpenAI (son accès affecte si ton contenu entraîne les futurs modèles GPT), tandis qu'OAI-SearchBot est le fetcher search-time (son accès affecte les réponses ChatGPT/Bing en temps réel). Certains marchands veulent autoriser l'accès search-time mais bloquer le training. Traiter comme des choix de policy séparés, avec des blocs `User-agent:` séparés.

robots.txt peut-il protéger les données client privées Shopify ?

Non. robots.txt est une instruction crawler, pas un mécanisme de sécurité. Les crawlers conformes (GPTBot, Googlebot, etc.) respectent `Disallow`, mais les scrapers adverses l'ignorent complètement. Pour les données client privées, détails commande ou endpoints app, utiliser l'authentification + contrôles d'accès intégrés Shopify. robots.txt est une couche ; l'auth est la vraie ligne.

Les pages noindex doivent-elles être disallowed dans robots.txt ?

Non — c'est l'erreur robots.txt la plus commune. Si tu `Disallow:` une page noindex, le crawler ne lit jamais le tag `<meta name="robots" content="noindex">`, et la page peut quand même être indexée (Google déduit parfois l'existence des liens externes et indexe l'URL sans crawler). Garde les pages noindex crawlables ; ne bloque que les chemins qui doivent être totalement invisibles aux crawlers (cart, checkout, account, admin).

Ressources connexes