Naar hoofdinhoud springen
🇳🇱

GPTBot robots.txt voor Shopify: praktische voorbeelden en checks

Praktische Shopify-robots.txt-voorbeelden om te kopiëren voor GPTBot, OAI-SearchBot, ChatGPT-User en PerplexityBot — met een checklist voor welke Shopify-paden crawlbaar moeten blijven en welke altijd geblokkeerd moeten zijn.

4 min read

robots.txt is de poort die beslist of AI-shoppingengines je Shopify- store überhaupt kunnen lezen voordat ze hem citeren. ChatGPT, Perplexity en Gemini beantwoorden commerciële vragen over Shopify-producten alleen wanneer hun crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) de pagina-inhoud daadwerkelijk hebben opgehaald. Ze blokkeren in robots.txt maakt je onzichtbaar — elk ander AI-zichtbaarheids signaal (schema, llms.txt, contentkwaliteit) wordt daarmee betekenisloos.

Deze gids levert een praktisch Shopify-robots.txt-voorbeeld gekalibreerd voor het AI-shoppingtijdperk: publieke storecontent (producten, collecties, blogs, pages) toestaan voor de AI-crawlers die ertoe doen, de checkout-/account-/admin-paden blokkeren die niet horen, en verifiëren met de Robots-analyzer.

Wat GPTBot-toegang wel en niet kan

WelNiet
Publieke productpagina’s, collecties, blogs crawlenAuthenticatie omzeilen op privépagina’s
Content indexeren voor ChatGPT-shoppingantwoordenContent lezen die login of app-permissies vereist
Product schema, llms.txt, FAQ, beleidspagina’s lezenIndividuele kopers of hun winkelwagen identificeren
Disallow-directives respecteren op conforme crawlersPrivacy afdwingen — adversariale scrapers negeren robots.txt
noindex-meta-directives honoreren op crawlbare pagina’sGoede Shopify-toegangscontroles vervangen

Concreet: GPTBot toestaan is nodig voor ChatGPT-Shopping-zichtbaarheid, maar niet voldoende. De crawler die de pagina bereikt is de vloer. Zichtbaarheid daarboven wordt gated door contentkwaliteit + gestructureerde data.

Shopify-paden die crawlbaar moeten blijven

PadWaarom
/products/Meest geciteerde URL-klasse voor AI-shoppingvragen
/collections/Categorie-browse-pagina’s; AI gebruikt voor ‘store verkoopt X’
/blogs/Long-form content waaruit AI productcontext extraheert
/pages/faqFAQ-content — AI citeert voor ‘ondersteunt X Y’
/pages/shippingVerzendbeleid — AI citeert voor ‘verzendt naar X’
/pages/returnsRetourbeleid — AI citeert voor ‘wat als het niet past’
/pages/size-guideMaatcontext — AI citeert voor ‘welke maat ben ik’ apparel
/pages/ingredientsBeauty-ingrediëntengids — AI citeert voor compatibiliteit
/pages/warrantyElectronics-garantie — AI citeert voor ‘wat is de garantie’
/llms.txtCompacte content map — AI leest bij elke crawl
/sitemap.xmlURL-discovery — AI gebruikt om nieuwe productpagina’s te vinden

Shopify-paden die beschermd moeten blijven

PadWaarom
/cartGepersonaliseerde state — crawlen heeft nooit zin
/checkoutBetalingsflow — moet privé zijn
/accountIngelogd klantendashboard
/adminShopify-admin (al beschermd door auth, expliciet is beter)
/orders/Ordergeschiedenis per klant
/apps/<private>Third-party app-endpoints die private data blootstellen
Interne zoekresultaatpagina’sDunne of dubbele content; AI-engines downweighten crawl-zware sites
Preview/staging-URLsNiet voor publieke zichtbaarheid

Het robots.txt-voorbeeld

Plak in de robots.txt.liquid van je Shopify-thema (of de robots.txt-asset). Beoordeel tegen je specifieke apps + thema voor publicatie — dit is een starter-baseline, geen one-size-fits-all- antwoord.

Shopify AI-crawler robots.txt voorbeeld txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Review checklist

Loop deze checklist door voor publicatie. Elk item komt overeen met een manier waarop Shopify-stores typisch AI-zichtbaarheid lekken of private data blootstellen via robots.txt.

Shopify AI-crawler robots.txt review checklist txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installeren in Shopify

  1. In Shopify-admin ga naar Online store → Thema’s → Code bewerken.
  2. Onder Templates zoek robots.txt.liquid. Als het niet bestaat, klik ‘Nieuwe template toevoegen’ → ‘robots’ → ‘.liquid’.
  3. Vervang de bestandsinhoud door het bovenstaande voorbeeld (aangepast voor je echte store-URL en eventuele custom paden).
  4. Sla het template op.
  5. Verifieer bij https://your-store.myshopify.com/robots.txt dat de nieuwe content wordt geserveerd (browser-cache + Shopify-edge-cache kunnen enkele minuten nodig hebben om te legen).
  6. Plak de robots.txt-URL in de Robots-analyzer en bevestig dat GPTBot, OAI-SearchBot, ChatGPT-User en PerplexityBot allemaal als ‘allowed’ worden getoond voor /products/ en /collections/.

Klaar. AI-crawlers pakken de bijgewerkte robots.txt op bij hun volgende bezoek (gewoonlijk binnen 24 uur). Combineer deze gids met het fashion llms.txt-sjabloon (of de beauty/electronics-zuster) zodat zodra crawlers je store bereiken, ze een content map vinden die de moeite waard is om te lezen.

Validatiechecklist

  • Publieke productpagina's zijn niet geblokkeerd

    GPTBot, OAI-SearchBot, ChatGPT-User en PerplexityBot krijgen allemaal `Allow: /products/` (of geen expliciete Disallow die /products/ dekt).

  • Publieke collectiepagina's zijn niet geblokkeerd

    Dezelfde crawlers kunnen `/collections/` bereiken. Shopify-collectiepagina's zijn de meest geciteerde URL-klasse voor shoppingvragen; ze blokkeren is de zelftoegebrachte wond nr. 1 in AI-zichtbaarheid.

  • Publieke blog- en gidsinhoud is niet geblokkeerd

    Dezelfde crawlers kunnen `/blogs/` en `/pages/` bereiken (waar Shopify FAQs, maatgidsen, ingrediëntenpagina's en beleidspagina's hosts). AI-shoppingantwoorden citeren veel blog- en gidsinhoud.

  • Cart-, checkout-, account- en admin-paden blijven beschermd

    Elk AI-crawler-blok heeft expliciet `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Deze paden lekken gepersonaliseerde state bij crawlen en horen niet in AI-shoppingantwoorden.

  • robots.txt wordt niet gebruikt als privacy- of beveiligingsmechanisme

    Gevoelige data (klantinfo, ordergegevens, private app-data) beschermd door authenticatie, niet door `Disallow`. robots.txt is een crawler-hint, geen beveiligingsgrens.

  • noindex-pagina's blijven crawlbaar

    Als een pagina uitgesloten moet worden van zoeken, moet hij crawlbaar blijven (geen `Disallow`) zodat de crawler de `<meta name="robots" content="noindex">`-directive kan lezen. Disallow van een noindex-pagina maakt hem onverifieerbaar en Google kan hem alsnog indexeren.

  • GPTBot en OAI-SearchBot afgehandeld met aparte regelblokken

    Deel geen enkele `User-agent: GPTBot,OAI-SearchBot`-regel. De twee hebben verschillende policy-semantiek (training vs search-time fetch) en merchants willen mogelijk verschillende regels per crawler.

  • Wijzigingen getest in de Robots-analyzer na publicatie

    Na het deployen van de bijgewerkte robots.txt naar het Shopify-thema, plak de URL in /tools/robots-analyzer en bevestig dat elke AI-crawler de verwachte toegangsstatus toont.

Start de Robots-analyzer

Vooringevuld met het Shopify AI-crawler voorbeeld robots.txt hieronder. Plak je echte Shopify robots.txt om te vergelijken, of gebruik de prefill om de aanbevolen baseline tegen je store te testen.

Veelgestelde vragen

Garandeert het toestaan van GPTBot ChatGPT-Shopping-zichtbaarheid?

Nee. Crawler-toegang is de vloer, niet het plafond. GPTBot die je productpagina bereikt is nodig om geïndexeerd te worden door OpenAI-modellen, maar zichtbaarheid in ChatGPT Shopping hangt ook af van nuttige productcontext (Product schema, llms.txt, accurate beschrijvingen, echte reviews). Sta GPTBot toe en audit dan de content die hij kan zien — dat is het volledige werk.

Moeten GPTBot en OAI-SearchBot hetzelfde regelblok gebruiken?

Niet noodzakelijk. Ze hebben verschillende policy-semantiek: GPTBot is OpenAI's trainingscrawler (zijn toegang beïnvloedt of je content toekomstige GPT-modellen traint), terwijl OAI-SearchBot de search-time fetcher is (zijn toegang beïnvloedt real-time ChatGPT/Bing-antwoorden). Sommige merchants willen search-time toegang toestaan maar training blokkeren. Behandel als gescheiden policy-keuzes, met aparte `User-agent:`-blokken.

Kan robots.txt private Shopify-klantgegevens beschermen?

Nee. robots.txt is een crawler-instructie, geen beveiligingsmechanisme. Conforme crawlers (GPTBot, Googlebot, enz.) respecteren `Disallow`, maar adversariale scrapers negeren het volledig. Voor private klantgegevens, ordergegevens of app-endpoints gebruik je Shopify's ingebouwde authenticatie + toegangscontroles. robots.txt is een laag; auth is de echte lijn.

Moeten noindex-pagina's disallowed worden in robots.txt?

Nee — dit is de meest voorkomende robots.txt-fout. Als je `Disallow:` op een noindex-pagina toepast, leest de crawler nooit de `<meta name="robots" content="noindex">`-tag en kan de pagina alsnog geïndexeerd worden (Google leidt soms bestaan af uit externe links en indexeert de URL zonder te crawlen). Houd noindex-pagina's crawlbaar; blokkeer alleen paden die volledig onzichtbaar voor crawlers moeten zijn (cart, checkout, account, admin).

Verwante bronnen