GPTBot robots.txt für Shopify: Praxisbeispiele und Checks
Praktische Shopify-robots.txt-Beispiele für GPTBot, OAI-SearchBot, ChatGPT-User und PerplexityBot zum Kopieren — mit Checkliste, welche Shopify-Pfade crawlbar bleiben und welche immer geblockt werden sollten.
robots.txt ist das Tor, das entscheidet, ob KI-Shopping-Engines deinen
Shopify-Store überhaupt lesen können, bevor sie ihn zitieren. ChatGPT,
Perplexity und Gemini beantworten kommerzielle Queries zu Shopify-
Produkten nur, wenn ihre Crawler (GPTBot, OAI-SearchBot, ChatGPT-User,
PerplexityBot) den Page-Content tatsächlich gefetched haben. Sie in
robots.txt zu blocken macht dich unsichtbar — jedes andere KI-
Sichtbarkeitssignal (Schema, llms.txt, Content-Qualität) wird damit
hinfällig.
Dieser Guide liefert ein praktisches Shopify-robots.txt-Beispiel, kalibriert für die KI-Shopping-Ära: öffentlichen Store-Content (Produkte, Kollektionen, Blogs, Pages) für die wichtigen KI-Crawler erlauben, die Checkout-/Account-/Admin-Pfade blocken, die es nicht sollen, und mit dem Robots-Analyzer verifizieren, dass es funktioniert.
Was GPTBot-Zugriff kann und nicht kann
| Kann | Kann nicht |
|---|---|
| Öffentliche Produktseiten, Kollektionen, Blogs crawlen | Authentifizierung auf privaten Seiten umgehen |
| Content für ChatGPT-Shopping-Antworten indexieren | Content lesen, der Login oder App-Permissions braucht |
| Product Schema, llms.txt, FAQ, Policy-Seiten lesen | Einzelne Käufer oder ihre Cart-Inhalte identifizieren |
Disallow-Direktiven auf konformen Crawlern respektieren | Privacy erzwingen — adversariale Scraper ignorieren robots.txt |
noindex-Meta-Direktiven auf crawlbaren Seiten honorieren | Proper Shopify-Access-Controls ersetzen |
Konkret: GPTBot zu erlauben ist notwendig für ChatGPT-Shopping- Sichtbarkeit, aber nicht hinreichend. Der Crawler erreicht die Seite — das ist der Boden. Sichtbarkeit ist darüber durch Content-Qualität + strukturierte Daten gegated.
Shopify-Pfade, die crawlbar bleiben sollen
| Pfad | Warum |
|---|---|
/products/ | Meistzitierte URL-Klasse für KI-Shopping-Queries |
/collections/ | Kategorie-Browse-Seiten; KI nutzt sie für „Store verkauft X”-Antworten |
/blogs/ | Long-Form-Content, aus dem KI Produktkontext extrahiert |
/pages/faq | FAQ-Content — KI zitiert für „unterstützt X auch Y”-Queries |
/pages/shipping | Versand-Policy — KI zitiert für „liefert nach X”-Queries |
/pages/returns | Rückgabe-Policy — KI zitiert für „was, wenn nicht passt”-Queries |
/pages/size-guide | Größen-Kontext — KI zitiert für „welche Größe”-Apparel-Queries |
/pages/ingredients | Beauty-Inhaltsstoff-Guide — KI zitiert für Kompatibilitätsqueries |
/pages/warranty | Electronics-Garantie — KI zitiert für „was ist die Garantie”-Queries |
/llms.txt | Kompakte Inhaltskarte — KI liest sie bei jedem Crawl |
/sitemap.xml | URL-Discovery — KI nutzt sie, um neue Produktseiten zu finden |
Shopify-Pfade, die geschützt bleiben sollen
| Pfad | Warum |
|---|---|
/cart | Personalisierter State — Crawlen macht nie Sinn |
/checkout | Zahlungsflow — muss privat sein |
/account | Eingeloggtes Kunden-Dashboard |
/admin | Shopify-Admin (bereits durch Auth geschützt, explizit ist besser) |
/orders/ | Order-Historie pro Kunde |
/apps/<private> | Third-Party-App-Endpoints, die private Daten exponieren |
| Interne Suchergebnisseiten | Thin- oder Duplicate-Content; KI-Engines downweighten crawllastige Sites |
| Preview-/Staging-URLs | Nicht für öffentliche Sichtbarkeit |
Das robots.txt-Beispiel
Ins robots.txt.liquid deines Shopify-Themes (oder das robots.txt-
Asset) einfügen. Vor dem Publish gegen deine spezifischen Apps + Theme
prüfen — das ist eine Starter-Baseline, keine One-Size-Fits-All-Antwort.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Review-Checkliste
Vor dem Publish durchgehen. Jeder Punkt entspricht einer Art, wie Shopify-Stores typischerweise KI-Sichtbarkeit leaken oder private Daten durch robots.txt exponieren.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Installation in Shopify
- Im Shopify-Admin zu Onlineshop → Themes → Code bearbeiten.
- Unter Templates nach
robots.txt.liquidsuchen. Falls nicht vorhanden, „Neues Template hinzufügen” → „robots” → „.liquid” klicken. - Datei-Inhalt durch das obige Beispiel ersetzen (an deine echte Store-URL und etwaige Custom-Pfade angepasst).
- Template speichern.
- Bei
https://your-store.myshopify.com/robots.txtverifizieren, dass der neue Content ausgeliefert wird (Browser-Cache + Shopify-Edge-Cache können einige Minuten brauchen, um zu leeren). - robots.txt-URL in den
Robots-Analyzer
einfügen und bestätigen, dass GPTBot, OAI-SearchBot, ChatGPT-User
und PerplexityBot alle als „allowed” für
/products/und/collections/angezeigt werden.
Fertig. KI-Crawler holen sich das aktualisierte robots.txt beim nächsten Besuch (typischerweise innerhalb 24 Stunden). Pair diesen Guide mit der Fashion-llms.txt-Vorlage (oder dem Beauty/Electronics-Pendant), sodass die Crawler beim Erreichen deines Stores eine lesenswerte Inhaltskarte finden.
Validierungs-Checkliste
Öffentliche Produktseiten sind nicht geblockt
GPTBot, OAI-SearchBot, ChatGPT-User und PerplexityBot bekommen alle `Allow: /products/` (oder kein explizites Disallow, das /products/ abdeckt).
Öffentliche Kollektionsseiten sind nicht geblockt
Dieselben Crawler erreichen `/collections/`. Shopify-Kollektionsseiten sind die meistzitierte URL-Klasse für Shopping-Queries; sie zu blocken ist die häufigste selbstverschuldete KI-Sichtbarkeitswunde.
Öffentliche Blog- und Guide-Inhalte sind nicht geblockt
Dieselben Crawler erreichen `/blogs/` und `/pages/` (wo Shopify FAQs, Größentabellen, Inhaltsstoffseiten und Policy-Seiten hostet). KI-Shopping-Antworten zitieren Blog- und Guide-Inhalte stark.
Cart-, Checkout-, Account- und Admin-Pfade bleiben geschützt
Jeder KI-Crawler-Block hat explizit `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Diese Pfade leaken personalisierten State beim Crawlen und gehören nicht in KI-Shopping-Antworten.
robots.txt wird nicht als Privacy- oder Sicherheitsmechanismus genutzt
Sensible Daten (Kundendaten, Bestellinfos, private App-Daten) sind durch Authentifizierung geschützt, nicht durch `Disallow`. robots.txt ist ein Crawler-Hinweis, keine Sicherheitsgrenze.
noindex-Seiten bleiben crawlbar
Wenn eine Seite aus der Suche ausgeschlossen werden soll, muss sie crawlbar bleiben (kein `Disallow`), damit der Crawler die `<meta name="robots" content="noindex">`-Direktive lesen kann. Disallow einer noindex-Seite macht sie unprüfbar, und Google indexiert sie möglicherweise trotzdem.
GPTBot und OAI-SearchBot werden mit separaten Regelblöcken behandelt
Teile dir keine einzelne `User-agent: GPTBot,OAI-SearchBot`-Zeile. Beide haben unterschiedliche Policy-Semantik (Training vs. Search-Fetch) und Merchants wollen ggf. verschiedene Regeln pro Crawler.
Änderungen werden nach dem Publish im Robots-Analyzer getestet
Nach dem Deploy der aktualisierten robots.txt ins Shopify-Theme die URL in /tools/robots-analyzer einfügen und bestätigen, dass jeder KI-Crawler den erwarteten Zugriffsstatus zeigt.
Robots-Analyzer ausführen
Vorausgefüllt mit dem Shopify-KI-Crawler-robots.txt-Beispiel unten. Deine echte Shopify-robots.txt einfügen zum Vergleich, oder mit dem Prefill die empfohlene Baseline gegen deinen Store testen.
Häufig gestellte Fragen
Garantiert das Erlauben von GPTBot ChatGPT-Shopping-Sichtbarkeit?
Nein. Crawler-Zugriff ist der Boden, nicht die Decke. GPTBot, der deine Produktseite erreicht, ist notwendig dafür, dass sie von OpenAI-Modellen indexiert wird, aber Sichtbarkeit in ChatGPT Shopping hängt auch von nützlichem Produktkontext (Product Schema, llms.txt, akkurate Beschreibungen, echte Reviews) ab. GPTBot erlauben, dann den Content auditieren, den er sieht — das ist die volle Arbeit.
Sollen GPTBot und OAI-SearchBot denselben Regelblock nutzen?
Nicht unbedingt. Sie haben unterschiedliche Policy-Semantik: GPTBot ist OpenAIs Training-Crawler (sein Zugriff beeinflusst, ob dein Content zukünftige GPT-Modelle trainiert), während OAI-SearchBot der Search-Time-Fetcher ist (sein Zugriff beeinflusst Real-Time-ChatGPT/Bing-Antworten). Manche Merchants wollen Search-Time-Zugriff erlauben aber Training blocken. Als getrennte Policy-Entscheidungen mit getrennten `User-agent:`-Blöcken behandeln.
Kann robots.txt private Shopify-Kundendaten schützen?
Nein. robots.txt ist eine Crawler-Anweisung, kein Sicherheitsmechanismus. Konforme Crawler (GPTBot, Googlebot etc.) respektieren `Disallow`, aber adversariale Scraper ignorieren es. Für private Kundendaten, Bestellinfos oder App-Endpoints Shopifys eingebaute Authentifizierung + Access Controls nutzen. robots.txt ist eine Schicht; Auth ist die tatsächliche Linie.
Sollen noindex-Seiten in robots.txt disallowed werden?
Nein — das ist der häufigste robots.txt-Fehler. Wenn du eine noindex-Seite mit `Disallow:` blockst, liest der Crawler nie das `<meta name="robots" content="noindex">`-Tag, und die Seite wird möglicherweise trotzdem indexiert (Google folgert manchmal Existenz aus externen Links und indexiert die URL ohne Crawlen). noindex-Seiten crawlbar halten; nur Pfade blocken, die für Crawler komplett unsichtbar sein sollen (Cart, Checkout, Account, Admin).
Verwandte Ressourcen
Fashion-Shopify-llms.txt-Vorlage
Schwester-Ressource — robots.txt und llms.txt arbeiten zusammen. Crawler in robots.txt erlauben, dann llms.txt veröffentlichen, damit er weiß, was lesen.
Product-Schema-Beispiel für Shopify-Apparel
Sobald GPTBot die Produktseite erreichen kann (dieser Guide), ist das JSON-LD-Schema das, was KI-Shopping-Engines tatsächlich parsen, um das Produkt zu zitieren.
Robots.txt-Analyzer
robots.txt-URL oder Inhalt einfügen, um zu verifizieren, dass jeder KI-Crawler den beabsichtigten Zugriffsstatus hat — vor und nach dem Deploy von Änderungen.
Shopify AI Visibility Optimizer
Der vollständige KI-Sichtbarkeits-Stack — Crawler-Policy ist eine Schicht neben Schema, Inhaltskarte und Citation-Monitoring.
llms.txt für Shopify — Komplettleitfaden
Sobald robots.txt KI-Crawlern erlaubt, deinen Content zu erreichen, ist llms.txt die kompakte Navigationskarte, die sie lesen, um den Store zu verstehen.
AI-Crawler-User-Agent-Liste
Nachdem Sie robots.txt für GPTBot korrigiert haben, ist dies die vollständige anbietergestützte Referenz für jeden anderen AI-Crawler — was zugelassen, was blockiert und welche robots.txt sowieso ignorieren.