Zum Hauptinhalt springen
🇩🇪

GPTBot robots.txt für Shopify: Praxisbeispiele und Checks

Praktische Shopify-robots.txt-Beispiele für GPTBot, OAI-SearchBot, ChatGPT-User und PerplexityBot zum Kopieren — mit Checkliste, welche Shopify-Pfade crawlbar bleiben und welche immer geblockt werden sollten.

4 min read

robots.txt ist das Tor, das entscheidet, ob KI-Shopping-Engines deinen Shopify-Store überhaupt lesen können, bevor sie ihn zitieren. ChatGPT, Perplexity und Gemini beantworten kommerzielle Queries zu Shopify- Produkten nur, wenn ihre Crawler (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) den Page-Content tatsächlich gefetched haben. Sie in robots.txt zu blocken macht dich unsichtbar — jedes andere KI- Sichtbarkeitssignal (Schema, llms.txt, Content-Qualität) wird damit hinfällig.

Dieser Guide liefert ein praktisches Shopify-robots.txt-Beispiel, kalibriert für die KI-Shopping-Ära: öffentlichen Store-Content (Produkte, Kollektionen, Blogs, Pages) für die wichtigen KI-Crawler erlauben, die Checkout-/Account-/Admin-Pfade blocken, die es nicht sollen, und mit dem Robots-Analyzer verifizieren, dass es funktioniert.

Was GPTBot-Zugriff kann und nicht kann

KannKann nicht
Öffentliche Produktseiten, Kollektionen, Blogs crawlenAuthentifizierung auf privaten Seiten umgehen
Content für ChatGPT-Shopping-Antworten indexierenContent lesen, der Login oder App-Permissions braucht
Product Schema, llms.txt, FAQ, Policy-Seiten lesenEinzelne Käufer oder ihre Cart-Inhalte identifizieren
Disallow-Direktiven auf konformen Crawlern respektierenPrivacy erzwingen — adversariale Scraper ignorieren robots.txt
noindex-Meta-Direktiven auf crawlbaren Seiten honorierenProper Shopify-Access-Controls ersetzen

Konkret: GPTBot zu erlauben ist notwendig für ChatGPT-Shopping- Sichtbarkeit, aber nicht hinreichend. Der Crawler erreicht die Seite — das ist der Boden. Sichtbarkeit ist darüber durch Content-Qualität + strukturierte Daten gegated.

Shopify-Pfade, die crawlbar bleiben sollen

PfadWarum
/products/Meistzitierte URL-Klasse für KI-Shopping-Queries
/collections/Kategorie-Browse-Seiten; KI nutzt sie für „Store verkauft X”-Antworten
/blogs/Long-Form-Content, aus dem KI Produktkontext extrahiert
/pages/faqFAQ-Content — KI zitiert für „unterstützt X auch Y”-Queries
/pages/shippingVersand-Policy — KI zitiert für „liefert nach X”-Queries
/pages/returnsRückgabe-Policy — KI zitiert für „was, wenn nicht passt”-Queries
/pages/size-guideGrößen-Kontext — KI zitiert für „welche Größe”-Apparel-Queries
/pages/ingredientsBeauty-Inhaltsstoff-Guide — KI zitiert für Kompatibilitätsqueries
/pages/warrantyElectronics-Garantie — KI zitiert für „was ist die Garantie”-Queries
/llms.txtKompakte Inhaltskarte — KI liest sie bei jedem Crawl
/sitemap.xmlURL-Discovery — KI nutzt sie, um neue Produktseiten zu finden

Shopify-Pfade, die geschützt bleiben sollen

PfadWarum
/cartPersonalisierter State — Crawlen macht nie Sinn
/checkoutZahlungsflow — muss privat sein
/accountEingeloggtes Kunden-Dashboard
/adminShopify-Admin (bereits durch Auth geschützt, explizit ist besser)
/orders/Order-Historie pro Kunde
/apps/<private>Third-Party-App-Endpoints, die private Daten exponieren
Interne SuchergebnisseitenThin- oder Duplicate-Content; KI-Engines downweighten crawllastige Sites
Preview-/Staging-URLsNicht für öffentliche Sichtbarkeit

Das robots.txt-Beispiel

Ins robots.txt.liquid deines Shopify-Themes (oder das robots.txt- Asset) einfügen. Vor dem Publish gegen deine spezifischen Apps + Theme prüfen — das ist eine Starter-Baseline, keine One-Size-Fits-All-Antwort.

Shopify-KI-Crawler-robots.txt-Beispiel txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Review-Checkliste

Vor dem Publish durchgehen. Jeder Punkt entspricht einer Art, wie Shopify-Stores typischerweise KI-Sichtbarkeit leaken oder private Daten durch robots.txt exponieren.

Shopify-KI-Crawler-robots.txt-Review-Checkliste txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Installation in Shopify

  1. Im Shopify-Admin zu Onlineshop → Themes → Code bearbeiten.
  2. Unter Templates nach robots.txt.liquid suchen. Falls nicht vorhanden, „Neues Template hinzufügen” → „robots” → „.liquid” klicken.
  3. Datei-Inhalt durch das obige Beispiel ersetzen (an deine echte Store-URL und etwaige Custom-Pfade angepasst).
  4. Template speichern.
  5. Bei https://your-store.myshopify.com/robots.txt verifizieren, dass der neue Content ausgeliefert wird (Browser-Cache + Shopify-Edge-Cache können einige Minuten brauchen, um zu leeren).
  6. robots.txt-URL in den Robots-Analyzer einfügen und bestätigen, dass GPTBot, OAI-SearchBot, ChatGPT-User und PerplexityBot alle als „allowed” für /products/ und /collections/ angezeigt werden.

Fertig. KI-Crawler holen sich das aktualisierte robots.txt beim nächsten Besuch (typischerweise innerhalb 24 Stunden). Pair diesen Guide mit der Fashion-llms.txt-Vorlage (oder dem Beauty/Electronics-Pendant), sodass die Crawler beim Erreichen deines Stores eine lesenswerte Inhaltskarte finden.

Validierungs-Checkliste

  • Öffentliche Produktseiten sind nicht geblockt

    GPTBot, OAI-SearchBot, ChatGPT-User und PerplexityBot bekommen alle `Allow: /products/` (oder kein explizites Disallow, das /products/ abdeckt).

  • Öffentliche Kollektionsseiten sind nicht geblockt

    Dieselben Crawler erreichen `/collections/`. Shopify-Kollektionsseiten sind die meistzitierte URL-Klasse für Shopping-Queries; sie zu blocken ist die häufigste selbstverschuldete KI-Sichtbarkeitswunde.

  • Öffentliche Blog- und Guide-Inhalte sind nicht geblockt

    Dieselben Crawler erreichen `/blogs/` und `/pages/` (wo Shopify FAQs, Größentabellen, Inhaltsstoffseiten und Policy-Seiten hostet). KI-Shopping-Antworten zitieren Blog- und Guide-Inhalte stark.

  • Cart-, Checkout-, Account- und Admin-Pfade bleiben geschützt

    Jeder KI-Crawler-Block hat explizit `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Diese Pfade leaken personalisierten State beim Crawlen und gehören nicht in KI-Shopping-Antworten.

  • robots.txt wird nicht als Privacy- oder Sicherheitsmechanismus genutzt

    Sensible Daten (Kundendaten, Bestellinfos, private App-Daten) sind durch Authentifizierung geschützt, nicht durch `Disallow`. robots.txt ist ein Crawler-Hinweis, keine Sicherheitsgrenze.

  • noindex-Seiten bleiben crawlbar

    Wenn eine Seite aus der Suche ausgeschlossen werden soll, muss sie crawlbar bleiben (kein `Disallow`), damit der Crawler die `<meta name="robots" content="noindex">`-Direktive lesen kann. Disallow einer noindex-Seite macht sie unprüfbar, und Google indexiert sie möglicherweise trotzdem.

  • GPTBot und OAI-SearchBot werden mit separaten Regelblöcken behandelt

    Teile dir keine einzelne `User-agent: GPTBot,OAI-SearchBot`-Zeile. Beide haben unterschiedliche Policy-Semantik (Training vs. Search-Fetch) und Merchants wollen ggf. verschiedene Regeln pro Crawler.

  • Änderungen werden nach dem Publish im Robots-Analyzer getestet

    Nach dem Deploy der aktualisierten robots.txt ins Shopify-Theme die URL in /tools/robots-analyzer einfügen und bestätigen, dass jeder KI-Crawler den erwarteten Zugriffsstatus zeigt.

Robots-Analyzer ausführen

Vorausgefüllt mit dem Shopify-KI-Crawler-robots.txt-Beispiel unten. Deine echte Shopify-robots.txt einfügen zum Vergleich, oder mit dem Prefill die empfohlene Baseline gegen deinen Store testen.

Häufig gestellte Fragen

Garantiert das Erlauben von GPTBot ChatGPT-Shopping-Sichtbarkeit?

Nein. Crawler-Zugriff ist der Boden, nicht die Decke. GPTBot, der deine Produktseite erreicht, ist notwendig dafür, dass sie von OpenAI-Modellen indexiert wird, aber Sichtbarkeit in ChatGPT Shopping hängt auch von nützlichem Produktkontext (Product Schema, llms.txt, akkurate Beschreibungen, echte Reviews) ab. GPTBot erlauben, dann den Content auditieren, den er sieht — das ist die volle Arbeit.

Sollen GPTBot und OAI-SearchBot denselben Regelblock nutzen?

Nicht unbedingt. Sie haben unterschiedliche Policy-Semantik: GPTBot ist OpenAIs Training-Crawler (sein Zugriff beeinflusst, ob dein Content zukünftige GPT-Modelle trainiert), während OAI-SearchBot der Search-Time-Fetcher ist (sein Zugriff beeinflusst Real-Time-ChatGPT/Bing-Antworten). Manche Merchants wollen Search-Time-Zugriff erlauben aber Training blocken. Als getrennte Policy-Entscheidungen mit getrennten `User-agent:`-Blöcken behandeln.

Kann robots.txt private Shopify-Kundendaten schützen?

Nein. robots.txt ist eine Crawler-Anweisung, kein Sicherheitsmechanismus. Konforme Crawler (GPTBot, Googlebot etc.) respektieren `Disallow`, aber adversariale Scraper ignorieren es. Für private Kundendaten, Bestellinfos oder App-Endpoints Shopifys eingebaute Authentifizierung + Access Controls nutzen. robots.txt ist eine Schicht; Auth ist die tatsächliche Linie.

Sollen noindex-Seiten in robots.txt disallowed werden?

Nein — das ist der häufigste robots.txt-Fehler. Wenn du eine noindex-Seite mit `Disallow:` blockst, liest der Crawler nie das `<meta name="robots" content="noindex">`-Tag, und die Seite wird möglicherweise trotzdem indexiert (Google folgert manchmal Existenz aus externen Links und indexiert die URL ohne Crawlen). noindex-Seiten crawlbar halten; nur Pfade blocken, die für Crawler komplett unsichtbar sein sollen (Cart, Checkout, Account, Admin).

Verwandte Ressourcen