Przejdź do głównej treści
🇵🇱

GPTBot robots.txt dla Shopify: praktyczne przykłady i sprawdzenia

Praktyczne przykłady Shopify robots.txt do skopiowania dla GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot — z listą kontrolną, które ścieżki Shopify powinny pozostać indeksowalne, a które powinny być zawsze zablokowane.

5 min read

robots.txt to brama decydująca, czy silniki AI zakupowe mogą w ogóle przeczytać Twój sklep Shopify, zanim go zacytują. ChatGPT, Perplexity i Gemini odpowiadają na zapytania komercyjne o produkty Shopify tylko wtedy, gdy ich crawlery (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) rzeczywiście pobrały zawartość strony. Zablokowanie ich w robots.txt czyni Cię niewidocznym — każdy inny sygnał widoczności AI (schemat, llms.txt, jakość treści) staje się dyskusyjny.

Ten przewodnik dostarcza praktyczny przykład Shopify robots.txt skalibrowany dla ery zakupów AI: zezwól na publiczną treść sklepu (produkty, kolekcje, blogi, strony) dla istotnych crawlerów AI, zablokuj ścieżki checkout / account / admin, które nie powinny być otwarte, i zweryfikuj, że to działa, używając Analizatora Robots.

Co dostęp GPTBot może i nie może zrobić

MożeNie może
Crawlować publiczne strony produktów, kolekcji, blogówOminąć uwierzytelnianie na stronach prywatnych
Indeksować treść dla odpowiedzi ChatGPT zakupowychCzytać treści wymagające logowania lub uprawnień aplikacji
Czytać product schema, llms.txt, FAQ, strony politykZidentyfikować poszczególnych kupujących lub ich koszyki
Respektować dyrektywy Disallow u zgodnych crawlerówEgzekwować prywatność — wrogie skreper-y ignorują robots.txt
Honorować dyrektywy meta noindex na indeksowalnych stronachZastąpić właściwe kontrole dostępu Shopify

Konkretnie: zezwolenie na GPTBot jest konieczne dla widoczności ChatGPT Shopping, ale niewystarczające. Crawler docierający do strony to podłoga. Widoczność powyżej jest gated jakością treści + danymi strukturalnymi.

Ścieżki Shopify, które powinny pozostać indeksowalne

ŚcieżkaDlaczego
/products/Najczęściej cytowana klasa URL dla zapytań AI zakupowych
/collections/Strony przeglądania kategorii; AI używa do „sklep sprzedaje X”
/blogs/Długie treści, z których AI wydobywa kontekst produktu
/pages/faqTreści FAQ — AI cytuje dla „czy X wspiera Y”
/pages/shippingPolityka wysyłki — AI cytuje dla „wysyła do X”
/pages/returnsPolityka zwrotów — AI cytuje dla „co jeśli nie pasuje”
/pages/size-guideKontekst rozmiarów — AI cytuje dla „jaki mam rozmiar” odzież
/pages/ingredientsPrzewodnik składników beauty — AI cytuje dla zgodności
/pages/warrantyGwarancja electronics — AI cytuje dla „jaka jest gwarancja”
/llms.txtZwarta mapa treści — AI czyta przy każdym crawl
/sitemap.xmlOdkrywanie URL — AI używa do znajdowania nowych stron produktów

Ścieżki Shopify, które powinny pozostać chronione

ŚcieżkaDlaczego
/cartStan spersonalizowany — crawlowanie nigdy nie ma sensu
/checkoutPrzepływ płatności — musi być prywatny
/accountPulpit zalogowanego klienta
/adminShopify admin (już chroniony auth, jawne jest lepsze)
/orders/Historia zamówień per klient
/apps/<private>Endpointy aplikacji firm trzecich ujawniające prywatne dane
Wewnętrzne strony wyników wyszukiwaniaCienka lub powielona treść; silniki AI obniżają strony crawl-ciężkie
Preview / staging URLsNie do widoczności publicznej

Przykład robots.txt

Wklej w robots.txt.liquid swojego motywu Shopify (lub w zasób robots.txt). Przejrzyj względem swoich konkretnych aplikacji + motywu przed publikacją — to bazowa linia startowa, nie jednolita odpowiedź.

Przykład robots.txt crawlera AI Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Lista kontrolna przeglądu

Przed publikacją przejdź przez tę listę. Każdy punkt odpowiada sposobowi, w jaki sklepy Shopify zwykle wyciekają widoczność AI lub ujawniają prywatne dane przez robots.txt.

Lista kontrolna przeglądu robots.txt crawlera AI Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Instalacja w Shopify

  1. W panelu Shopify przejdź do Sklep online → Motywy → Edytuj kod.
  2. W Templates szukaj robots.txt.liquid. Jeśli nie istnieje, kliknij „Dodaj nowy szablon” → „robots” → „.liquid”.
  3. Zastąp zawartość pliku przykładem powyżej (dostosowanym do Twojego prawdziwego URL sklepu i wszelkich własnych ścieżek).
  4. Zapisz szablon.
  5. Sprawdź pod https://your-store.myshopify.com/robots.txt, że nowa zawartość jest serwowana (cache przeglądarki + cache edge Shopify mogą wymagać kilku minut do oczyszczenia).
  6. Wklej URL robots.txt w Analizator Robots i potwierdź, że GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot wszyscy są pokazani jako „allowed” dla /products/ i /collections/.

Gotowe. Crawlery AI podchwycą zaktualizowany robots.txt przy następnej wizycie (zwykle w ciągu 24 godzin). Połącz ten przewodnik z szablonem llms.txt mody (lub siostrzanym beauty/electronics), aby gdy crawlery dotrą do Twojego sklepu, znalazły mapę treści wartą czytania.

Lista kontrolna walidacji

  • Publiczne strony produktów nie są zablokowane

    GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot wszyscy otrzymują `Allow: /products/` (lub brak jawnego Disallow obejmującego /products/).

  • Publiczne strony kolekcji nie są zablokowane

    Te same crawlery mogą dotrzeć do `/collections/`. Strony kolekcji Shopify to najczęściej cytowana klasa URL dla zapytań zakupowych; ich blokada to samookaleczenie widoczności AI numer 1.

  • Publiczne treści blogu i przewodników nie są zablokowane

    Te same crawlery mogą dotrzeć do `/blogs/` i `/pages/` (gdzie Shopify hostuje FAQ, przewodniki po rozmiarach, strony składników, strony polityk). Odpowiedzi AI zakupowe mocno cytują treści blogu i przewodników.

  • Ścieżki cart, checkout, account i admin pozostają chronione

    Każdy blok crawlera AI ma jawnie `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Te ścieżki wyciekają personalizowany stan podczas crawlowania i nie należą do odpowiedzi AI zakupowych.

  • robots.txt nie jest używany jako mechanizm prywatności lub bezpieczeństwa

    Dane wrażliwe (informacje klienta, szczegóły zamówień, prywatne dane aplikacji) chronione przez uwierzytelnianie, a nie przez `Disallow`. robots.txt to wskazówka dla crawlera, nie granica bezpieczeństwa.

  • Strony noindex pozostają indeksowalne

    Jeśli strona ma być wykluczona z wyszukiwania, musi pozostać indeksowalna (bez `Disallow`), aby crawler mógł odczytać dyrektywę `<meta name="robots" content="noindex">`. Disallow strony noindex sprawia, że nie da się jej zweryfikować, a Google może ją mimo to zaindeksować.

  • GPTBot i OAI-SearchBot obsługiwane oddzielnymi blokami reguł

    Nie udostępniaj jednej linii `User-agent: GPTBot,OAI-SearchBot`. Te dwa mają różną semantykę polityki (trenowanie vs pobieranie w czasie wyszukiwania), a sprzedawcy mogą chcieć różnych reguł per crawler.

  • Zmiany przetestowane w Analizatorze Robots po publikacji

    Po wdrożeniu zaktualizowanego robots.txt do motywu Shopify wklej URL w /tools/robots-analyzer i potwierdź, że każdy crawler AI pokazuje oczekiwany status dostępu.

Uruchom Analizator Robots

Wstępnie wypełnione przykładem Shopify AI-crawler robots.txt poniżej. Wklej swój prawdziwy Shopify robots.txt do porównania lub użyj wstępnego wypełnienia do przetestowania zalecanej bazowej linii względem Twojego sklepu.

Najczęściej zadawane pytania

Czy zezwolenie na GPTBot gwarantuje widoczność w ChatGPT Shopping?

Nie. Dostęp crawlera to podłoga, nie sufit. GPTBot docierający do Twojej strony produktu jest niezbędny, aby model OpenAI ją zaindeksował, ale widoczność w ChatGPT Shopping zależy też od posiadania użytecznego kontekstu produktu (Product schema, llms.txt, dokładne opisy, prawdziwe recenzje). Zezwól GPTBotowi, a następnie audytuj treść, którą może zobaczyć — to pełna praca.

Czy GPTBot i OAI-SearchBot powinny używać tego samego bloku reguł?

Niekoniecznie. Mają różną semantykę polityki: GPTBot to crawler trenujący OpenAI (jego dostęp wpływa, czy Twoja treść trenuje przyszłe modele GPT), podczas gdy OAI-SearchBot to pobieracz w czasie wyszukiwania (jego dostęp wpływa na odpowiedzi ChatGPT/Bing w czasie rzeczywistym). Niektórzy sprzedawcy chcą zezwolić na dostęp w czasie wyszukiwania, ale zablokować trenowanie. Traktuj jako oddzielne wybory polityki, z osobnymi blokami `User-agent:`.

Czy robots.txt może chronić prywatne dane klientów Shopify?

Nie. robots.txt to instrukcja dla crawlera, nie mechanizm bezpieczeństwa. Zgodne crawlery (GPTBot, Googlebot itp.) respektują `Disallow`, ale wrogie skreper-y kompletnie go ignorują. Dla prywatnych danych klientów, szczegółów zamówień lub endpointów aplikacji użyj wbudowanego uwierzytelniania + kontroli dostępu Shopify. robots.txt to jedna warstwa; uwierzytelnianie to rzeczywista linia.

Czy strony noindex powinny być disallowed w robots.txt?

Nie — to najczęstszy błąd robots.txt. Jeśli zrobisz `Disallow:` na stronie noindex, crawler nigdy nie odczyta tagu `<meta name="robots" content="noindex">`, a strona może i tak zostać zaindeksowana (Google czasem wnioskuje istnienie z linków zewnętrznych i indeksuje URL bez crawlowania). Trzymaj strony noindex indeksowalnymi; blokuj tylko ścieżki, które mają być całkowicie niewidoczne dla crawlerów (cart, checkout, account, admin).

Powiązane zasoby