GPTBot robots.txt dla Shopify: praktyczne przykłady i sprawdzenia
Praktyczne przykłady Shopify robots.txt do skopiowania dla GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot — z listą kontrolną, które ścieżki Shopify powinny pozostać indeksowalne, a które powinny być zawsze zablokowane.
robots.txt to brama decydująca, czy silniki AI zakupowe mogą w ogóle
przeczytać Twój sklep Shopify, zanim go zacytują. ChatGPT, Perplexity
i Gemini odpowiadają na zapytania komercyjne o produkty Shopify tylko
wtedy, gdy ich crawlery (GPTBot, OAI-SearchBot, ChatGPT-User,
PerplexityBot) rzeczywiście pobrały zawartość strony. Zablokowanie ich
w robots.txt czyni Cię niewidocznym — każdy inny sygnał widoczności AI
(schemat, llms.txt, jakość treści) staje się dyskusyjny.
Ten przewodnik dostarcza praktyczny przykład Shopify robots.txt skalibrowany dla ery zakupów AI: zezwól na publiczną treść sklepu (produkty, kolekcje, blogi, strony) dla istotnych crawlerów AI, zablokuj ścieżki checkout / account / admin, które nie powinny być otwarte, i zweryfikuj, że to działa, używając Analizatora Robots.
Co dostęp GPTBot może i nie może zrobić
| Może | Nie może |
|---|---|
| Crawlować publiczne strony produktów, kolekcji, blogów | Ominąć uwierzytelnianie na stronach prywatnych |
| Indeksować treść dla odpowiedzi ChatGPT zakupowych | Czytać treści wymagające logowania lub uprawnień aplikacji |
| Czytać product schema, llms.txt, FAQ, strony polityk | Zidentyfikować poszczególnych kupujących lub ich koszyki |
Respektować dyrektywy Disallow u zgodnych crawlerów | Egzekwować prywatność — wrogie skreper-y ignorują robots.txt |
Honorować dyrektywy meta noindex na indeksowalnych stronach | Zastąpić właściwe kontrole dostępu Shopify |
Konkretnie: zezwolenie na GPTBot jest konieczne dla widoczności ChatGPT Shopping, ale niewystarczające. Crawler docierający do strony to podłoga. Widoczność powyżej jest gated jakością treści + danymi strukturalnymi.
Ścieżki Shopify, które powinny pozostać indeksowalne
| Ścieżka | Dlaczego |
|---|---|
/products/ | Najczęściej cytowana klasa URL dla zapytań AI zakupowych |
/collections/ | Strony przeglądania kategorii; AI używa do „sklep sprzedaje X” |
/blogs/ | Długie treści, z których AI wydobywa kontekst produktu |
/pages/faq | Treści FAQ — AI cytuje dla „czy X wspiera Y” |
/pages/shipping | Polityka wysyłki — AI cytuje dla „wysyła do X” |
/pages/returns | Polityka zwrotów — AI cytuje dla „co jeśli nie pasuje” |
/pages/size-guide | Kontekst rozmiarów — AI cytuje dla „jaki mam rozmiar” odzież |
/pages/ingredients | Przewodnik składników beauty — AI cytuje dla zgodności |
/pages/warranty | Gwarancja electronics — AI cytuje dla „jaka jest gwarancja” |
/llms.txt | Zwarta mapa treści — AI czyta przy każdym crawl |
/sitemap.xml | Odkrywanie URL — AI używa do znajdowania nowych stron produktów |
Ścieżki Shopify, które powinny pozostać chronione
| Ścieżka | Dlaczego |
|---|---|
/cart | Stan spersonalizowany — crawlowanie nigdy nie ma sensu |
/checkout | Przepływ płatności — musi być prywatny |
/account | Pulpit zalogowanego klienta |
/admin | Shopify admin (już chroniony auth, jawne jest lepsze) |
/orders/ | Historia zamówień per klient |
/apps/<private> | Endpointy aplikacji firm trzecich ujawniające prywatne dane |
| Wewnętrzne strony wyników wyszukiwania | Cienka lub powielona treść; silniki AI obniżają strony crawl-ciężkie |
| Preview / staging URLs | Nie do widoczności publicznej |
Przykład robots.txt
Wklej w robots.txt.liquid swojego motywu Shopify (lub w zasób
robots.txt). Przejrzyj względem swoich konkretnych aplikacji + motywu
przed publikacją — to bazowa linia startowa, nie jednolita odpowiedź.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Lista kontrolna przeglądu
Przed publikacją przejdź przez tę listę. Każdy punkt odpowiada sposobowi, w jaki sklepy Shopify zwykle wyciekają widoczność AI lub ujawniają prywatne dane przez robots.txt.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Instalacja w Shopify
- W panelu Shopify przejdź do Sklep online → Motywy → Edytuj kod.
- W Templates szukaj
robots.txt.liquid. Jeśli nie istnieje, kliknij „Dodaj nowy szablon” → „robots” → „.liquid”. - Zastąp zawartość pliku przykładem powyżej (dostosowanym do Twojego prawdziwego URL sklepu i wszelkich własnych ścieżek).
- Zapisz szablon.
- Sprawdź pod
https://your-store.myshopify.com/robots.txt, że nowa zawartość jest serwowana (cache przeglądarki + cache edge Shopify mogą wymagać kilku minut do oczyszczenia). - Wklej URL robots.txt w Analizator Robots
i potwierdź, że GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot
wszyscy są pokazani jako „allowed” dla
/products/i/collections/.
Gotowe. Crawlery AI podchwycą zaktualizowany robots.txt przy następnej wizycie (zwykle w ciągu 24 godzin). Połącz ten przewodnik z szablonem llms.txt mody (lub siostrzanym beauty/electronics), aby gdy crawlery dotrą do Twojego sklepu, znalazły mapę treści wartą czytania.
Lista kontrolna walidacji
Publiczne strony produktów nie są zablokowane
GPTBot, OAI-SearchBot, ChatGPT-User i PerplexityBot wszyscy otrzymują `Allow: /products/` (lub brak jawnego Disallow obejmującego /products/).
Publiczne strony kolekcji nie są zablokowane
Te same crawlery mogą dotrzeć do `/collections/`. Strony kolekcji Shopify to najczęściej cytowana klasa URL dla zapytań zakupowych; ich blokada to samookaleczenie widoczności AI numer 1.
Publiczne treści blogu i przewodników nie są zablokowane
Te same crawlery mogą dotrzeć do `/blogs/` i `/pages/` (gdzie Shopify hostuje FAQ, przewodniki po rozmiarach, strony składników, strony polityk). Odpowiedzi AI zakupowe mocno cytują treści blogu i przewodników.
Ścieżki cart, checkout, account i admin pozostają chronione
Każdy blok crawlera AI ma jawnie `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Te ścieżki wyciekają personalizowany stan podczas crawlowania i nie należą do odpowiedzi AI zakupowych.
robots.txt nie jest używany jako mechanizm prywatności lub bezpieczeństwa
Dane wrażliwe (informacje klienta, szczegóły zamówień, prywatne dane aplikacji) chronione przez uwierzytelnianie, a nie przez `Disallow`. robots.txt to wskazówka dla crawlera, nie granica bezpieczeństwa.
Strony noindex pozostają indeksowalne
Jeśli strona ma być wykluczona z wyszukiwania, musi pozostać indeksowalna (bez `Disallow`), aby crawler mógł odczytać dyrektywę `<meta name="robots" content="noindex">`. Disallow strony noindex sprawia, że nie da się jej zweryfikować, a Google może ją mimo to zaindeksować.
GPTBot i OAI-SearchBot obsługiwane oddzielnymi blokami reguł
Nie udostępniaj jednej linii `User-agent: GPTBot,OAI-SearchBot`. Te dwa mają różną semantykę polityki (trenowanie vs pobieranie w czasie wyszukiwania), a sprzedawcy mogą chcieć różnych reguł per crawler.
Zmiany przetestowane w Analizatorze Robots po publikacji
Po wdrożeniu zaktualizowanego robots.txt do motywu Shopify wklej URL w /tools/robots-analyzer i potwierdź, że każdy crawler AI pokazuje oczekiwany status dostępu.
Uruchom Analizator Robots
Wstępnie wypełnione przykładem Shopify AI-crawler robots.txt poniżej. Wklej swój prawdziwy Shopify robots.txt do porównania lub użyj wstępnego wypełnienia do przetestowania zalecanej bazowej linii względem Twojego sklepu.
Najczęściej zadawane pytania
Czy zezwolenie na GPTBot gwarantuje widoczność w ChatGPT Shopping?
Nie. Dostęp crawlera to podłoga, nie sufit. GPTBot docierający do Twojej strony produktu jest niezbędny, aby model OpenAI ją zaindeksował, ale widoczność w ChatGPT Shopping zależy też od posiadania użytecznego kontekstu produktu (Product schema, llms.txt, dokładne opisy, prawdziwe recenzje). Zezwól GPTBotowi, a następnie audytuj treść, którą może zobaczyć — to pełna praca.
Czy GPTBot i OAI-SearchBot powinny używać tego samego bloku reguł?
Niekoniecznie. Mają różną semantykę polityki: GPTBot to crawler trenujący OpenAI (jego dostęp wpływa, czy Twoja treść trenuje przyszłe modele GPT), podczas gdy OAI-SearchBot to pobieracz w czasie wyszukiwania (jego dostęp wpływa na odpowiedzi ChatGPT/Bing w czasie rzeczywistym). Niektórzy sprzedawcy chcą zezwolić na dostęp w czasie wyszukiwania, ale zablokować trenowanie. Traktuj jako oddzielne wybory polityki, z osobnymi blokami `User-agent:`.
Czy robots.txt może chronić prywatne dane klientów Shopify?
Nie. robots.txt to instrukcja dla crawlera, nie mechanizm bezpieczeństwa. Zgodne crawlery (GPTBot, Googlebot itp.) respektują `Disallow`, ale wrogie skreper-y kompletnie go ignorują. Dla prywatnych danych klientów, szczegółów zamówień lub endpointów aplikacji użyj wbudowanego uwierzytelniania + kontroli dostępu Shopify. robots.txt to jedna warstwa; uwierzytelnianie to rzeczywista linia.
Czy strony noindex powinny być disallowed w robots.txt?
Nie — to najczęstszy błąd robots.txt. Jeśli zrobisz `Disallow:` na stronie noindex, crawler nigdy nie odczyta tagu `<meta name="robots" content="noindex">`, a strona może i tak zostać zaindeksowana (Google czasem wnioskuje istnienie z linków zewnętrznych i indeksuje URL bez crawlowania). Trzymaj strony noindex indeksowalnymi; blokuj tylko ścieżki, które mają być całkowicie niewidoczne dla crawlerów (cart, checkout, account, admin).
Powiązane zasoby
Szablon llms.txt Shopify dla mody
Zasób siostrzany — robots.txt i llms.txt współpracują. Zezwól crawlerowi w robots.txt, a następnie opublikuj llms.txt, aby wiedział, co czytać.
Przykład Product Schema dla Shopify odzieży
Gdy GPTBot może dotrzeć do strony produktu (ten przewodnik), schemat JSON-LD jest tym, co silniki AI zakupowe rzeczywiście parsują, aby zacytować produkt.
Analizator Robots.txt
Wklej swój URL lub zawartość robots.txt, aby zweryfikować, że każdy crawler AI ma zamierzony status dostępu — przed i po wdrożeniu zmian.
Shopify AI Visibility Optimizer
Pełny stos widoczności AI — polityka crawlera to jedna warstwa obok schematu, mapy treści i monitoringu cytatów.
llms.txt dla Shopify — pełny przewodnik
Gdy robots.txt pozwala crawlerom AI dotrzeć do Twojej treści, llms.txt to zwarta mapa nawigacji, którą czytają, aby zrozumieć sklep.
Lista User-Agent Crawlerów AI
Po naprawieniu robots.txt dla GPTBota, jest to pełne źródłowe odniesienie dostawcy dla każdego innego crawlera AI — co dopuścić, co zablokować i które i tak ignorują robots.txt.