GPTBot robots.txt para Shopify: exemplos práticos e checagens
Exemplos práticos de robots.txt Shopify prontos para copiar para GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot — com um checklist dos caminhos Shopify que devem permanecer rastreáveis e os que devem estar sempre bloqueados.
robots.txt é o portão que decide se motores IA shopping podem sequer
ler sua loja Shopify antes de citá-la. ChatGPT, Perplexity e Gemini
respondem queries comerciais sobre produtos Shopify apenas quando seus
crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) realmente
buscaram o conteúdo da página. Bloqueá-los no robots.txt te torna
invisível — qualquer outro sinal de visibilidade IA (schema, llms.txt,
qualidade de conteúdo) se torna inócuo.
Este guia entrega um exemplo prático de robots.txt Shopify calibrado para a era shopping IA: permitir o conteúdo público da loja (produtos, coleções, blogs, pages) para os crawlers IA que importam, bloquear os caminhos checkout / account / admin que não, e verificar que funciona usando o Analisador de Robots.
O que o acesso GPTBot pode e não pode fazer
| Pode | Não pode |
|---|---|
| Crawlear páginas de produto, coleções, blogs públicos | Contornar autenticação em páginas privadas |
| Indexar conteúdo para respostas ChatGPT shopping | Ler conteúdo que requer login ou permissões de app |
| Ler product schema, llms.txt, FAQ, páginas de política | Identificar compradores individuais ou seus carrinhos |
Respeitar diretivas Disallow em crawlers conformes | Forçar privacidade — scrapers adversários ignoram robots.txt |
Honrar diretivas meta noindex em páginas rastreáveis | Substituir controles de acesso Shopify proper |
Concretamente: permitir GPTBot é necessário para visibilidade ChatGPT Shopping, mas não suficiente. O crawler alcançando a página é o chão. A visibilidade acima é gated por qualidade de conteúdo + dados estruturados.
Caminhos Shopify que devem permanecer rastreáveis
| Caminho | Por quê |
|---|---|
/products/ | Classe de URL mais citada para queries shopping IA |
/collections/ | Páginas browse de categoria; IA usa para «loja vende X» |
/blogs/ | Conteúdo long-form onde IA extrai contexto de produto |
/pages/faq | Conteúdo FAQ — IA cita para «X suporta Y» |
/pages/shipping | Política de frete — IA cita para «envia para X» |
/pages/returns | Política de devolução — IA cita para «se não couber» |
/pages/size-guide | Contexto de tamanho — IA cita para «que tamanho sou eu» |
/pages/ingredients | Guia de ingredientes beleza — IA cita para compatibilidade |
/pages/warranty | Garantia eletrônicos — IA cita para «qual é a garantia» |
/llms.txt | Mapa de conteúdo compacto — IA lê a cada crawl |
/sitemap.xml | Descoberta de URLs — IA usa para encontrar novas páginas |
Caminhos Shopify que devem permanecer protegidos
| Caminho | Por quê |
|---|---|
/cart | Estado personalizado — rastrear nunca faz sentido |
/checkout | Fluxo de pagamento — deve ser privado |
/account | Dashboard de cliente logado |
/admin | Admin Shopify (já protegido por auth, explícito é melhor) |
/orders/ | Histórico de pedidos por cliente |
/apps/<private> | Endpoints de app de terceiros que expõem dados privados |
| Páginas de resultados de busca interna | Conteúdo fino ou duplicado; motores IA penalizam sites crawl-pesados |
| URLs preview / staging | Não para visibilidade pública |
O exemplo robots.txt
Cole no robots.txt.liquid do seu tema Shopify (ou no asset
robots.txt). Reveja contra seus apps + tema específicos antes de
publicar — esta é uma baseline inicial, não uma resposta única.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Checklist de revisão
Antes de publicar, passe este checklist. Cada item corresponde a uma forma como lojas Shopify tipicamente vazam visibilidade IA ou expõem dados privados via robots.txt.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Instalar no Shopify
- No admin Shopify, vá para Loja virtual → Temas → Editar código.
- Sob Templates, procure por
robots.txt.liquid. Se não existir, clique «Adicionar um novo template» → «robots» → «.liquid». - Substitua o conteúdo do arquivo pelo exemplo acima (ajustado para sua URL de loja real e quaisquer caminhos customizados).
- Salve o template.
- Verifique em
https://your-store.myshopify.com/robots.txtque o novo conteúdo é servido (cache de browser + cache edge Shopify podem levar alguns minutos para limpar). - Cole a URL robots.txt no Analisador de Robots
e confirme que GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot
aparecem todos como «allowed» para
/products/e/collections/.
Pronto. Crawlers IA pegarão o robots.txt atualizado em sua próxima visita (tipicamente em 24h). Combine este guia com o modelo llms.txt moda (ou o irmão beleza/eletrônicos) para que uma vez que crawlers alcancem sua loja, encontrem um mapa de conteúdo que vale a pena ler.
Lista de validação
Páginas de produto públicas não estão bloqueadas
GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot todos recebem `Allow: /products/` (ou nenhum Disallow explícito que cubra /products/).
Páginas de coleção públicas não estão bloqueadas
Os mesmos crawlers conseguem alcançar `/collections/`. Páginas de coleção Shopify são a classe de URL mais citada para queries de shopping; bloqueá-las é a ferida autoinfligida nº 1 em visibilidade IA.
Conteúdo público de blog e guia não está bloqueado
Os mesmos crawlers conseguem alcançar `/blogs/` e `/pages/` (onde o Shopify hospeda FAQs, guias de tamanho, páginas de ingredientes, páginas de política). Respostas IA shopping citam muito conteúdo de blog e guia.
Caminhos cart, checkout, account e admin permanecem protegidos
Cada bloco de crawler IA tem explicitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Esses caminhos vazam estado personalizado ao serem rastreados e não pertencem em respostas IA shopping.
robots.txt não é usado como mecanismo de privacidade ou segurança
Dados sensíveis (info de cliente, detalhes de pedido, dados privados de app) protegidos por autenticação, não por `Disallow`. robots.txt é uma dica de crawler, não uma fronteira de segurança.
Páginas noindex permanecem rastreáveis
Se uma página deve ser excluída da busca, ela deve permanecer rastreável (sem `Disallow`) para que o crawler possa ler a diretiva `<meta name="robots" content="noindex">`. Disallow uma página noindex a torna não-verificável e o Google pode indexá-la mesmo assim.
GPTBot e OAI-SearchBot tratados com blocos de regra separados
Não compartilhe uma única linha `User-agent: GPTBot,OAI-SearchBot`. Os dois têm semânticas de policy diferentes (treinamento vs fetch search-time) e merchants podem querer regras diferentes por crawler.
Mudanças testadas no Analisador de Robots após publicação
Após deployar o robots.txt atualizado no tema Shopify, cole a URL em /tools/robots-analyzer e confirme que cada crawler IA mostra o status de acesso esperado.
Executar o Analisador de Robots
Pré-preenchido com o exemplo robots.txt crawler IA Shopify abaixo. Cole seu robots.txt Shopify real para comparar, ou use o prefill para testar a baseline recomendada contra sua loja.
Perguntas frequentes
Permitir GPTBot garante visibilidade no ChatGPT Shopping?
Não. Acesso de crawler é o chão, não o teto. GPTBot alcançando sua página de produto é necessário para ela ser indexada por modelos OpenAI, mas a visibilidade no ChatGPT Shopping também depende de ter contexto de produto útil (Product schema, llms.txt, descrições precisas, reviews reais). Permita GPTBot, então audite o conteúdo que ele pode ver — esse é o trabalho completo.
GPTBot e OAI-SearchBot devem usar o mesmo bloco de regra?
Não necessariamente. Têm semânticas de policy diferentes: GPTBot é o crawler de treinamento da OpenAI (seu acesso afeta se seu conteúdo treina futuros modelos GPT), enquanto OAI-SearchBot é o fetcher search-time (seu acesso afeta respostas ChatGPT/Bing em tempo real). Alguns merchants querem permitir acesso search-time mas bloquear treinamento. Trate como escolhas de policy separadas, com blocos `User-agent:` separados.
robots.txt pode proteger dados de cliente privados do Shopify?
Não. robots.txt é uma instrução de crawler, não um mecanismo de segurança. Crawlers conformes (GPTBot, Googlebot, etc.) respeitam `Disallow`, mas scrapers adversários o ignoram. Para dados de cliente privados, detalhes de pedido ou endpoints de app, use a autenticação + controles de acesso integrados do Shopify. robots.txt é uma camada; a auth é a linha real.
Páginas noindex devem ser disallowed em robots.txt?
Não — esse é o erro mais comum de robots.txt. Se você `Disallow:` uma página noindex, o crawler nunca lê a tag `<meta name="robots" content="noindex">`, e a página pode ainda ser indexada (Google às vezes infere existência de links externos e indexa a URL sem rastrear). Mantenha páginas noindex rastreáveis; só bloqueie caminhos que devem ser totalmente invisíveis aos crawlers (cart, checkout, account, admin).
Recursos relacionados
Modelo llms.txt Shopify de moda
Recurso irmão — robots.txt e llms.txt trabalham juntos. Permita o crawler em robots.txt, então publique llms.txt para que ele saiba o que ler.
Exemplo Product Schema para Shopify de moda
Uma vez que GPTBot pode alcançar a página de produto (este guia), o schema JSON-LD é o que motores IA shopping realmente parseiam para citar o produto.
Analisador de Robots.txt
Cole sua URL ou conteúdo de robots.txt para verificar que cada crawler IA tem o status de acesso pretendido — antes e depois de deployar mudanças.
Shopify AI Visibility Optimizer
A pilha completa de visibilidade IA — política de crawler é uma camada ao lado de schema, mapa de conteúdo e monitoramento de citações.
llms.txt para Shopify — guia completo
Uma vez que robots.txt permite a crawlers IA alcançarem seu conteúdo, llms.txt é o mapa de navegação compacto que eles leem para entender a loja.
Lista User-Agent Crawlers IA
Depois de corrigir robots.txt para GPTBot, esta é a referência completa com fontes do fornecedor para cada outro crawler IA — o que permitir, o que bloquear, e quais ignoram robots.txt mesmo assim.