Pular para o conteúdo principal
🇧🇷

GPTBot robots.txt para Shopify: exemplos práticos e checagens

Exemplos práticos de robots.txt Shopify prontos para copiar para GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot — com um checklist dos caminhos Shopify que devem permanecer rastreáveis e os que devem estar sempre bloqueados.

5 min read

robots.txt é o portão que decide se motores IA shopping podem sequer ler sua loja Shopify antes de citá-la. ChatGPT, Perplexity e Gemini respondem queries comerciais sobre produtos Shopify apenas quando seus crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) realmente buscaram o conteúdo da página. Bloqueá-los no robots.txt te torna invisível — qualquer outro sinal de visibilidade IA (schema, llms.txt, qualidade de conteúdo) se torna inócuo.

Este guia entrega um exemplo prático de robots.txt Shopify calibrado para a era shopping IA: permitir o conteúdo público da loja (produtos, coleções, blogs, pages) para os crawlers IA que importam, bloquear os caminhos checkout / account / admin que não, e verificar que funciona usando o Analisador de Robots.

O que o acesso GPTBot pode e não pode fazer

PodeNão pode
Crawlear páginas de produto, coleções, blogs públicosContornar autenticação em páginas privadas
Indexar conteúdo para respostas ChatGPT shoppingLer conteúdo que requer login ou permissões de app
Ler product schema, llms.txt, FAQ, páginas de políticaIdentificar compradores individuais ou seus carrinhos
Respeitar diretivas Disallow em crawlers conformesForçar privacidade — scrapers adversários ignoram robots.txt
Honrar diretivas meta noindex em páginas rastreáveisSubstituir controles de acesso Shopify proper

Concretamente: permitir GPTBot é necessário para visibilidade ChatGPT Shopping, mas não suficiente. O crawler alcançando a página é o chão. A visibilidade acima é gated por qualidade de conteúdo + dados estruturados.

Caminhos Shopify que devem permanecer rastreáveis

CaminhoPor quê
/products/Classe de URL mais citada para queries shopping IA
/collections/Páginas browse de categoria; IA usa para «loja vende X»
/blogs/Conteúdo long-form onde IA extrai contexto de produto
/pages/faqConteúdo FAQ — IA cita para «X suporta Y»
/pages/shippingPolítica de frete — IA cita para «envia para X»
/pages/returnsPolítica de devolução — IA cita para «se não couber»
/pages/size-guideContexto de tamanho — IA cita para «que tamanho sou eu»
/pages/ingredientsGuia de ingredientes beleza — IA cita para compatibilidade
/pages/warrantyGarantia eletrônicos — IA cita para «qual é a garantia»
/llms.txtMapa de conteúdo compacto — IA lê a cada crawl
/sitemap.xmlDescoberta de URLs — IA usa para encontrar novas páginas

Caminhos Shopify que devem permanecer protegidos

CaminhoPor quê
/cartEstado personalizado — rastrear nunca faz sentido
/checkoutFluxo de pagamento — deve ser privado
/accountDashboard de cliente logado
/adminAdmin Shopify (já protegido por auth, explícito é melhor)
/orders/Histórico de pedidos por cliente
/apps/<private>Endpoints de app de terceiros que expõem dados privados
Páginas de resultados de busca internaConteúdo fino ou duplicado; motores IA penalizam sites crawl-pesados
URLs preview / stagingNão para visibilidade pública

O exemplo robots.txt

Cole no robots.txt.liquid do seu tema Shopify (ou no asset robots.txt). Reveja contra seus apps + tema específicos antes de publicar — esta é uma baseline inicial, não uma resposta única.

Exemplo robots.txt crawler IA Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist de revisão

Antes de publicar, passe este checklist. Cada item corresponde a uma forma como lojas Shopify tipicamente vazam visibilidade IA ou expõem dados privados via robots.txt.

Checklist de revisão robots.txt crawler IA Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Instalar no Shopify

  1. No admin Shopify, vá para Loja virtual → Temas → Editar código.
  2. Sob Templates, procure por robots.txt.liquid. Se não existir, clique «Adicionar um novo template» → «robots» → «.liquid».
  3. Substitua o conteúdo do arquivo pelo exemplo acima (ajustado para sua URL de loja real e quaisquer caminhos customizados).
  4. Salve o template.
  5. Verifique em https://your-store.myshopify.com/robots.txt que o novo conteúdo é servido (cache de browser + cache edge Shopify podem levar alguns minutos para limpar).
  6. Cole a URL robots.txt no Analisador de Robots e confirme que GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot aparecem todos como «allowed» para /products/ e /collections/.

Pronto. Crawlers IA pegarão o robots.txt atualizado em sua próxima visita (tipicamente em 24h). Combine este guia com o modelo llms.txt moda (ou o irmão beleza/eletrônicos) para que uma vez que crawlers alcancem sua loja, encontrem um mapa de conteúdo que vale a pena ler.

Lista de validação

  • Páginas de produto públicas não estão bloqueadas

    GPTBot, OAI-SearchBot, ChatGPT-User e PerplexityBot todos recebem `Allow: /products/` (ou nenhum Disallow explícito que cubra /products/).

  • Páginas de coleção públicas não estão bloqueadas

    Os mesmos crawlers conseguem alcançar `/collections/`. Páginas de coleção Shopify são a classe de URL mais citada para queries de shopping; bloqueá-las é a ferida autoinfligida nº 1 em visibilidade IA.

  • Conteúdo público de blog e guia não está bloqueado

    Os mesmos crawlers conseguem alcançar `/blogs/` e `/pages/` (onde o Shopify hospeda FAQs, guias de tamanho, páginas de ingredientes, páginas de política). Respostas IA shopping citam muito conteúdo de blog e guia.

  • Caminhos cart, checkout, account e admin permanecem protegidos

    Cada bloco de crawler IA tem explicitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Esses caminhos vazam estado personalizado ao serem rastreados e não pertencem em respostas IA shopping.

  • robots.txt não é usado como mecanismo de privacidade ou segurança

    Dados sensíveis (info de cliente, detalhes de pedido, dados privados de app) protegidos por autenticação, não por `Disallow`. robots.txt é uma dica de crawler, não uma fronteira de segurança.

  • Páginas noindex permanecem rastreáveis

    Se uma página deve ser excluída da busca, ela deve permanecer rastreável (sem `Disallow`) para que o crawler possa ler a diretiva `<meta name="robots" content="noindex">`. Disallow uma página noindex a torna não-verificável e o Google pode indexá-la mesmo assim.

  • GPTBot e OAI-SearchBot tratados com blocos de regra separados

    Não compartilhe uma única linha `User-agent: GPTBot,OAI-SearchBot`. Os dois têm semânticas de policy diferentes (treinamento vs fetch search-time) e merchants podem querer regras diferentes por crawler.

  • Mudanças testadas no Analisador de Robots após publicação

    Após deployar o robots.txt atualizado no tema Shopify, cole a URL em /tools/robots-analyzer e confirme que cada crawler IA mostra o status de acesso esperado.

Executar o Analisador de Robots

Pré-preenchido com o exemplo robots.txt crawler IA Shopify abaixo. Cole seu robots.txt Shopify real para comparar, ou use o prefill para testar a baseline recomendada contra sua loja.

Perguntas frequentes

Permitir GPTBot garante visibilidade no ChatGPT Shopping?

Não. Acesso de crawler é o chão, não o teto. GPTBot alcançando sua página de produto é necessário para ela ser indexada por modelos OpenAI, mas a visibilidade no ChatGPT Shopping também depende de ter contexto de produto útil (Product schema, llms.txt, descrições precisas, reviews reais). Permita GPTBot, então audite o conteúdo que ele pode ver — esse é o trabalho completo.

GPTBot e OAI-SearchBot devem usar o mesmo bloco de regra?

Não necessariamente. Têm semânticas de policy diferentes: GPTBot é o crawler de treinamento da OpenAI (seu acesso afeta se seu conteúdo treina futuros modelos GPT), enquanto OAI-SearchBot é o fetcher search-time (seu acesso afeta respostas ChatGPT/Bing em tempo real). Alguns merchants querem permitir acesso search-time mas bloquear treinamento. Trate como escolhas de policy separadas, com blocos `User-agent:` separados.

robots.txt pode proteger dados de cliente privados do Shopify?

Não. robots.txt é uma instrução de crawler, não um mecanismo de segurança. Crawlers conformes (GPTBot, Googlebot, etc.) respeitam `Disallow`, mas scrapers adversários o ignoram. Para dados de cliente privados, detalhes de pedido ou endpoints de app, use a autenticação + controles de acesso integrados do Shopify. robots.txt é uma camada; a auth é a linha real.

Páginas noindex devem ser disallowed em robots.txt?

Não — esse é o erro mais comum de robots.txt. Se você `Disallow:` uma página noindex, o crawler nunca lê a tag `<meta name="robots" content="noindex">`, e a página pode ainda ser indexada (Google às vezes infere existência de links externos e indexa a URL sem rastrear). Mantenha páginas noindex rastreáveis; só bloqueie caminhos que devem ser totalmente invisíveis aos crawlers (cart, checkout, account, admin).

Recursos relacionados