Saltar al contenido principal
🇪🇸

GPTBot robots.txt para Shopify: ejemplos prácticos y verificaciones

Ejemplos prácticos de robots.txt Shopify para copiar, para GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot — con un checklist de qué rutas Shopify deben permanecer crawleables y cuáles deben estar siempre bloqueadas.

5 min read

robots.txt es la puerta que decide si los motores IA shopping pueden siquiera leer tu tienda Shopify antes de citarla. ChatGPT, Perplexity y Gemini responden queries comerciales sobre productos Shopify solo cuando sus crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) han realmente fetch el contenido de la página. Bloquearlos en robots.txt te hace invisible — cualquier otra señal de visibilidad IA (schema, llms.txt, calidad de contenido) se vuelve discutible.

Esta guía entrega un ejemplo práctico de robots.txt Shopify calibrado para la era shopping IA: permitir el contenido público de la tienda (productos, colecciones, blogs, páginas) para los crawlers IA que importan, bloquear las rutas checkout / account / admin que no, y verificar que funciona usando el Analizador Robots.

Lo que el acceso GPTBot puede y no puede hacer

PuedeNo puede
Crawlear páginas de producto, colecciones, blogs públicosEludir la autenticación en páginas privadas
Indexar contenido para respuestas ChatGPT shoppingLeer contenido que requiere login o permisos de app
Leer product schema, llms.txt, FAQ, páginas de políticaIdentificar compradores individuales o sus carritos
Respetar directivas Disallow en crawlers conformesImponer privacidad — scrapers adversarios ignoran robots.txt
Honrar directivas meta noindex en páginas crawleablesSustituir controles de acceso Shopify proper

Concretamente: permitir GPTBot es necesario para visibilidad ChatGPT Shopping, pero no suficiente. El crawler alcanzando la página es el suelo. La visibilidad encima está gated por calidad de contenido + datos estructurados.

Rutas Shopify que deben permanecer crawleables

RutaPor qué
/products/Clase de URL más citada para queries shopping IA
/collections/Páginas browse de categoría; IA las usa para «tienda vende X»
/blogs/Contenido long-form donde IA extrae contexto producto
/pages/faqContenido FAQ — IA cita para «¿X soporta Y?»
/pages/shippingPolítica envío — IA cita para «¿envía a X?»
/pages/returnsPolítica devolución — IA cita para «¿qué si no me queda?»
/pages/size-guideContexto tallas — IA cita para «¿qué talla soy?» ropa
/pages/ingredientsGuía ingredientes belleza — IA cita para compatibilidad
/pages/warrantyGarantía electrónica — IA cita para «¿cuál es la garantía?»
/llms.txtMapa de contenido compacto — IA lo lee en cada crawl
/sitemap.xmlDescubrimiento de URLs — IA usa para encontrar nuevas páginas

Rutas Shopify que deben permanecer protegidas

RutaPor qué
/cartEstado personalizado — crawlearlo nunca tiene sentido
/checkoutFlujo de pago — debe ser privado
/accountDashboard de cliente logueado
/adminAdmin Shopify (ya protegido por auth, explícito es mejor)
/orders/Historial de pedidos por cliente
/apps/<private>Endpoints de app de terceros que exponen datos privados
Páginas de resultados de búsqueda internaContenido fino o duplicado; motores IA penalizan sites crawl-pesados
URLs preview / stagingNo para visibilidad pública

El ejemplo robots.txt

Pega en el robots.txt.liquid de tu tema Shopify (o el asset robots.txt). Revisa contra tus apps + tema específicos antes de publicar — esta es una baseline de inicio, no una respuesta talla única.

Ejemplo robots.txt crawler IA Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist de revisión

Antes de publicar, pasa esta checklist. Cada item corresponde a una forma en que tiendas Shopify típicamente filtran visibilidad IA o exponen datos privados vía robots.txt.

Checklist de revisión robots.txt crawler IA Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Instalar en Shopify

  1. En el admin Shopify, ve a Tienda online → Temas → Editar código.
  2. Bajo Templates, busca robots.txt.liquid. Si no existe, haz clic en «Añadir un nuevo template» → «robots» → «.liquid».
  3. Reemplaza el contenido del archivo con el ejemplo de arriba (ajustado para tu URL de tienda real y cualquier ruta custom).
  4. Guarda el template.
  5. Verifica en https://your-store.myshopify.com/robots.txt que el nuevo contenido se sirve (caché de navegador + caché edge de Shopify pueden tardar minutos en limpiarse).
  6. Pega la URL robots.txt en el Analizador Robots y confirma que GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot aparecen todos como «allowed» para /products/ y /collections/.

Listo. Los crawlers IA recogerán el robots.txt actualizado en su próxima visita (típicamente en 24h). Empareja esta guía con la plantilla llms.txt moda (o la hermana belleza/electrónica) para que una vez los crawlers alcancen tu tienda, encuentren un mapa de contenido que vale la pena leer.

Lista de validación

  • Páginas de producto públicas no están bloqueadas

    GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot reciben `Allow: /products/` (o sin Disallow explícito que cubra /products/).

  • Páginas de colección públicas no están bloqueadas

    Los mismos crawlers pueden alcanzar `/collections/`. Las páginas de colección Shopify son la clase de URL más citada para queries shopping; bloquearlas es la herida autoinfligida nº 1 en visibilidad IA.

  • Contenido público de blog y guía no está bloqueado

    Los mismos crawlers pueden alcanzar `/blogs/` y `/pages/` (donde Shopify aloja FAQs, guías de talla, páginas de ingredientes, páginas de política). Las respuestas IA shopping citan mucho contenido de blog y guía.

  • Rutas cart, checkout, account y admin permanecen protegidas

    Cada bloque de crawler IA tiene explícitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Estas rutas filtran estado personalizado al ser crawleadas y no pertenecen a respuestas IA shopping.

  • robots.txt no se usa como mecanismo de privacidad o seguridad

    Datos sensibles (info de cliente, detalles de orden, datos privados de app) protegidos por autenticación, no por `Disallow`. robots.txt es un hint de crawler, no una frontera de seguridad.

  • Páginas noindex permanecen crawleables

    Si una página debe excluirse de la búsqueda, debe permanecer crawleable (sin `Disallow`) para que el crawler pueda leer la directiva `<meta name="robots" content="noindex">`. Disallow una página noindex la hace inverificable y Google puede indexarla igual.

  • GPTBot y OAI-SearchBot manejados con bloques de regla separados

    No compartas una sola línea `User-agent: GPTBot,OAI-SearchBot`. Ambos tienen semánticas de policy diferentes (training vs fetch search-time) y merchants pueden querer reglas diferentes por crawler.

  • Cambios probados en el Analizador Robots tras publicación

    Tras desplegar el robots.txt actualizado al tema Shopify, pega la URL en /tools/robots-analyzer y confirma que cada crawler IA muestra el estado de acceso esperado.

Ejecutar el Analizador Robots

Prerrellenado con el ejemplo robots.txt crawler IA Shopify de abajo. Pega tu robots.txt Shopify real para comparar, o usa el prefill para testear la baseline recomendada contra tu tienda.

Preguntas frecuentes

¿Permitir GPTBot garantiza visibilidad ChatGPT Shopping?

No. El acceso crawler es el suelo, no el techo. GPTBot alcanzando tu página de producto es necesario para que sea indexada por modelos OpenAI, pero la visibilidad en ChatGPT Shopping también depende de tener contexto de producto útil (Product schema, llms.txt, descripciones precisas, reviews reales). Permite GPTBot, luego audita el contenido que puede ver — ese es el trabajo completo.

¿GPTBot y OAI-SearchBot deben usar el mismo bloque de regla?

No necesariamente. Tienen semánticas de policy diferentes: GPTBot es el crawler de training de OpenAI (su acceso afecta si tu contenido entrena futuros modelos GPT), mientras OAI-SearchBot es el fetcher search-time (su acceso afecta respuestas ChatGPT/Bing en tiempo real). Algunos merchants quieren permitir acceso search-time pero bloquear training. Trátalos como elecciones de policy separadas, con bloques `User-agent:` separados.

¿Puede robots.txt proteger datos de cliente privados de Shopify?

No. robots.txt es una instrucción de crawler, no un mecanismo de seguridad. Crawlers conformes (GPTBot, Googlebot, etc.) respetan `Disallow`, pero scrapers adversarios lo ignoran. Para datos de cliente privados, detalles de orden o endpoints de app, usa la autenticación + controles de acceso integrados de Shopify. robots.txt es una capa; la auth es la línea real.

¿Páginas noindex deben ser disallowed en robots.txt?

No — es el error de robots.txt más común. Si haces `Disallow:` a una página noindex, el crawler nunca lee la etiqueta `<meta name="robots" content="noindex">`, y la página puede ser indexada igual (Google a veces infiere existencia de enlaces externos e indexa la URL sin crawlear). Mantén páginas noindex crawleables; solo bloquea rutas que deban ser totalmente invisibles a crawlers (cart, checkout, account, admin).

Recursos relacionados