GPTBot robots.txt para Shopify: ejemplos prácticos y verificaciones

Ejemplos prácticos de robots.txt Shopify para copiar, para GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot — con un checklist de qué rutas Shopify deben permanecer crawleables y cuáles deben estar siempre bloqueadas.

Alex

CTO & Co-founder

Última revisión: 15 de mayo de 2026 5 min read

robots.txt es la puerta que decide si los motores IA shopping pueden siquiera leer tu tienda Shopify antes de citarla. ChatGPT, Perplexity y Gemini responden queries comerciales sobre productos Shopify solo cuando sus crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) han realmente fetch el contenido de la página. Bloquearlos en robots.txt te hace invisible — cualquier otra señal de visibilidad IA (schema, llms.txt, calidad de contenido) se vuelve discutible.

Esta guía entrega un ejemplo práctico de robots.txt Shopify calibrado para la era shopping IA: permitir el contenido público de la tienda (productos, colecciones, blogs, páginas) para los crawlers IA que importan, bloquear las rutas checkout / account / admin que no, y verificar que funciona usando el Analizador Robots.

Lo que el acceso GPTBot puede y no puede hacer

Puede	No puede
Crawlear páginas de producto, colecciones, blogs públicos	Eludir la autenticación en páginas privadas
Indexar contenido para respuestas ChatGPT shopping	Leer contenido que requiere login o permisos de app
Leer product schema, llms.txt, FAQ, páginas de política	Identificar compradores individuales o sus carritos
Respetar directivas `Disallow` en crawlers conformes	Imponer privacidad — scrapers adversarios ignoran robots.txt
Honrar directivas meta `noindex` en páginas crawleables	Sustituir controles de acceso Shopify proper

Concretamente: permitir GPTBot es necesario para visibilidad ChatGPT Shopping, pero no suficiente. El crawler alcanzando la página es el suelo. La visibilidad encima está gated por calidad de contenido + datos estructurados.

Rutas Shopify que deben permanecer crawleables

Ruta	Por qué
`/products/`	Clase de URL más citada para queries shopping IA
`/collections/`	Páginas browse de categoría; IA las usa para «tienda vende X»
`/blogs/`	Contenido long-form donde IA extrae contexto producto
`/pages/faq`	Contenido FAQ — IA cita para «¿X soporta Y?»
`/pages/shipping`	Política envío — IA cita para «¿envía a X?»
`/pages/returns`	Política devolución — IA cita para «¿qué si no me queda?»
`/pages/size-guide`	Contexto tallas — IA cita para «¿qué talla soy?» ropa
`/pages/ingredients`	Guía ingredientes belleza — IA cita para compatibilidad
`/pages/warranty`	Garantía electrónica — IA cita para «¿cuál es la garantía?»
`/llms.txt`	Mapa de contenido compacto — IA lo lee en cada crawl
`/sitemap.xml`	Descubrimiento de URLs — IA usa para encontrar nuevas páginas

Rutas Shopify que deben permanecer protegidas

Ruta	Por qué
`/cart`	Estado personalizado — crawlearlo nunca tiene sentido
`/checkout`	Flujo de pago — debe ser privado
`/account`	Dashboard de cliente logueado
`/admin`	Admin Shopify (ya protegido por auth, explícito es mejor)
`/orders/`	Historial de pedidos por cliente
`/apps/<private>`	Endpoints de app de terceros que exponen datos privados
Páginas de resultados de búsqueda interna	Contenido fino o duplicado; motores IA penalizan sites crawl-pesados
URLs preview / staging	No para visibilidad pública

El ejemplo robots.txt

Pega en el robots.txt.liquid de tu tema Shopify (o el asset robots.txt). Revisa contra tus apps + tema específicos antes de publicar — esta es una baseline de inicio, no una respuesta talla única.

Ejemplo robots.txt crawler IA Shopify txt

# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Checklist de revisión

Antes de publicar, pasa esta checklist. Cada item corresponde a una forma en que tiendas Shopify típicamente filtran visibilidad IA o exponen datos privados vía robots.txt.

Checklist de revisión robots.txt crawler IA Shopify txt

Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Instalar en Shopify

En el admin Shopify, ve a Tienda online → Temas → Editar código.
Bajo Templates, busca robots.txt.liquid. Si no existe, haz clic en «Añadir un nuevo template» → «robots» → «.liquid».
Reemplaza el contenido del archivo con el ejemplo de arriba (ajustado para tu URL de tienda real y cualquier ruta custom).
Guarda el template.
Verifica en https://your-store.myshopify.com/robots.txt que el nuevo contenido se sirve (caché de navegador + caché edge de Shopify pueden tardar minutos en limpiarse).
Pega la URL robots.txt en el Analizador Robots y confirma que GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot aparecen todos como «allowed» para /products/ y /collections/.

Listo. Los crawlers IA recogerán el robots.txt actualizado en su próxima visita (típicamente en 24h). Empareja esta guía con la plantilla llms.txt moda (o la hermana belleza/electrónica) para que una vez los crawlers alcancen tu tienda, encuentren un mapa de contenido que vale la pena leer.

Lista de validación

Páginas de producto públicas no están bloqueadas
GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot reciben `Allow: /products/` (o sin Disallow explícito que cubra /products/).
Páginas de colección públicas no están bloqueadas
Los mismos crawlers pueden alcanzar `/collections/`. Las páginas de colección Shopify son la clase de URL más citada para queries shopping; bloquearlas es la herida autoinfligida nº 1 en visibilidad IA.
Contenido público de blog y guía no está bloqueado
Los mismos crawlers pueden alcanzar `/blogs/` y `/pages/` (donde Shopify aloja FAQs, guías de talla, páginas de ingredientes, páginas de política). Las respuestas IA shopping citan mucho contenido de blog y guía.
Rutas cart, checkout, account y admin permanecen protegidas
Cada bloque de crawler IA tiene explícitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Estas rutas filtran estado personalizado al ser crawleadas y no pertenecen a respuestas IA shopping.
robots.txt no se usa como mecanismo de privacidad o seguridad
Datos sensibles (info de cliente, detalles de orden, datos privados de app) protegidos por autenticación, no por `Disallow`. robots.txt es un hint de crawler, no una frontera de seguridad.
Páginas noindex permanecen crawleables
Si una página debe excluirse de la búsqueda, debe permanecer crawleable (sin `Disallow`) para que el crawler pueda leer la directiva `<meta name="robots" content="noindex">`. Disallow una página noindex la hace inverificable y Google puede indexarla igual.
GPTBot y OAI-SearchBot manejados con bloques de regla separados
No compartas una sola línea `User-agent: GPTBot,OAI-SearchBot`. Ambos tienen semánticas de policy diferentes (training vs fetch search-time) y merchants pueden querer reglas diferentes por crawler.
Cambios probados en el Analizador Robots tras publicación
Tras desplegar el robots.txt actualizado al tema Shopify, pega la URL en /tools/robots-analyzer y confirma que cada crawler IA muestra el estado de acceso esperado.

Ejecutar el Analizador Robots

Prerrellenado con el ejemplo robots.txt crawler IA Shopify de abajo. Pega tu robots.txt Shopify real para comparar, o usa el prefill para testear la baseline recomendada contra tu tienda.

Preguntas frecuentes

¿Permitir GPTBot garantiza visibilidad ChatGPT Shopping?

No. El acceso crawler es el suelo, no el techo. GPTBot alcanzando tu página de producto es necesario para que sea indexada por modelos OpenAI, pero la visibilidad en ChatGPT Shopping también depende de tener contexto de producto útil (Product schema, llms.txt, descripciones precisas, reviews reales). Permite GPTBot, luego audita el contenido que puede ver — ese es el trabajo completo.

¿GPTBot y OAI-SearchBot deben usar el mismo bloque de regla?

No necesariamente. Tienen semánticas de policy diferentes: GPTBot es el crawler de training de OpenAI (su acceso afecta si tu contenido entrena futuros modelos GPT), mientras OAI-SearchBot es el fetcher search-time (su acceso afecta respuestas ChatGPT/Bing en tiempo real). Algunos merchants quieren permitir acceso search-time pero bloquear training. Trátalos como elecciones de policy separadas, con bloques `User-agent:` separados.

¿Puede robots.txt proteger datos de cliente privados de Shopify?

No. robots.txt es una instrucción de crawler, no un mecanismo de seguridad. Crawlers conformes (GPTBot, Googlebot, etc.) respetan `Disallow`, pero scrapers adversarios lo ignoran. Para datos de cliente privados, detalles de orden o endpoints de app, usa la autenticación + controles de acceso integrados de Shopify. robots.txt es una capa; la auth es la línea real.

¿Páginas noindex deben ser disallowed en robots.txt?

No — es el error de robots.txt más común. Si haces `Disallow:` a una página noindex, el crawler nunca lee la etiqueta `<meta name="robots" content="noindex">`, y la página puede ser indexada igual (Google a veces infiere existencia de enlaces externos e indexa la URL sin crawlear). Mantén páginas noindex crawleables; solo bloquea rutas que deban ser totalmente invisibles a crawlers (cart, checkout, account, admin).

Recursos relacionados

Plantilla llms.txt Shopify moda

Recurso hermano — robots.txt y llms.txt trabajan juntos. Permite el crawler en robots.txt, luego publica llms.txt para que sepa qué leer.

Ejemplo Product Schema para Shopify ropa

Una vez que GPTBot puede alcanzar la página de producto (esta guía), el schema JSON-LD es lo que los motores IA shopping realmente parsean para citar el producto.

Analizador Robots.txt

Pega tu URL o contenido robots.txt para verificar que cada crawler IA tiene el estado de acceso intencionado — antes y después de desplegar cambios.

Shopify AI Visibility Optimizer

El stack completo de visibilidad IA — política de crawler es una capa junto a schema, mapa de contenido y monitoreo de citas.

llms.txt para Shopify — guía completa

Una vez que robots.txt permite a crawlers IA alcanzar tu contenido, llms.txt es el mapa de navegación compacto que leen para entender la tienda.

Lista User-Agent Crawlers IA

Después de arreglar robots.txt para GPTBot, esta es la referencia completa con fuentes del proveedor para cada otro crawler IA — qué permitir, qué bloquear, y cuáles ignoran robots.txt de todos modos.

Lo que el acceso GPTBot puede y no puede hacer#

Rutas Shopify que deben permanecer crawleables#

Rutas Shopify que deben permanecer protegidas#

El ejemplo robots.txt#

Checklist de revisión#

Instalar en Shopify#