GPTBot robots.txt para Shopify: ejemplos prácticos y verificaciones
Ejemplos prácticos de robots.txt Shopify para copiar, para GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot — con un checklist de qué rutas Shopify deben permanecer crawleables y cuáles deben estar siempre bloqueadas.
robots.txt es la puerta que decide si los motores IA shopping pueden
siquiera leer tu tienda Shopify antes de citarla. ChatGPT, Perplexity y
Gemini responden queries comerciales sobre productos Shopify solo cuando
sus crawlers (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) han
realmente fetch el contenido de la página. Bloquearlos en robots.txt te
hace invisible — cualquier otra señal de visibilidad IA (schema,
llms.txt, calidad de contenido) se vuelve discutible.
Esta guía entrega un ejemplo práctico de robots.txt Shopify calibrado para la era shopping IA: permitir el contenido público de la tienda (productos, colecciones, blogs, páginas) para los crawlers IA que importan, bloquear las rutas checkout / account / admin que no, y verificar que funciona usando el Analizador Robots.
Lo que el acceso GPTBot puede y no puede hacer
| Puede | No puede |
|---|---|
| Crawlear páginas de producto, colecciones, blogs públicos | Eludir la autenticación en páginas privadas |
| Indexar contenido para respuestas ChatGPT shopping | Leer contenido que requiere login o permisos de app |
| Leer product schema, llms.txt, FAQ, páginas de política | Identificar compradores individuales o sus carritos |
Respetar directivas Disallow en crawlers conformes | Imponer privacidad — scrapers adversarios ignoran robots.txt |
Honrar directivas meta noindex en páginas crawleables | Sustituir controles de acceso Shopify proper |
Concretamente: permitir GPTBot es necesario para visibilidad ChatGPT Shopping, pero no suficiente. El crawler alcanzando la página es el suelo. La visibilidad encima está gated por calidad de contenido + datos estructurados.
Rutas Shopify que deben permanecer crawleables
| Ruta | Por qué |
|---|---|
/products/ | Clase de URL más citada para queries shopping IA |
/collections/ | Páginas browse de categoría; IA las usa para «tienda vende X» |
/blogs/ | Contenido long-form donde IA extrae contexto producto |
/pages/faq | Contenido FAQ — IA cita para «¿X soporta Y?» |
/pages/shipping | Política envío — IA cita para «¿envía a X?» |
/pages/returns | Política devolución — IA cita para «¿qué si no me queda?» |
/pages/size-guide | Contexto tallas — IA cita para «¿qué talla soy?» ropa |
/pages/ingredients | Guía ingredientes belleza — IA cita para compatibilidad |
/pages/warranty | Garantía electrónica — IA cita para «¿cuál es la garantía?» |
/llms.txt | Mapa de contenido compacto — IA lo lee en cada crawl |
/sitemap.xml | Descubrimiento de URLs — IA usa para encontrar nuevas páginas |
Rutas Shopify que deben permanecer protegidas
| Ruta | Por qué |
|---|---|
/cart | Estado personalizado — crawlearlo nunca tiene sentido |
/checkout | Flujo de pago — debe ser privado |
/account | Dashboard de cliente logueado |
/admin | Admin Shopify (ya protegido por auth, explícito es mejor) |
/orders/ | Historial de pedidos por cliente |
/apps/<private> | Endpoints de app de terceros que exponen datos privados |
| Páginas de resultados de búsqueda interna | Contenido fino o duplicado; motores IA penalizan sites crawl-pesados |
| URLs preview / staging | No para visibilidad pública |
El ejemplo robots.txt
Pega en el robots.txt.liquid de tu tema Shopify (o el asset
robots.txt). Revisa contra tus apps + tema específicos antes de
publicar — esta es una baseline de inicio, no una respuesta talla
única.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Checklist de revisión
Antes de publicar, pasa esta checklist. Cada item corresponde a una forma en que tiendas Shopify típicamente filtran visibilidad IA o exponen datos privados vía robots.txt.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Instalar en Shopify
- En el admin Shopify, ve a Tienda online → Temas → Editar código.
- Bajo Templates, busca
robots.txt.liquid. Si no existe, haz clic en «Añadir un nuevo template» → «robots» → «.liquid». - Reemplaza el contenido del archivo con el ejemplo de arriba (ajustado para tu URL de tienda real y cualquier ruta custom).
- Guarda el template.
- Verifica en
https://your-store.myshopify.com/robots.txtque el nuevo contenido se sirve (caché de navegador + caché edge de Shopify pueden tardar minutos en limpiarse). - Pega la URL robots.txt en el
Analizador Robots
y confirma que GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot
aparecen todos como «allowed» para
/products/y/collections/.
Listo. Los crawlers IA recogerán el robots.txt actualizado en su próxima visita (típicamente en 24h). Empareja esta guía con la plantilla llms.txt moda (o la hermana belleza/electrónica) para que una vez los crawlers alcancen tu tienda, encuentren un mapa de contenido que vale la pena leer.
Lista de validación
Páginas de producto públicas no están bloqueadas
GPTBot, OAI-SearchBot, ChatGPT-User y PerplexityBot reciben `Allow: /products/` (o sin Disallow explícito que cubra /products/).
Páginas de colección públicas no están bloqueadas
Los mismos crawlers pueden alcanzar `/collections/`. Las páginas de colección Shopify son la clase de URL más citada para queries shopping; bloquearlas es la herida autoinfligida nº 1 en visibilidad IA.
Contenido público de blog y guía no está bloqueado
Los mismos crawlers pueden alcanzar `/blogs/` y `/pages/` (donde Shopify aloja FAQs, guías de talla, páginas de ingredientes, páginas de política). Las respuestas IA shopping citan mucho contenido de blog y guía.
Rutas cart, checkout, account y admin permanecen protegidas
Cada bloque de crawler IA tiene explícitamente `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Estas rutas filtran estado personalizado al ser crawleadas y no pertenecen a respuestas IA shopping.
robots.txt no se usa como mecanismo de privacidad o seguridad
Datos sensibles (info de cliente, detalles de orden, datos privados de app) protegidos por autenticación, no por `Disallow`. robots.txt es un hint de crawler, no una frontera de seguridad.
Páginas noindex permanecen crawleables
Si una página debe excluirse de la búsqueda, debe permanecer crawleable (sin `Disallow`) para que el crawler pueda leer la directiva `<meta name="robots" content="noindex">`. Disallow una página noindex la hace inverificable y Google puede indexarla igual.
GPTBot y OAI-SearchBot manejados con bloques de regla separados
No compartas una sola línea `User-agent: GPTBot,OAI-SearchBot`. Ambos tienen semánticas de policy diferentes (training vs fetch search-time) y merchants pueden querer reglas diferentes por crawler.
Cambios probados en el Analizador Robots tras publicación
Tras desplegar el robots.txt actualizado al tema Shopify, pega la URL en /tools/robots-analyzer y confirma que cada crawler IA muestra el estado de acceso esperado.
Ejecutar el Analizador Robots
Prerrellenado con el ejemplo robots.txt crawler IA Shopify de abajo. Pega tu robots.txt Shopify real para comparar, o usa el prefill para testear la baseline recomendada contra tu tienda.
Preguntas frecuentes
¿Permitir GPTBot garantiza visibilidad ChatGPT Shopping?
No. El acceso crawler es el suelo, no el techo. GPTBot alcanzando tu página de producto es necesario para que sea indexada por modelos OpenAI, pero la visibilidad en ChatGPT Shopping también depende de tener contexto de producto útil (Product schema, llms.txt, descripciones precisas, reviews reales). Permite GPTBot, luego audita el contenido que puede ver — ese es el trabajo completo.
¿GPTBot y OAI-SearchBot deben usar el mismo bloque de regla?
No necesariamente. Tienen semánticas de policy diferentes: GPTBot es el crawler de training de OpenAI (su acceso afecta si tu contenido entrena futuros modelos GPT), mientras OAI-SearchBot es el fetcher search-time (su acceso afecta respuestas ChatGPT/Bing en tiempo real). Algunos merchants quieren permitir acceso search-time pero bloquear training. Trátalos como elecciones de policy separadas, con bloques `User-agent:` separados.
¿Puede robots.txt proteger datos de cliente privados de Shopify?
No. robots.txt es una instrucción de crawler, no un mecanismo de seguridad. Crawlers conformes (GPTBot, Googlebot, etc.) respetan `Disallow`, pero scrapers adversarios lo ignoran. Para datos de cliente privados, detalles de orden o endpoints de app, usa la autenticación + controles de acceso integrados de Shopify. robots.txt es una capa; la auth es la línea real.
¿Páginas noindex deben ser disallowed en robots.txt?
No — es el error de robots.txt más común. Si haces `Disallow:` a una página noindex, el crawler nunca lee la etiqueta `<meta name="robots" content="noindex">`, y la página puede ser indexada igual (Google a veces infiere existencia de enlaces externos e indexa la URL sin crawlear). Mantén páginas noindex crawleables; solo bloquea rutas que deban ser totalmente invisibles a crawlers (cart, checkout, account, admin).
Recursos relacionados
Plantilla llms.txt Shopify moda
Recurso hermano — robots.txt y llms.txt trabajan juntos. Permite el crawler en robots.txt, luego publica llms.txt para que sepa qué leer.
Ejemplo Product Schema para Shopify ropa
Una vez que GPTBot puede alcanzar la página de producto (esta guía), el schema JSON-LD es lo que los motores IA shopping realmente parsean para citar el producto.
Analizador Robots.txt
Pega tu URL o contenido robots.txt para verificar que cada crawler IA tiene el estado de acceso intencionado — antes y después de desplegar cambios.
Shopify AI Visibility Optimizer
El stack completo de visibilidad IA — política de crawler es una capa junto a schema, mapa de contenido y monitoreo de citas.
llms.txt para Shopify — guía completa
Una vez que robots.txt permite a crawlers IA alcanzar tu contenido, llms.txt es el mapa de navegación compacto que leen para entender la tienda.
Lista User-Agent Crawlers IA
Después de arreglar robots.txt para GPTBot, esta es la referencia completa con fuentes del proveedor para cada otro crawler IA — qué permitir, qué bloquear, y cuáles ignoran robots.txt de todos modos.