GPTBot robots.txt для Shopify: практические примеры и проверки
Практические примеры Shopify robots.txt для копирования для GPTBot, OAI-SearchBot, ChatGPT-User и PerplexityBot — с чек-листом, какие пути Shopify должны оставаться сканируемыми, а какие должны быть всегда заблокированы.
robots.txt — это ворота, которые решают, могут ли AI-движки шопинга
даже читать ваш магазин Shopify, прежде чем его цитировать. ChatGPT,
Perplexity и Gemini отвечают на коммерческие запросы о товарах Shopify
только тогда, когда их краулеры (GPTBot, OAI-SearchBot, ChatGPT-User,
PerplexityBot) фактически получили содержимое страницы. Заблокируйте
их в robots.txt — и вы невидимы; все остальные сигналы AI-видимости
(schema, llms.txt, качество контента) становятся неактуальными.
Это руководство предоставляет практический пример Shopify robots.txt, откалиброванный для эры AI-шопинга: разрешить публичный контент магазина (товары, коллекции, блоги, страницы) для важных AI-краулеров, заблокировать пути checkout / account / admin, которые не должны быть открыты, и проверить с помощью Анализатора Robots.
Что доступ GPTBot может и не может делать
| Может | Не может |
|---|---|
| Сканировать публичные страницы товаров, коллекций, блогов | Обойти аутентификацию на частных страницах |
| Индексировать контент для ответов ChatGPT шопинга | Читать контент, требующий входа или разрешений приложений |
| Читать product schema, llms.txt, FAQ, страницы политик | Идентифицировать отдельных покупателей или их корзины |
Уважать директивы Disallow у соответствующих краулеров | Принудительно обеспечить приватность — враждебные скрейперы игнорируют robots.txt |
Учитывать meta-директивы noindex на сканируемых страницах | Заменить надлежащие контроли доступа Shopify |
Конкретно: разрешение GPTBot необходимо для видимости ChatGPT Shopping, но недостаточно. Краулер, достигающий страницы — это пол. Видимость выше gated качеством контента + структурированными данными.
Пути Shopify, которые должны оставаться сканируемыми
| Путь | Почему |
|---|---|
/products/ | Наиболее цитируемый класс URL для запросов AI-шопинга |
/collections/ | Страницы просмотра по категориям; AI использует для «магазин продаёт X» |
/blogs/ | Длинноформатный контент, откуда AI извлекает контекст товара |
/pages/faq | FAQ-контент — AI цитирует для «поддерживает ли X Y» |
/pages/shipping | Политика доставки — AI цитирует для «доставляет ли в X» |
/pages/returns | Политика возврата — AI цитирует для «что если не подойдёт» |
/pages/size-guide | Контекст размеров — AI цитирует для «какой у меня размер» в одежде |
/pages/ingredients | Гид по ингредиентам beauty — AI цитирует для совместимости |
/pages/warranty | Гарантия electronics — AI цитирует для «какая гарантия» |
/llms.txt | Компактная карта контента — AI читает при каждом сканировании |
/sitemap.xml | Обнаружение URL — AI использует для поиска новых страниц товаров |
Пути Shopify, которые должны оставаться защищёнными
| Путь | Почему |
|---|---|
/cart | Персонализированное состояние — сканировать нет смысла |
/checkout | Поток оплаты — должен быть приватным |
/account | Дашборд авторизованного клиента |
/admin | Shopify-admin (уже защищён auth, явное лучше) |
/orders/ | История заказов по клиенту |
/apps/<private> | Эндпоинты сторонних приложений, раскрывающие частные данные |
| Страницы внутренних результатов поиска | Тонкий или дублирующийся контент; AI-движки понижают сайты с тяжёлым сканированием |
| Preview / staging URLs | Не для публичной видимости |
Пример robots.txt
Вставьте в robots.txt.liquid темы Shopify (или asset robots.txt).
Проверьте против ваших конкретных приложений + темы перед публикацией —
это стартовая базовая линия, не универсальный ответ.
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/
Sitemap: https://your-store.myshopify.com/sitemap.xml Чек-лист обзора
Перед публикацией пройдите этот чек-лист. Каждый пункт соответствует способу, которым магазины Shopify обычно теряют видимость AI или раскрывают частные данные через robots.txt.
Shopify AI-crawler robots.txt review checklist
[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid. Установка в Shopify
- В админке Shopify перейдите в Интернет-магазин → Темы → Редактировать код.
- Под Templates ищите
robots.txt.liquid. Если его нет, нажмите «Добавить новый шаблон» → «robots» → «.liquid». - Замените содержимое файла на пример выше (отрегулированный под реальный URL магазина и любые кастомные пути).
- Сохраните шаблон.
- Проверьте на
https://your-store.myshopify.com/robots.txt, что новый контент подаётся (кэш браузера + edge-кэш Shopify могут занять несколько минут для очистки). - Вставьте URL robots.txt в Анализатор Robots
и подтвердите, что GPTBot, OAI-SearchBot, ChatGPT-User и
PerplexityBot все показаны как «allowed» для
/products/и/collections/.
Готово. AI-краулеры подхватят обновлённый robots.txt при следующем посещении (обычно в течение 24 часов). Сочетайте это руководство с шаблоном fashion llms.txt (или сестринским beauty/electronics), чтобы когда краулеры доберутся до вашего магазина, они нашли карту контента, заслуживающую прочтения.
Контрольный список проверки
Публичные страницы товаров не заблокированы
GPTBot, OAI-SearchBot, ChatGPT-User и PerplexityBot все получают `Allow: /products/` (или нет явного Disallow, покрывающего /products/).
Публичные страницы коллекций не заблокированы
Те же краулеры могут добраться до `/collections/`. Страницы коллекций Shopify — наиболее цитируемый класс URL для запросов шопинга; их блокировка — самоповреждение видимости AI №1.
Публичный контент блога и руководств не заблокирован
Те же краулеры могут добраться до `/blogs/` и `/pages/` (где Shopify хостит FAQ, размерные сетки, страницы ингредиентов, страницы политик). AI-ответы шопинга много цитируют контент блога и руководств.
Пути cart, checkout, account и admin остаются защищёнными
Каждый блок AI-краулера явно содержит `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Эти пути утекают персонализированное состояние при сканировании и не принадлежат в AI-ответах шопинга.
robots.txt не используется как механизм приватности или безопасности
Чувствительные данные (информация о клиентах, детали заказов, частные данные приложений) защищены аутентификацией, а не `Disallow`. robots.txt — это подсказка краулеру, а не граница безопасности.
Страницы noindex остаются сканируемыми
Если страница должна быть исключена из поиска, она должна оставаться сканируемой (без `Disallow`), чтобы краулер мог прочитать директиву `<meta name="robots" content="noindex">`. Disallow на странице noindex делает её непроверяемой, и Google всё равно может её проиндексировать.
GPTBot и OAI-SearchBot обрабатываются отдельными блоками правил
Не разделяйте одну строку `User-agent: GPTBot,OAI-SearchBot`. У двух разная семантика политики (обучение vs выборка во время поиска), и продавцы могут хотеть разные правила для каждого краулера.
Изменения протестированы в Анализаторе Robots после публикации
После развёртывания обновлённого robots.txt в теме Shopify вставьте URL в /tools/robots-analyzer и подтвердите, что каждый AI-краулер показывает ожидаемый статус доступа.
Запустить Анализатор Robots
Предзаполнено примером Shopify AI-краулер robots.txt ниже. Вставьте свой реальный robots.txt Shopify для сравнения, или используйте предзаполнение для тестирования рекомендуемой базовой линии против вашего магазина.
Часто задаваемые вопросы
Гарантирует ли разрешение GPTBot видимость в ChatGPT Shopping?
Нет. Доступ краулера — это пол, а не потолок. GPTBot, достигающий вашей страницы товара, необходим для того, чтобы её индексировали модели OpenAI, но видимость в ChatGPT Shopping также зависит от наличия полезного контекста товара (Product schema, llms.txt, точные описания, реальные отзывы). Разрешите GPTBot, затем проведите аудит контента, который он может видеть — это полная работа.
Должны ли GPTBot и OAI-SearchBot использовать один и тот же блок правил?
Не обязательно. У них разная семантика политики: GPTBot — это краулер обучения OpenAI (его доступ влияет на то, обучает ли ваш контент будущие модели GPT), тогда как OAI-SearchBot — это сборщик во время поиска (его доступ влияет на ответы ChatGPT/Bing в реальном времени). Некоторые продавцы хотят разрешить доступ во время поиска, но заблокировать обучение. Рассматривайте как отдельные политические выборы, с отдельными блоками `User-agent:`.
Может ли robots.txt защитить частные данные клиентов Shopify?
Нет. robots.txt — это инструкция краулеру, а не механизм безопасности. Соответствующие краулеры (GPTBot, Googlebot и т.д.) уважают `Disallow`, но враждебные скрейперы его полностью игнорируют. Для частных данных клиентов, деталей заказов или эндпоинтов приложений используйте встроенную аутентификацию + контроль доступа Shopify. robots.txt — это слой; auth — настоящая линия.
Должны ли страницы noindex быть disallowed в robots.txt?
Нет — это самая распространённая ошибка robots.txt. Если вы делаете `Disallow:` для страницы noindex, краулер никогда не читает тег `<meta name="robots" content="noindex">`, и страница всё равно может быть проиндексирована (Google иногда выводит существование из внешних ссылок и индексирует URL без сканирования). Сохраняйте страницы noindex сканируемыми; блокируйте только пути, которые должны быть полностью невидимы для краулеров (cart, checkout, account, admin).
Связанные ресурсы
Шаблон llms.txt Shopify для fashion
Сестринский ресурс — robots.txt и llms.txt работают вместе. Разрешите краулеру в robots.txt, затем опубликуйте llms.txt, чтобы он знал, что читать.
Пример Product Schema для Shopify одежды
Как только GPTBot может достичь страницы товара (это руководство), JSON-LD schema — это то, что AI-движки шопинга действительно парсят для цитирования товара.
Анализатор Robots.txt
Вставьте URL или содержимое robots.txt, чтобы проверить, что каждый AI-краулер имеет предполагаемый статус доступа — до и после развёртывания изменений.
Shopify AI Visibility Optimizer
Полный стек AI-видимости — политика краулера это один слой наряду со schema, картой контента и мониторингом цитирования.
llms.txt для Shopify — полное руководство
Как только robots.txt разрешает AI-краулерам достичь вашего контента, llms.txt — это компактная навигационная карта, которую они читают, чтобы понять магазин.
Список User-Agent AI-Краулеров
После того как вы исправили robots.txt для GPTBot, это полный справочник со ссылками на источники производителя для каждого другого AI-краулера — что разрешить, что заблокировать, и какие игнорируют robots.txt в любом случае.