Перейти к основному содержанию
🇷🇺

GPTBot robots.txt для Shopify: практические примеры и проверки

Практические примеры Shopify robots.txt для копирования для GPTBot, OAI-SearchBot, ChatGPT-User и PerplexityBot — с чек-листом, какие пути Shopify должны оставаться сканируемыми, а какие должны быть всегда заблокированы.

5 min read

robots.txt — это ворота, которые решают, могут ли AI-движки шопинга даже читать ваш магазин Shopify, прежде чем его цитировать. ChatGPT, Perplexity и Gemini отвечают на коммерческие запросы о товарах Shopify только тогда, когда их краулеры (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot) фактически получили содержимое страницы. Заблокируйте их в robots.txt — и вы невидимы; все остальные сигналы AI-видимости (schema, llms.txt, качество контента) становятся неактуальными.

Это руководство предоставляет практический пример Shopify robots.txt, откалиброванный для эры AI-шопинга: разрешить публичный контент магазина (товары, коллекции, блоги, страницы) для важных AI-краулеров, заблокировать пути checkout / account / admin, которые не должны быть открыты, и проверить с помощью Анализатора Robots.

Что доступ GPTBot может и не может делать

МожетНе может
Сканировать публичные страницы товаров, коллекций, блоговОбойти аутентификацию на частных страницах
Индексировать контент для ответов ChatGPT шопингаЧитать контент, требующий входа или разрешений приложений
Читать product schema, llms.txt, FAQ, страницы политикИдентифицировать отдельных покупателей или их корзины
Уважать директивы Disallow у соответствующих краулеровПринудительно обеспечить приватность — враждебные скрейперы игнорируют robots.txt
Учитывать meta-директивы noindex на сканируемых страницахЗаменить надлежащие контроли доступа Shopify

Конкретно: разрешение GPTBot необходимо для видимости ChatGPT Shopping, но недостаточно. Краулер, достигающий страницы — это пол. Видимость выше gated качеством контента + структурированными данными.

Пути Shopify, которые должны оставаться сканируемыми

ПутьПочему
/products/Наиболее цитируемый класс URL для запросов AI-шопинга
/collections/Страницы просмотра по категориям; AI использует для «магазин продаёт X»
/blogs/Длинноформатный контент, откуда AI извлекает контекст товара
/pages/faqFAQ-контент — AI цитирует для «поддерживает ли X Y»
/pages/shippingПолитика доставки — AI цитирует для «доставляет ли в X»
/pages/returnsПолитика возврата — AI цитирует для «что если не подойдёт»
/pages/size-guideКонтекст размеров — AI цитирует для «какой у меня размер» в одежде
/pages/ingredientsГид по ингредиентам beauty — AI цитирует для совместимости
/pages/warrantyГарантия electronics — AI цитирует для «какая гарантия»
/llms.txtКомпактная карта контента — AI читает при каждом сканировании
/sitemap.xmlОбнаружение URL — AI использует для поиска новых страниц товаров

Пути Shopify, которые должны оставаться защищёнными

ПутьПочему
/cartПерсонализированное состояние — сканировать нет смысла
/checkoutПоток оплаты — должен быть приватным
/accountДашборд авторизованного клиента
/adminShopify-admin (уже защищён auth, явное лучше)
/orders/История заказов по клиенту
/apps/<private>Эндпоинты сторонних приложений, раскрывающие частные данные
Страницы внутренних результатов поискаТонкий или дублирующийся контент; AI-движки понижают сайты с тяжёлым сканированием
Preview / staging URLsНе для публичной видимости

Пример robots.txt

Вставьте в robots.txt.liquid темы Shopify (или asset robots.txt). Проверьте против ваших конкретных приложений + темы перед публикацией — это стартовая базовая линия, не универсальный ответ.

Пример robots.txt для AI-краулера Shopify txt
# Shopify AI-crawler robots.txt — starter baseline.
# Review against your theme, apps, privacy needs, and policy before
# publishing to production.

User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: OAI-SearchBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: ChatGPT-User
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: PerplexityBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

User-agent: Googlebot
Allow: /
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /admin
Disallow: /orders/

Sitemap: https://your-store.myshopify.com/sitemap.xml

Чек-лист обзора

Перед публикацией пройдите этот чек-лист. Каждый пункт соответствует способу, которым магазины Shopify обычно теряют видимость AI или раскрывают частные данные через robots.txt.

Чек-лист обзора robots.txt для AI-краулера Shopify txt
Shopify AI-crawler robots.txt review checklist

[ ] Public product pages (/products/) are not blocked.
[ ] Public collection pages (/collections/) are not blocked.
[ ] Public blog (/blogs/) and pages (/pages/) content is not blocked.
[ ] Cart, checkout, account, admin, orders paths stay protected.
[ ] Each AI crawler has its own User-agent block (no shared rules).
[ ] noindex pages remain crawlable (so the crawler can read noindex).
[ ] robots.txt is not the only thing protecting private data —
    authentication handles that.
[ ] Sitemap directive points at the real /sitemap.xml URL.
[ ] Tested in /tools/robots-analyzer after deploying.
[ ] Re-checked after any theme update that touches robots.txt.liquid.

Установка в Shopify

  1. В админке Shopify перейдите в Интернет-магазин → Темы → Редактировать код.
  2. Под Templates ищите robots.txt.liquid. Если его нет, нажмите «Добавить новый шаблон» → «robots» → «.liquid».
  3. Замените содержимое файла на пример выше (отрегулированный под реальный URL магазина и любые кастомные пути).
  4. Сохраните шаблон.
  5. Проверьте на https://your-store.myshopify.com/robots.txt, что новый контент подаётся (кэш браузера + edge-кэш Shopify могут занять несколько минут для очистки).
  6. Вставьте URL robots.txt в Анализатор Robots и подтвердите, что GPTBot, OAI-SearchBot, ChatGPT-User и PerplexityBot все показаны как «allowed» для /products/ и /collections/.

Готово. AI-краулеры подхватят обновлённый robots.txt при следующем посещении (обычно в течение 24 часов). Сочетайте это руководство с шаблоном fashion llms.txt (или сестринским beauty/electronics), чтобы когда краулеры доберутся до вашего магазина, они нашли карту контента, заслуживающую прочтения.

Контрольный список проверки

  • Публичные страницы товаров не заблокированы

    GPTBot, OAI-SearchBot, ChatGPT-User и PerplexityBot все получают `Allow: /products/` (или нет явного Disallow, покрывающего /products/).

  • Публичные страницы коллекций не заблокированы

    Те же краулеры могут добраться до `/collections/`. Страницы коллекций Shopify — наиболее цитируемый класс URL для запросов шопинга; их блокировка — самоповреждение видимости AI №1.

  • Публичный контент блога и руководств не заблокирован

    Те же краулеры могут добраться до `/blogs/` и `/pages/` (где Shopify хостит FAQ, размерные сетки, страницы ингредиентов, страницы политик). AI-ответы шопинга много цитируют контент блога и руководств.

  • Пути cart, checkout, account и admin остаются защищёнными

    Каждый блок AI-краулера явно содержит `Disallow: /cart`, `Disallow: /checkout`, `Disallow: /account`, `Disallow: /admin`. Эти пути утекают персонализированное состояние при сканировании и не принадлежат в AI-ответах шопинга.

  • robots.txt не используется как механизм приватности или безопасности

    Чувствительные данные (информация о клиентах, детали заказов, частные данные приложений) защищены аутентификацией, а не `Disallow`. robots.txt — это подсказка краулеру, а не граница безопасности.

  • Страницы noindex остаются сканируемыми

    Если страница должна быть исключена из поиска, она должна оставаться сканируемой (без `Disallow`), чтобы краулер мог прочитать директиву `<meta name="robots" content="noindex">`. Disallow на странице noindex делает её непроверяемой, и Google всё равно может её проиндексировать.

  • GPTBot и OAI-SearchBot обрабатываются отдельными блоками правил

    Не разделяйте одну строку `User-agent: GPTBot,OAI-SearchBot`. У двух разная семантика политики (обучение vs выборка во время поиска), и продавцы могут хотеть разные правила для каждого краулера.

  • Изменения протестированы в Анализаторе Robots после публикации

    После развёртывания обновлённого robots.txt в теме Shopify вставьте URL в /tools/robots-analyzer и подтвердите, что каждый AI-краулер показывает ожидаемый статус доступа.

Запустить Анализатор Robots

Предзаполнено примером Shopify AI-краулер robots.txt ниже. Вставьте свой реальный robots.txt Shopify для сравнения, или используйте предзаполнение для тестирования рекомендуемой базовой линии против вашего магазина.

Часто задаваемые вопросы

Гарантирует ли разрешение GPTBot видимость в ChatGPT Shopping?

Нет. Доступ краулера — это пол, а не потолок. GPTBot, достигающий вашей страницы товара, необходим для того, чтобы её индексировали модели OpenAI, но видимость в ChatGPT Shopping также зависит от наличия полезного контекста товара (Product schema, llms.txt, точные описания, реальные отзывы). Разрешите GPTBot, затем проведите аудит контента, который он может видеть — это полная работа.

Должны ли GPTBot и OAI-SearchBot использовать один и тот же блок правил?

Не обязательно. У них разная семантика политики: GPTBot — это краулер обучения OpenAI (его доступ влияет на то, обучает ли ваш контент будущие модели GPT), тогда как OAI-SearchBot — это сборщик во время поиска (его доступ влияет на ответы ChatGPT/Bing в реальном времени). Некоторые продавцы хотят разрешить доступ во время поиска, но заблокировать обучение. Рассматривайте как отдельные политические выборы, с отдельными блоками `User-agent:`.

Может ли robots.txt защитить частные данные клиентов Shopify?

Нет. robots.txt — это инструкция краулеру, а не механизм безопасности. Соответствующие краулеры (GPTBot, Googlebot и т.д.) уважают `Disallow`, но враждебные скрейперы его полностью игнорируют. Для частных данных клиентов, деталей заказов или эндпоинтов приложений используйте встроенную аутентификацию + контроль доступа Shopify. robots.txt — это слой; auth — настоящая линия.

Должны ли страницы noindex быть disallowed в robots.txt?

Нет — это самая распространённая ошибка robots.txt. Если вы делаете `Disallow:` для страницы noindex, краулер никогда не читает тег `<meta name="robots" content="noindex">`, и страница всё равно может быть проиндексирована (Google иногда выводит существование из внешних ссылок и индексирует URL без сканирования). Сохраняйте страницы noindex сканируемыми; блокируйте только пути, которые должны быть полностью невидимы для краулеров (cart, checkout, account, admin).

Связанные ресурсы

Шаблон llms.txt Shopify для fashion

Сестринский ресурс — robots.txt и llms.txt работают вместе. Разрешите краулеру в robots.txt, затем опубликуйте llms.txt, чтобы он знал, что читать.

Пример Product Schema для Shopify одежды

Как только GPTBot может достичь страницы товара (это руководство), JSON-LD schema — это то, что AI-движки шопинга действительно парсят для цитирования товара.

Анализатор Robots.txt

Вставьте URL или содержимое robots.txt, чтобы проверить, что каждый AI-краулер имеет предполагаемый статус доступа — до и после развёртывания изменений.

Shopify AI Visibility Optimizer

Полный стек AI-видимости — политика краулера это один слой наряду со schema, картой контента и мониторингом цитирования.

llms.txt для Shopify — полное руководство

Как только robots.txt разрешает AI-краулерам достичь вашего контента, llms.txt — это компактная навигационная карта, которую они читают, чтобы понять магазин.

Список User-Agent AI-Краулеров

После того как вы исправили robots.txt для GPTBot, это полный справочник со ссылками на источники производителя для каждого другого AI-краулера — что разрешить, что заблокировать, и какие игнорируют robots.txt в любом случае.