Pular para o conteúdo principal
🇧🇷

Lista User-Agent de Crawlers IA

Lista de referência de cada crawler e user-agent IA importante — o que fazem, quem os opera e se respeitam robots.txt.

21 crawler(s) exibido(s)
User-agentFornecedor
GPTBotOpenAI
OAI-SearchBotOpenAI
ChatGPT-UserOpenAI
ClaudeBotAnthropic
Claude-SearchBotAnthropic
Claude-UserAnthropic
Google-ExtendedGoogle
GoogleOtherGoogle
GooglebotGoogle
PerplexityBotPerplexity
Perplexity-UserPerplexity
ApplebotApple
Applebot-ExtendedApple
CCBotCommon Crawl
Meta-ExternalAgentMeta
Meta-ExternalFetcherMeta
BytespiderByteDance
AmazonbotAmazon
DuckAssistBotDuckDuckGo
MistralAI-UserMistral
YouBotYou.com
robots.txt
# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

O que esta lista mostra

  • A string User-agent exata de cada crawler IA importante, retirada da documentação do fornecedor
  • Se cada crawler respeita robots.txt — e onde existem exceções
  • Para que serve cada crawler: treinamento IA, índice de busca IA, recuperação iniciada pelo usuário, busca clássica ou dataset compartilhado

Por que importa uma lista de crawlers com fontes

Regras robots.txt só funcionam se você escrever o User-agent exatamente como o crawler se anuncia. Um erro de digitação («GPT-Bot» em vez de «GPTBot») falha silenciosamente. Esta lista extrai cada nome diretamente dos documentos públicos do fornecedor para que sua robots.txt realmente faça o que você pretende.

Como merchants usam esta lista

  • Cole o bloco «Copiar como robots.txt» filtrado no seu override Shopify robots.txt.liquid para bloquear crawlers que você não quer
  • Para Google-Extended e Applebot-Extended: são tokens de robots.txt — nunca aparecem nos seus logs de acesso
  • Execute /tools/robots-analyzer contra sua robots.txt atual para verificar que os crawlers corretos estão permitidos ou bloqueados

Erros comuns a evitar

  • Bloquear Googlebot para optar por sair de AI Overviews — não há UA separado para AI Overviews; bloquear Googlebot também te remove da busca regular do Google
  • Assumir que fetchers iniciados pelo usuário respeitam robots.txt — Perplexity-User explicitamente não respeita
  • Copiar string UA de um post de blog sem checar a fonte do fornecedor — nomes mudam, blogs envelhecem

FAQ lista crawlers IA

Devo bloquear crawlers IA na minha loja Shopify?

Normalmente não — a maioria dos crawlers IA é como os compradores te encontram em respostas de ChatGPT, Perplexity, Claude e Gemini. Bloqueie apenas os crawlers cujo valor para sua loja é incerto (p. ex. Bytespider) ou cujos tokens de opt-out (Google-Extended, Applebot-Extended) você decidiu não participar em treinamento.

Com que frequência esta lista é atualizada?

Sempre que um fornecedor publica um novo crawler, descontinua um, ou muda seu comportamento declarado de robots.txt. Cada entrada linka a fonte do fornecedor para verificação direta.

Por que algumas entradas estão marcadas como «parcial» ou «não claro»?

Porque o comportamento declarado pelo fornecedor e auditorias de terceiros não concordam, ou o fornecedor não publicou uma posição clara. Não fabricamos um «sim» limpo quando a realidade é mais complicada.