Lista User-Agent de Crawlers IA

Lista de referência de cada crawler e user-agent IA importante — o que fazem, quem os opera e se respeitam robots.txt.

BuscarCategoriaComportamento robots.txt

21 crawler(s) exibido(s)

User-agent	Fornecedor	Categoria	Respeita robots.txt
GPTBot	OpenAI	Treinamento IA	Sim
OAI-SearchBot	OpenAI	Índice de busca IA	Sim
ChatGPT-User	OpenAI	Recuperação iniciada pelo usuário	Sim
ClaudeBot	Anthropic	Treinamento IA	Sim
Claude-SearchBot	Anthropic	Índice de busca IA	Sim
Claude-User	Anthropic	Recuperação iniciada pelo usuário	Sim
Google-Extended	Google	Treinamento IA	Sim
GoogleOther	Google	Treinamento IA	Sim
Googlebot	Google	Motor de busca	Sim
PerplexityBot	Perplexity	Índice de busca IA	Sim
Perplexity-User	Perplexity	Recuperação iniciada pelo usuário	Não
Applebot	Apple	Motor de busca	Sim
Applebot-Extended	Apple	Treinamento IA	Sim
CCBot	Common Crawl	Dataset compartilhado	Sim
Meta-ExternalAgent	Meta	Treinamento IA	Sim
Meta-ExternalFetcher	Meta	Recuperação iniciada pelo usuário	Sim
Bytespider	ByteDance	Treinamento IA	Parcial
Amazonbot	Amazon	Índice de busca IA	Sim
DuckAssistBot	DuckDuckGo	Índice de busca IA	Sim
MistralAI-User	Mistral	Recuperação iniciada pelo usuário	Sim
YouBot	You.com	Índice de busca IA	Sim

robots.txt

# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

O que esta lista mostra

A string User-agent exata de cada crawler IA importante, retirada da documentação do fornecedor
Se cada crawler respeita robots.txt — e onde existem exceções
Para que serve cada crawler: treinamento IA, índice de busca IA, recuperação iniciada pelo usuário, busca clássica ou dataset compartilhado

Por que importa uma lista de crawlers com fontes

Regras robots.txt só funcionam se você escrever o User-agent exatamente como o crawler se anuncia. Um erro de digitação («GPT-Bot» em vez de «GPTBot») falha silenciosamente. Esta lista extrai cada nome diretamente dos documentos públicos do fornecedor para que sua robots.txt realmente faça o que você pretende.

Como merchants usam esta lista

Cole o bloco «Copiar como robots.txt» filtrado no seu override Shopify robots.txt.liquid para bloquear crawlers que você não quer
Para Google-Extended e Applebot-Extended: são tokens de robots.txt — nunca aparecem nos seus logs de acesso
Execute /tools/robots-analyzer contra sua robots.txt atual para verificar que os crawlers corretos estão permitidos ou bloqueados

Erros comuns a evitar

Bloquear Googlebot para optar por sair de AI Overviews — não há UA separado para AI Overviews; bloquear Googlebot também te remove da busca regular do Google
Assumir que fetchers iniciados pelo usuário respeitam robots.txt — Perplexity-User explicitamente não respeita
Copiar string UA de um post de blog sem checar a fonte do fornecedor — nomes mudam, blogs envelhecem

FAQ lista crawlers IA

Devo bloquear crawlers IA na minha loja Shopify?

Normalmente não — a maioria dos crawlers IA é como os compradores te encontram em respostas de ChatGPT, Perplexity, Claude e Gemini. Bloqueie apenas os crawlers cujo valor para sua loja é incerto (p. ex. Bytespider) ou cujos tokens de opt-out (Google-Extended, Applebot-Extended) você decidiu não participar em treinamento.

Com que frequência esta lista é atualizada?

Sempre que um fornecedor publica um novo crawler, descontinua um, ou muda seu comportamento declarado de robots.txt. Cada entrada linka a fonte do fornecedor para verificação direta.

Por que algumas entradas estão marcadas como «parcial» ou «não claro»?

Porque o comportamento declarado pelo fornecedor e auditorias de terceiros não concordam, ou o fornecedor não publicou uma posição clara. Não fabricamos um «sim» limpo quando a realidade é mais complicada.

Recursos relacionados de visibilidade IA

GPTBot robots.txt para Shopify Analisador robots Modelo llms.txt (moda)