Lista User-Agent de Crawlers IA

Lista de referencia de cada crawler y user-agent IA importante — qué hacen, quién los opera y si respetan robots.txt.

BuscarCategoríaComportamiento robots.txt

21 crawler(s) mostrado(s)

User-agent	Proveedor	Categoría	Respeta robots.txt
GPTBot	OpenAI	Entrenamiento IA	Sí
OAI-SearchBot	OpenAI	Índice de búsqueda IA	Sí
ChatGPT-User	OpenAI	Recuperación iniciada por usuario	Sí
ClaudeBot	Anthropic	Entrenamiento IA	Sí
Claude-SearchBot	Anthropic	Índice de búsqueda IA	Sí
Claude-User	Anthropic	Recuperación iniciada por usuario	Sí
Google-Extended	Google	Entrenamiento IA	Sí
GoogleOther	Google	Entrenamiento IA	Sí
Googlebot	Google	Motor de búsqueda	Sí
PerplexityBot	Perplexity	Índice de búsqueda IA	Sí
Perplexity-User	Perplexity	Recuperación iniciada por usuario	No
Applebot	Apple	Motor de búsqueda	Sí
Applebot-Extended	Apple	Entrenamiento IA	Sí
CCBot	Common Crawl	Dataset compartido	Sí
Meta-ExternalAgent	Meta	Entrenamiento IA	Sí
Meta-ExternalFetcher	Meta	Recuperación iniciada por usuario	Sí
Bytespider	ByteDance	Entrenamiento IA	Parcial
Amazonbot	Amazon	Índice de búsqueda IA	Sí
DuckAssistBot	DuckDuckGo	Índice de búsqueda IA	Sí
MistralAI-User	Mistral	Recuperación iniciada por usuario	Sí
YouBot	You.com	Índice de búsqueda IA	Sí

robots.txt

# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

Lo que muestra esta lista

La cadena User-agent exacta de cada crawler IA importante, tomada de la documentación del proveedor
Si cada crawler respeta robots.txt — y dónde existen excepciones
Para qué sirve cada crawler: entrenamiento IA, índice de búsqueda IA, recuperación iniciada por usuario, búsqueda clásica o dataset compartido

Por qué importa una lista de crawlers con fuentes

Las reglas robots.txt solo funcionan si escribes el User-agent exactamente como el crawler se anuncia. Un error tipográfico («GPT-Bot» en lugar de «GPTBot») falla silenciosamente. Esta lista extrae cada nombre directamente de los documentos públicos del proveedor para que tu robots.txt realmente haga lo que pretendes.

Cómo los merchants usan esta lista

Pega el bloque «Copiar como robots.txt» filtrado en tu override de Shopify robots.txt.liquid para bloquear crawlers que no quieres
Para Google-Extended y Applebot-Extended: son tokens de robots.txt — nunca aparecen en tus logs de acceso
Ejecuta /tools/robots-analyzer contra tu robots.txt actual para verificar que los crawlers correctos están permitidos o bloqueados

Errores comunes a evitar

Bloquear Googlebot para optar fuera de AI Overviews — no hay UA separado para AI Overviews; bloquear Googlebot también te quita de la búsqueda regular de Google
Asumir que los fetchers iniciados por usuario respetan robots.txt — Perplexity-User explícitamente no lo hace
Copiar una cadena UA de un artículo de blog sin verificar la fuente del proveedor — los nombres cambian, los blogs envejecen

FAQ lista crawlers IA

¿Debo bloquear crawlers IA en mi tienda Shopify?

Normalmente no — la mayoría de los crawlers IA son cómo los compradores te encuentran en respuestas de ChatGPT, Perplexity, Claude y Gemini. Bloquea solo los crawlers cuyo valor para tu tienda es incierto (p. ej. Bytespider) o cuyos tokens de opt-out (Google-Extended, Applebot-Extended) has decidido no participar en entrenamiento.

¿Con qué frecuencia se actualiza esta lista?

Cada vez que un proveedor publica un nuevo crawler, deprecia uno o cambia su comportamiento declarado de robots.txt. Cada entrada enlaza a la fuente del proveedor para verificación directa.

¿Por qué algunas entradas están marcadas como «parcial» o «no claro»?

Porque el comportamiento declarado del proveedor y las auditorías de terceros no coinciden, o el proveedor no ha publicado una posición clara. No fabricamos un «sí» limpio cuando la realidad es más complicada.

Recursos relacionados de visibilidad IA

GPTBot robots.txt para Shopify Analizador robots Plantilla llms.txt (moda)