Liste User-Agent Crawlers IA

Liste de référence de chaque crawler et user-agent IA majeur — ce qu'ils font, qui les exploite et s'ils respectent robots.txt.

RechercherCatégorieComportement robots.txt

21 crawler(s) affiché(s)

User-agent	Éditeur	Catégorie	Respecte robots.txt
GPTBot	OpenAI	Entraînement IA	Oui
OAI-SearchBot	OpenAI	Index de recherche IA	Oui
ChatGPT-User	OpenAI	Récupération déclenchée par l'utilisateur	Oui
ClaudeBot	Anthropic	Entraînement IA	Oui
Claude-SearchBot	Anthropic	Index de recherche IA	Oui
Claude-User	Anthropic	Récupération déclenchée par l'utilisateur	Oui
Google-Extended	Google	Entraînement IA	Oui
GoogleOther	Google	Entraînement IA	Oui
Googlebot	Google	Moteur de recherche	Oui
PerplexityBot	Perplexity	Index de recherche IA	Oui
Perplexity-User	Perplexity	Récupération déclenchée par l'utilisateur	Non
Applebot	Apple	Moteur de recherche	Oui
Applebot-Extended	Apple	Entraînement IA	Oui
CCBot	Common Crawl	Jeu de données partagé	Oui
Meta-ExternalAgent	Meta	Entraînement IA	Oui
Meta-ExternalFetcher	Meta	Récupération déclenchée par l'utilisateur	Oui
Bytespider	ByteDance	Entraînement IA	Partiel
Amazonbot	Amazon	Index de recherche IA	Oui
DuckAssistBot	DuckDuckGo	Index de recherche IA	Oui
MistralAI-User	Mistral	Récupération déclenchée par l'utilisateur	Oui
YouBot	You.com	Index de recherche IA	Oui

robots.txt

# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

Ce que montre cette liste

La chaîne User-agent exacte de chaque crawler IA majeur, tirée de la documentation éditeur
Si chaque crawler respecte robots.txt — et où des exceptions existent
À quoi sert chaque crawler : entraînement IA, index de recherche IA, récupération déclenchée par l'utilisateur, recherche classique ou jeu de données partagé

Pourquoi une liste de crawlers sourcée compte

Les règles robots.txt ne fonctionnent que si vous écrivez le User-agent exactement comme le crawler se déclare. Une faute de frappe (« GPT-Bot » au lieu de « GPTBot ») échoue silencieusement. Cette liste tire chaque nom directement des documents publics de l'éditeur pour que votre robots.txt fasse réellement ce que vous voulez.

Comment les marchands utilisent cette liste

Collez le bloc « Copier en robots.txt » filtré dans votre override Shopify robots.txt.liquid pour bloquer les crawlers que vous ne voulez pas
Pour Google-Extended et Applebot-Extended : ce sont des tokens robots.txt — ils n'apparaissent jamais dans vos logs d'accès
Exécutez /tools/robots-analyzer contre votre robots.txt actuel pour vérifier que les bons crawlers sont autorisés ou bloqués

Erreurs courantes à éviter

Bloquer Googlebot pour se retirer des AI Overviews — il n'y a pas de UA séparé pour AI Overviews ; bloquer Googlebot vous retire aussi de la recherche Google classique
Supposer que les fetchers déclenchés par l'utilisateur respectent robots.txt — Perplexity-User ne le fait explicitement pas
Copier une chaîne UA depuis un article de blog sans vérifier la source éditeur — les noms changent, les blogs deviennent obsolètes

FAQ liste des crawlers IA

Dois-je bloquer les crawlers IA de mon store Shopify ?

Généralement non — la plupart des crawlers IA sont comment les acheteurs vous trouvent dans les réponses ChatGPT, Perplexity, Claude et Gemini. Bloquez uniquement les crawlers dont la valeur pour votre store est floue (par ex. Bytespider) ou dont vous avez décidé de vous retirer de l'entraînement via leurs tokens d'opt-out (Google-Extended, Applebot-Extended).

À quelle fréquence cette liste est-elle mise à jour ?

Chaque fois qu'un éditeur publie un nouveau crawler, en déprécie un ou change son comportement robots.txt déclaré. Chaque entrée renvoie vers la source éditeur pour vérification directe.

Pourquoi certaines entrées sont-elles marquées « partiel » ou « non clair » ?

Parce que le comportement déclaré par l'éditeur et les audits tiers ne concordent pas, ou que l'éditeur n'a pas publié de position claire. Nous ne fabriquons pas un « oui » propre quand la réalité est plus complexe.

Ressources de visibilité IA associées

GPTBot robots.txt pour Shopify Analyseur robots Modèle llms.txt (mode)