Aller au contenu principal
🇫🇷

Liste User-Agent Crawlers IA

Liste de référence de chaque crawler et user-agent IA majeur — ce qu'ils font, qui les exploite et s'ils respectent robots.txt.

21 crawler(s) affiché(s)
User-agentÉditeur
GPTBotOpenAI
OAI-SearchBotOpenAI
ChatGPT-UserOpenAI
ClaudeBotAnthropic
Claude-SearchBotAnthropic
Claude-UserAnthropic
Google-ExtendedGoogle
GoogleOtherGoogle
GooglebotGoogle
PerplexityBotPerplexity
Perplexity-UserPerplexity
ApplebotApple
Applebot-ExtendedApple
CCBotCommon Crawl
Meta-ExternalAgentMeta
Meta-ExternalFetcherMeta
BytespiderByteDance
AmazonbotAmazon
DuckAssistBotDuckDuckGo
MistralAI-UserMistral
YouBotYou.com
robots.txt
# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

Ce que montre cette liste

  • La chaîne User-agent exacte de chaque crawler IA majeur, tirée de la documentation éditeur
  • Si chaque crawler respecte robots.txt — et où des exceptions existent
  • À quoi sert chaque crawler : entraînement IA, index de recherche IA, récupération déclenchée par l'utilisateur, recherche classique ou jeu de données partagé

Pourquoi une liste de crawlers sourcée compte

Les règles robots.txt ne fonctionnent que si vous écrivez le User-agent exactement comme le crawler se déclare. Une faute de frappe (« GPT-Bot » au lieu de « GPTBot ») échoue silencieusement. Cette liste tire chaque nom directement des documents publics de l'éditeur pour que votre robots.txt fasse réellement ce que vous voulez.

Comment les marchands utilisent cette liste

  • Collez le bloc « Copier en robots.txt » filtré dans votre override Shopify robots.txt.liquid pour bloquer les crawlers que vous ne voulez pas
  • Pour Google-Extended et Applebot-Extended : ce sont des tokens robots.txt — ils n'apparaissent jamais dans vos logs d'accès
  • Exécutez /tools/robots-analyzer contre votre robots.txt actuel pour vérifier que les bons crawlers sont autorisés ou bloqués

Erreurs courantes à éviter

  • Bloquer Googlebot pour se retirer des AI Overviews — il n'y a pas de UA séparé pour AI Overviews ; bloquer Googlebot vous retire aussi de la recherche Google classique
  • Supposer que les fetchers déclenchés par l'utilisateur respectent robots.txt — Perplexity-User ne le fait explicitement pas
  • Copier une chaîne UA depuis un article de blog sans vérifier la source éditeur — les noms changent, les blogs deviennent obsolètes

FAQ liste des crawlers IA

Dois-je bloquer les crawlers IA de mon store Shopify ?

Généralement non — la plupart des crawlers IA sont comment les acheteurs vous trouvent dans les réponses ChatGPT, Perplexity, Claude et Gemini. Bloquez uniquement les crawlers dont la valeur pour votre store est floue (par ex. Bytespider) ou dont vous avez décidé de vous retirer de l'entraînement via leurs tokens d'opt-out (Google-Extended, Applebot-Extended).

À quelle fréquence cette liste est-elle mise à jour ?

Chaque fois qu'un éditeur publie un nouveau crawler, en déprécie un ou change son comportement robots.txt déclaré. Chaque entrée renvoie vers la source éditeur pour vérification directe.

Pourquoi certaines entrées sont-elles marquées « partiel » ou « non clair » ?

Parce que le comportement déclaré par l'éditeur et les audits tiers ne concordent pas, ou que l'éditeur n'a pas publié de position claire. Nous ne fabriquons pas un « oui » propre quand la réalité est plus complexe.