メインコンテンツへスキップ
🇯🇵

AI クローラー User-Agent リスト

主要な AI クローラーと user-agent の完全リファレンス — 何をするか、誰が運営しているか、robots.txt を尊重するか。

21 個のクローラーを表示
User-agentベンダー
GPTBotOpenAI
OAI-SearchBotOpenAI
ChatGPT-UserOpenAI
ClaudeBotAnthropic
Claude-SearchBotAnthropic
Claude-UserAnthropic
Google-ExtendedGoogle
GoogleOtherGoogle
GooglebotGoogle
PerplexityBotPerplexity
Perplexity-UserPerplexity
ApplebotApple
Applebot-ExtendedApple
CCBotCommon Crawl
Meta-ExternalAgentMeta
Meta-ExternalFetcherMeta
BytespiderByteDance
AmazonbotAmazon
DuckAssistBotDuckDuckGo
MistralAI-UserMistral
YouBotYou.com
robots.txt
# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list
# Remove the Disallow line for any crawler you want to allow.

# OpenAI — Crawls public web pages to improve OpenAI foundation models.
# Source: https://platform.openai.com/docs/bots
User-agent: GPTBot
Disallow: /

# OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them.
# Source: https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
Disallow: /

# OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL.
# Source: https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
Disallow: /

# Anthropic — Crawls public web pages for Anthropic foundation-model training.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: ClaudeBot
Disallow: /

# Anthropic — Indexes web pages so Claude can cite them in search-like answers.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-SearchBot
Disallow: /

# Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL.
# Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
User-agent: Claude-User
Disallow: /

# Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended
User-agent: Google-Extended
Disallow: /

# Google — Internal R&D and product-team crawls outside of Search and Ads.
# Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother
User-agent: GoogleOther
Disallow: /

# Google — Classical Google Search indexer. Powers AI Overviews via the same index.
# Source: https://developers.google.com/search/docs/crawling-indexing/googlebot
User-agent: Googlebot
Disallow: /

# Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: PerplexityBot
Disallow: /

# Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL.
# Source: https://docs.perplexity.ai/guides/bots
User-agent: Perplexity-User
Disallow: /

# Apple — Powers Siri, Spotlight, and Safari Suggestions search.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot
Disallow: /

# Apple — Opt-out token controlling whether Apple Intelligence may train on your content.
# Source: https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
Disallow: /

# Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups).
# Source: https://commoncrawl.org/ccbot
User-agent: CCBot
Disallow: /

# Meta — Crawls public web pages for Meta AI (Llama family) training and indexing.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalAgent
Disallow: /

# Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL.
# Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
User-agent: Meta-ExternalFetcher
Disallow: /

# ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models).
# Source: https://bytespider.bytedance.com/
User-agent: Bytespider
Disallow: /

# Amazon — Powers Alexa and other Amazon answer/AI experiences.
# Source: https://developer.amazon.com/amazonbot
User-agent: Amazonbot
Disallow: /

# DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers.
# Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/
User-agent: DuckAssistBot
Disallow: /

# Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL.
# Source: https://docs.mistral.ai/robots/
User-agent: MistralAI-User
Disallow: /

# You.com — Indexes web pages for You.com AI search and chat.
# Source: https://about.you.com/youbot/
User-agent: YouBot
Disallow: /

このリストが示すもの

  • ベンダードキュメントから取得した、主要 AI クローラー各々の正確な User-agent 文字列
  • 各クローラーが robots.txt を尊重するか — そして例外がどこに存在するか
  • 各クローラーの用途:AI トレーニング、AI 検索インデックス、ユーザー起動取得、従来の検索、または共有データセット

出典付きクローラーリストが重要な理由

robots.txt ルールは、クローラーが自己宣言する通り正確に User-agent を綴った場合にのみ機能します。タイポ(「GPTBot」ではなく「GPT-Bot」)は静かに失敗します。このリストは各名前をベンダーの公開ドキュメントから直接取得しているため、あなたの robots.txt は本当に意図した通りに動作します。

マーチャントがこのリストを使う方法

  • フィルター済みの「robots.txt としてコピー」ブロックを Shopify robots.txt.liquid のオーバーライドに貼り付けて、ブロックしたいクローラーをブロック
  • Google-Extended と Applebot-Extended は robots.txt トークンであることを覚えておく — アクセスログには決して現れない
  • /tools/robots-analyzer を現在の robots.txt に対して実行し、正しいクローラーが許可/ブロックされているか検証

避けるべきよくあるミス

  • AI Overviews からオプトアウトするために Googlebot をブロックする — AI Overviews 用の別の UA はなく、Googlebot をブロックすると通常の Google 検索からも除外される
  • ユーザー起動取得が robots.txt を尊重すると仮定する — Perplexity-User は明示的に尊重しない
  • ベンダー出典を確認せずにブログ記事から UA 文字列をコピーする — 名前は変わる、ブログは古くなる

AI クローラーリスト FAQ

Shopify ストアの AI クローラーをブロックすべきですか?

通常はノー — ほとんどの AI クローラーは、買い物客が ChatGPT、Perplexity、Claude、Gemini の回答であなたを見つける方法です。あなたのストアにとって価値が不明なクローラー(例: Bytespider)、またはオプトアウトトークン(Google-Extended、Applebot-Extended)でトレーニングに参加しないと決めたものだけをブロックしてください。

このリストはどのくらいの頻度で更新されますか?

ベンダーが新しいクローラーを公開、廃止、または宣言された robots.txt 動作を変更するたびに更新します。各エントリーはベンダー出典にリンクしているため、直接検証できます。

なぜ一部のエントリーが「一部」または「不明確」とマークされているのですか?

ベンダーが宣言した動作と第三者監査が一致しない、またはベンダーが明確な立場を公表していないからです。現実がより複雑な時に、私たちはきれいな「はい」を捏造しません。