このリストが示すもの
- ベンダードキュメントから取得した、主要 AI クローラー各々の正確な User-agent 文字列
- 各クローラーが robots.txt を尊重するか — そして例外がどこに存在するか
- 各クローラーの用途:AI トレーニング、AI 検索インデックス、ユーザー起動取得、従来の検索、または共有データセット
主要な AI クローラーと user-agent の完全リファレンス — 何をするか、誰が運営しているか、robots.txt を尊重するか。
| User-agent | ベンダー | カテゴリ | robots.txt を尊重 | |
|---|---|---|---|---|
| GPTBot | OpenAI | AI トレーニング | はい | |
| OAI-SearchBot | OpenAI | AI 検索インデックス | はい | |
| ChatGPT-User | OpenAI | ユーザー起動取得 | はい | |
| ClaudeBot | Anthropic | AI トレーニング | はい | |
| Claude-SearchBot | Anthropic | AI 検索インデックス | はい | |
| Claude-User | Anthropic | ユーザー起動取得 | はい | |
| Google-Extended | AI トレーニング | はい | ||
| GoogleOther | AI トレーニング | はい | ||
| Googlebot | 検索エンジン | はい | ||
| PerplexityBot | Perplexity | AI 検索インデックス | はい | |
| Perplexity-User | Perplexity | ユーザー起動取得 | いいえ | |
| Applebot | Apple | 検索エンジン | はい | |
| Applebot-Extended | Apple | AI トレーニング | はい | |
| CCBot | Common Crawl | 共有データセット | はい | |
| Meta-ExternalAgent | Meta | AI トレーニング | はい | |
| Meta-ExternalFetcher | Meta | ユーザー起動取得 | はい | |
| Bytespider | ByteDance | AI トレーニング | 一部 | |
| Amazonbot | Amazon | AI 検索インデックス | はい | |
| DuckAssistBot | DuckDuckGo | AI 検索インデックス | はい | |
| MistralAI-User | Mistral | ユーザー起動取得 | はい | |
| YouBot | You.com | AI 検索インデックス | はい |
# AI crawler block list — generated from clickfrom.ai/tools/ai-crawler-user-agent-list # Remove the Disallow line for any crawler you want to allow. # OpenAI — Crawls public web pages to improve OpenAI foundation models. # Source: https://platform.openai.com/docs/bots User-agent: GPTBot Disallow: / # OpenAI — Indexes web pages so ChatGPT search and SearchGPT can cite them. # Source: https://platform.openai.com/docs/bots User-agent: OAI-SearchBot Disallow: / # OpenAI — Fetches a page on the spot when a ChatGPT user asks the assistant about a specific URL. # Source: https://platform.openai.com/docs/bots User-agent: ChatGPT-User Disallow: / # Anthropic — Crawls public web pages for Anthropic foundation-model training. # Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler User-agent: ClaudeBot Disallow: / # Anthropic — Indexes web pages so Claude can cite them in search-like answers. # Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler User-agent: Claude-SearchBot Disallow: / # Anthropic — Fetches a page on the spot when a Claude user asks the assistant about a specific URL. # Source: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler User-agent: Claude-User Disallow: / # Google — Opt-out token (not a real user-agent) controlling whether Gemini and Vertex AI may train on your content. # Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-extended User-agent: Google-Extended Disallow: / # Google — Internal R&D and product-team crawls outside of Search and Ads. # Source: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#googleother User-agent: GoogleOther Disallow: / # Google — Classical Google Search indexer. Powers AI Overviews via the same index. # Source: https://developers.google.com/search/docs/crawling-indexing/googlebot User-agent: Googlebot Disallow: / # Perplexity — Indexes web pages so Perplexity can surface them as cited sources in answers. # Source: https://docs.perplexity.ai/guides/bots User-agent: PerplexityBot Disallow: / # Perplexity — Fetches a page on the spot when a Perplexity user asks the assistant about a specific URL. # Source: https://docs.perplexity.ai/guides/bots User-agent: Perplexity-User Disallow: / # Apple — Powers Siri, Spotlight, and Safari Suggestions search. # Source: https://support.apple.com/en-us/119829 User-agent: Applebot Disallow: / # Apple — Opt-out token controlling whether Apple Intelligence may train on your content. # Source: https://support.apple.com/en-us/119829 User-agent: Applebot-Extended Disallow: / # Common Crawl — Bulk crawl of the public web. Downstream datasets feed many AI model training pipelines (including some at OpenAI, Anthropic, and academic groups). # Source: https://commoncrawl.org/ccbot User-agent: CCBot Disallow: / # Meta — Crawls public web pages for Meta AI (Llama family) training and indexing. # Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/ User-agent: Meta-ExternalAgent Disallow: / # Meta — Fetches a page on the spot when a Meta AI user asks the assistant about a specific URL. # Source: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/ User-agent: Meta-ExternalFetcher Disallow: / # ByteDance — Crawls public web pages for ByteDance's foundation-model training (Doubao and related models). # Source: https://bytespider.bytedance.com/ User-agent: Bytespider Disallow: / # Amazon — Powers Alexa and other Amazon answer/AI experiences. # Source: https://developer.amazon.com/amazonbot User-agent: Amazonbot Disallow: / # DuckDuckGo — Indexes web pages so DuckAssist can summarize them in DuckDuckGo answers. # Source: https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/ User-agent: DuckAssistBot Disallow: / # Mistral — Fetches a page on the spot when a Mistral Le Chat user asks the assistant about a specific URL. # Source: https://docs.mistral.ai/robots/ User-agent: MistralAI-User Disallow: / # You.com — Indexes web pages for You.com AI search and chat. # Source: https://about.you.com/youbot/ User-agent: YouBot Disallow: /
robots.txt ルールは、クローラーが自己宣言する通り正確に User-agent を綴った場合にのみ機能します。タイポ(「GPTBot」ではなく「GPT-Bot」)は静かに失敗します。このリストは各名前をベンダーの公開ドキュメントから直接取得しているため、あなたの robots.txt は本当に意図した通りに動作します。
通常はノー — ほとんどの AI クローラーは、買い物客が ChatGPT、Perplexity、Claude、Gemini の回答であなたを見つける方法です。あなたのストアにとって価値が不明なクローラー(例: Bytespider)、またはオプトアウトトークン(Google-Extended、Applebot-Extended)でトレーニングに参加しないと決めたものだけをブロックしてください。
ベンダーが新しいクローラーを公開、廃止、または宣言された robots.txt 動作を変更するたびに更新します。各エントリーはベンダー出典にリンクしているため、直接検証できます。
ベンダーが宣言した動作と第三者監査が一致しない、またはベンダーが明確な立場を公表していないからです。現実がより複雑な時に、私たちはきれいな「はい」を捏造しません。