审计方法
AI 爬虫
Definition
由 AI 平台运营的专属网络爬虫,包括 GPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended 与 PerplexityBot,用于索引网页内容以供大型语言模型训练与 AI 搜索使用。
主要 AI 爬虫
| 爬虫名称 | 运营方 | 主要用途 | User-agent 字符串 |
|---|---|---|---|
| GPTBot | OpenAI | 训练 + ChatGPT Search | GPTBot |
| OAI-SearchBot | OpenAI | ChatGPT Search 检索 | OAI-SearchBot |
| ClaudeBot | Anthropic | 训练 + Claude 浏览 | ClaudeBot |
| Google-Extended | AI 概览 + Gemini | Google-Extended | |
| PerplexityBot | Perplexity | Perplexity 搜索 | PerplexityBot |
请注意,OpenAI 运行两个独立的爬虫:GPTBot 用于收集训练数据,OAI-SearchBot 专门用于 ChatGPT Search 检索。封锁 GPTBot 不会封锁 OAI-SearchBot,反之亦然。希望退出训练数据同时保留搜索可见度的品牌,应封锁 GPTBot 但允许 OAI-SearchBot。
robots.txt 配置
若要允许所有 AI 爬虫,请在您的 robots.txt 文件中添加以下内容:
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
若要封锁特定爬虫(例如,在保留搜索访问的同时退出训练数据),对训练机器人使用 Disallow: /,对搜索机器人使用 Allow: /(在它们是独立 user agent 的情况下)。许多品牌封锁 GPTBot(训练)同时明确允许 OAI-SearchBot(搜索)——这是一个有效的配置,可在退出训练数据使用的同时保留 ChatGPT Search 可见度。
Frequently Asked Questions
- 我应该封锁 AI 爬虫来保护我的内容吗?
- 封锁 AI 爬虫会阻止您的内容出现在 AI 生成的答案中。对大多数品牌而言,这是有害的——它使品牌在 AI 系统回答其类别问题时被排除在外。只有在您有法律或商业原因需要特别退出大型语言模型训练数据集时,才应封锁特定爬虫。
- 如何检查我的网站目前封锁了哪些 AI 爬虫?
- 检查您的 robots.txt 文件(yourdomain.com/robots.txt)中是否有针对 GPTBot、ClaudeBot、Google-Extended 和 PerplexityBot 的 Disallow 指令。AnswerAtlas AI 可见度审计会在第一步骤中自动检查此项目。
- AI 爬虫会遵守 robots.txt 吗?
- 主要 AI 爬虫——GPTBot、ClaudeBot、Google-Extended——声明它们遵守 robots.txt。PerplexityBot 也遵守 robots.txt 指令。较小型或较新的 AI 平台的合规性不太一致,但大多数主要平台公开承诺遵守 robots.txt 的退出设置。
想知道你的品牌在 AI 答案中是被提及,还是被竞品取代?
使用 AnswerAtlas AI 可见性审计,查看 ChatGPT、Claude、Gemini 和 Google AI 结果是否提及你的品牌、产品或竞争对手。