審核方法
AI 爬蟲
Definition
由 AI 平台營運的專屬網路爬蟲,包括 GPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended 與 PerplexityBot,用於索引網頁內容以供大型語言模型訓練與 AI 搜尋使用。
主要 AI 爬蟲
| 爬蟲名稱 | 營運方 | 主要用途 | User-agent 字串 |
|---|---|---|---|
| GPTBot | OpenAI | 訓練 + ChatGPT Search | GPTBot |
| OAI-SearchBot | OpenAI | ChatGPT Search 擷取 | OAI-SearchBot |
| ClaudeBot | Anthropic | 訓練 + Claude 瀏覽 | ClaudeBot |
| Google-Extended | AI 概覽 + Gemini | Google-Extended | |
| PerplexityBot | Perplexity | Perplexity 搜尋 | PerplexityBot |
請注意,OpenAI 運行兩個獨立的爬蟲:GPTBot 用於收集訓練資料,OAI-SearchBot 專門用於 ChatGPT Search 擷取。封鎖 GPTBot 不會封鎖 OAI-SearchBot,反之亦然。希望退出訓練資料同時保留搜尋可見度的品牌,應封鎖 GPTBot 但允許 OAI-SearchBot。
robots.txt 設定
若要允許所有 AI 爬蟲,請在您的 robots.txt 檔案中新增以下內容:
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
若要封鎖特定爬蟲(例如,在保留搜尋存取的同時退出訓練資料),對訓練機器人使用 Disallow: /,對搜尋機器人使用 Allow: /(在它們是獨立 user agent 的情況下)。許多品牌封鎖 GPTBot(訓練)同時明確允許 OAI-SearchBot(搜尋)——這是一個有效的設定,可在退出訓練資料使用的同時保留 ChatGPT Search 可見度。
Frequently Asked Questions
- 我應該封鎖 AI 爬蟲來保護我的內容嗎?
- 封鎖 AI 爬蟲會阻止您的內容出現在 AI 生成的答案中。對大多數品牌而言,這是有害的——它使品牌在 AI 系統回答其類別問題時被排除在外。只有在您有法律或商業原因需要特別退出大型語言模型訓練資料集時,才應封鎖特定爬蟲。
- 如何檢查我的網站目前封鎖了哪些 AI 爬蟲?
- 檢查您的 robots.txt 檔案(yourdomain.com/robots.txt)中是否有針對 GPTBot、ClaudeBot、Google-Extended 和 PerplexityBot 的 Disallow 指令。AnswerAtlas AI 能見度稽核會在第一步驟中自動檢查此項目。
- AI 爬蟲會遵守 robots.txt 嗎?
- 主要 AI 爬蟲——GPTBot、ClaudeBot、Google-Extended——聲明它們遵守 robots.txt。PerplexityBot 也遵守 robots.txt 指令。較小型或較新的 AI 平台的合規性不太一致,但大多數主要平台公開承諾遵守 robots.txt 的退出設定。
想了解你的品牌在 AI 回答中的表現?
使用 AnswerAtlas AI 可見度稽核,了解 ChatGPT、Claude、Gemini 和 Google AI 是否提及你的品牌或競爭對手。