llms.txt、Schema 與 AI 爬蟲:技術基礎

了解 robots.txt 設定、Schema 標記優先順序與 llms.txt 的實際作用,幫助你的網站被 AI 系統正確讀取與引用。

TL;DR

先檢查 robots.txt 是否封鎖 AI 爬蟲,再按順序部署 Schema 標記,最後視情況建立 llms.txt——這三步是讓 AI 系統讀懂你網站的技術基礎。

llms.txt、Schema 與 AI 爬蟲:技術基礎

AI 系統在回答使用者問題時,不是從空氣中變出答案,而是依賴它能讀取的資料。如果你的網站在技術層面阻擋了 AI 爬蟲、Schema 標記缺漏,或者說明文件讓 agentic 工具看不懂,那麼再好的內容也無從被引用。這篇文章從最基礎的三個技術環節入手:爬蟲存取、Schema 優先順序,以及 llms.txt 的真實定位。

第一件事:你的 robots.txt 有沒有意外封鎖 AI 爬蟲?

最快找出問題的方法是直接打開 yourdomain.com/robots.txt,搜尋是否有 Disallow 規則套用到以下 User-Agent:GPTBotClaudeBotPerplexityBotGoogle-Extended。這四個是目前最主要的 AI 相關爬蟲,任何一個被封鎖,對應的 AI 服務就無法抓取你的最新內容。

許多網站的封鎖不是故意的。原因通常有兩種:一是以前為了節省爬蟲頻寬設定了過度廣泛的 Disallow /,後來從未修改;二是網站使用的防火牆或 CDN(例如某些安全服務的預設規則)會把不在白名單內的 User-Agent 全部丟回 403 或 429。前者你自己可以改,後者需要詢問建站服務商或主機技術支援,確認防火牆規則有沒有放行這些爬蟲。

這個步驟大約花 10 分鐘,但影響卻是根本性的。若爬蟲被擋,後面所有的 Schema 設定和內容優化都失去意義,因為 AI 系統根本讀不到你的網頁。

Schema 標記應該按什麼順序部署?

Schema 優先順序的核心邏輯是:先讓 AI 系統認識你賣什麼,再讓它理解你能回答什麼問題,最後才建立品牌與組織的完整樣貌。

第一優先:Product Schema。如果你是電商或有具體產品的服務業,Product Schema 讓 AI 系統能直接解析你的品項名稱、價格、評分與庫存狀態。這些是購買決策查詢中最常被引用的資料欄位。缺少 Product Schema,AI 只能靠自然語言推斷你賣什麼,準確度大幅降低。

第二優先:FAQPage Schema。問答格式是 AI Overviews 最愛引用的內容類型之一。每個問題對應一個明確答案的結構,讓 AI 爬蟲不需要解讀段落語意,直接取用資料。如果你的頁面有常見問題區塊,卻沒有標記 FAQPage Schema,那就是白白放棄了被引用的機會。

第三優先:Organization Schema。Organization Schema 幫助 AI 系統建立對你品牌的基本認識:公司名稱、官方網址、聯絡方式、社群帳號。這是品牌知識面板(Knowledge Panel)的資料來源之一,也影響 AI 回答品牌相關問題時的準確度。

第四優先:Article Schema。對於部落格文章或指南類內容,Article Schema 標記發布日期、作者與標題,幫助 AI 判斷內容的時效性與來源可信度。時效性在 AI 搜尋中愈來愈重要,尤其是 Perplexity 等即時搜尋型 AI。

Shopify 商家特別需要注意:許多主題內建的 JSON-LD 輸出格式不完整,甚至有語法錯誤。建議用 Google Rich Results Test 逐頁貼入網址檢測,不要假設全站 Schema 都正確。

Want this checked for your brand automatically? Run a free AI visibility snapshot.

Run free snapshot

llms.txt 到底是什麼?它真正的用途是哪裡?

llms.txt 是一個放在網站根目錄的純文字或 Markdown 檔案,用來向 AI 系統提供網站內容的結構化摘要,格式比 sitemap.xml 更易讀,比 HTML 更精簡。你可以把它想成一份「給 AI 讀的目錄」,列出你的主要頁面、服務說明或 API 文件的摘要與連結。

但在實際效益上,有一個關鍵誤解需要澄清:llms.txt 不會讓你在 ChatGPT 或 Gemini 的回答中排名更高。Google 在 2026 年 5 月 15 日發布的官方 AI 最佳化指南中明確說明,AI Overviews 和 AI Mode 不需要 llms.txt,也不會優先讀取它。影響這兩個 AI 產品的核心因素仍然是 Schema 標記、高品質內容,以及被可信第三方網站引用的頻率。

llms.txt 真正發揮作用的地方是 agentic web:Cursor、Claude Code、GitHub Copilot 等開發工具,以及會主動抓取文件來協助使用者的 AI agent。當開發者在 Cursor 裡詢問「這個 API 怎麼用」,Cursor 會去讀你的 llms.txt 和 /docs 路徑;當 Claude Code 幫使用者整合你的服務,它會查詢 llms.txt 理解你的功能範圍。如果你的目標受眾是開發者或技術使用者,llms.txt 的投資報酬率相當高。

建立 llms.txt 的成本極低,大約兩小時可以完成一個基本版本。值得做,但要對它的作用有正確預期:它是 agentic 工具的導覽地圖,不是 AI 搜尋排名的快捷鍵。

如何確認 AI 爬蟲實際上能讀到你的內容?

確認爬蟲存取不能只看 robots.txt,還要驗證實際的 HTTP 回應。最直接的方式是使用指令列工具模擬爬蟲的 User-Agent:

curl -A "GPTBot" -I https://yourdomain.com/your-page

如果回傳 200,代表伺服器允許存取;如果回傳 403 或 429,代表防火牆擋掉了這個 User-Agent。同樣的指令也可以換成 ClaudeBotPerplexityBot 分別測試。

對於沒有指令列存取權限的使用者,可以請技術人員或建站服務商幫你跑這個測試,或是透過第三方爬蟲測試工具輸入你的網址和目標 User-Agent,查看回傳的 HTTP 狀態碼。

除了狀態碼,也要確認回傳的 HTML 包含實際內容,而不是空殼頁面。部分使用 JavaScript 渲染的網站(例如 React 或 Vue SPA),在爬蟲沒有執行 JavaScript 的情況下只會看到空白的 <div>。這類網站需要設定伺服器端渲染(SSR)或靜態生成(SSG),才能讓爬蟲讀到完整內容。

完成這三個技術環節之後,還需要做什麼?

技術層面是可見度的地基,但不是全部。AI 系統在引用來源時,除了能不能讀,還看值不值得讀——也就是內容本身的品質與可信度。

確認爬蟲能存取之後,下一步是系統性地為你的主要頁面建立問答格式的內容區塊,並配合 FAQPage Schema 標記,讓 AI 系統有結構化的資料可以引用。接著是建立 Organization Schema 和 Article Schema,強化品牌識別與內容時效性的訊號。最後,如果你有技術文件或 API 說明,建立 llms.txt 讓 agentic 工具能快速導覽。

這個順序的邏輯是:先確保 AI 能讀到你,再確保 AI 讀懂你,最後才是讓特定工具更容易使用你的資料。跳過前兩步直接做 llms.txt,就像裝了門牌卻鎖上了門。

AI 技術可見度自查清單

以下是完成本文三個環節的具體步驟,可以直接照順序執行:

robots.txt 檢查(約 10 分鐘)

  1. 打開 yourdomain.com/robots.txt,搜尋 GPTBotClaudeBotPerplexityBotGoogle-Extended 是否出現在 Disallow 規則中
  2. 若有,評估是否有業務理由封鎖(例如付費牆內容),無特殊理由則移除或改為允許
  3. 詢問建站服務商或主機技術支援,確認 WAF 或 CDN 安全規則有放行上述 User-Agent
  4. curl -A "GPTBot" -I yourdomain.com 驗證實際回傳的 HTTP 狀態碼

Schema 標記部署(依優先順序)

  1. 確認商品頁有 Product Schema,且包含 namepriceaggregateRating 欄位
  2. 在有問答內容的頁面加入 FAQPage Schema
  3. 在首頁或關於頁加入 Organization Schema,填入 urlcontactPointsameAs(社群帳號)
  4. 文章和指南頁加入 Article Schema,確認 datePublishedauthor 欄位正確
  5. 使用 Google Rich Results Test 逐頁驗證,確認無語法錯誤

llms.txt 建立(可選,建議技術型網站優先)

  1. 在網站根目錄建立 /llms.txt
  2. 列出網站主要章節的標題、一句話描述與連結
  3. 若有 API 或技術文件,在 llms.txt 中特別標注 /docs 路徑
  4. 確認 robots.txt 沒有封鎖對 /llms.txt 的存取

完成這份清單,你的網站就已經建立了 AI 可見度的技術基礎。之後的工作重心可以轉移到內容品質與第三方引用——那是另一個層次的策略,但技術基礎不打好,再好的內容也會被埋沒。

常見問題

GPTBot 和 ClaudeBot 是什麼?我需要特別允許它們嗎?

GPTBot 和 ClaudeBot 分別是 AI 服務商用來抓取網頁內容、訓練或更新模型的爬蟲。預設情況下只要 robots.txt 沒有明確 Disallow,它們就可以爬取。問題在於許多網站的防火牆或 CDN 安全規則會把陌生的 User-Agent 一律擋掉,必須主動確認。

llms.txt 能直接提升我在 ChatGPT 或 Gemini 的排名嗎?

不能。Google 2026 年 5 月的官方 AI 最佳化指南明確指出,AI Overviews 和 AI Mode 都不依賴 llms.txt。llms.txt 真正發揮作用的場景是 agentic 工具,例如 Cursor、Claude Code、Copilot 等開發者工具在查詢文件時會讀取它。

FAQPage Schema 和 llms.txt 哪個對 AI 可見度更重要?

FAQPage Schema 更重要。結構化資料讓 AI 爬蟲能直接解析問答內容,不需要推斷語意,這對 AI Overviews 有直接影響。llms.txt 的受眾主要是 agentic 軟體,而非消費級 AI 搜尋。

Shopify 商家應該怎麼檢查 Schema 是否正確?

使用 Google Rich Results Test(search.google.com/test/rich-results)逐頁貼入網址,確認 Product、FAQPage 等 Schema 是否有被偵測到且沒有錯誤。許多 Shopify 主題會輸出格式不完整的 JSON-LD,逐頁檢測比全站假設更可靠。

免費執行快照

了解 robots.txt 設定、Schema 標記優先順序與 llms.txt 的實際作用,幫助你的網站被 AI 系統正確讀取與引用。

AnswerAtlas 是獨立的 AI 可見度分析平台,與本頁面所提及的 OpenAI、Google、Anthropic 或任何 AI 平台均無關聯或背書關係。所有商標均屬各自所有人。