llms.txt、Schema 與 AI 爬蟲:技術基礎
AI 系統在回答使用者問題時,不是從空氣中變出答案,而是依賴它能讀取的資料。如果你的網站在技術層面阻擋了 AI 爬蟲、Schema 標記缺漏,或者說明文件讓 agentic 工具看不懂,那麼再好的內容也無從被引用。這篇文章從最基礎的三個技術環節入手:爬蟲存取、Schema 優先順序,以及 llms.txt 的真實定位。
第一件事:你的 robots.txt 有沒有意外封鎖 AI 爬蟲?
最快找出問題的方法是直接打開 yourdomain.com/robots.txt,搜尋是否有 Disallow 規則套用到以下 User-Agent:GPTBot、ClaudeBot、PerplexityBot、Google-Extended。這四個是目前最主要的 AI 相關爬蟲,任何一個被封鎖,對應的 AI 服務就無法抓取你的最新內容。
許多網站的封鎖不是故意的。原因通常有兩種:一是以前為了節省爬蟲頻寬設定了過度廣泛的 Disallow /,後來從未修改;二是網站使用的防火牆或 CDN(例如某些安全服務的預設規則)會把不在白名單內的 User-Agent 全部丟回 403 或 429。前者你自己可以改,後者需要詢問建站服務商或主機技術支援,確認防火牆規則有沒有放行這些爬蟲。
這個步驟大約花 10 分鐘,但影響卻是根本性的。若爬蟲被擋,後面所有的 Schema 設定和內容優化都失去意義,因為 AI 系統根本讀不到你的網頁。
Schema 標記應該按什麼順序部署?
Schema 優先順序的核心邏輯是:先讓 AI 系統認識你賣什麼,再讓它理解你能回答什麼問題,最後才建立品牌與組織的完整樣貌。
第一優先:Product Schema。如果你是電商或有具體產品的服務業,Product Schema 讓 AI 系統能直接解析你的品項名稱、價格、評分與庫存狀態。這些是購買決策查詢中最常被引用的資料欄位。缺少 Product Schema,AI 只能靠自然語言推斷你賣什麼,準確度大幅降低。
第二優先:FAQPage Schema。問答格式是 AI Overviews 最愛引用的內容類型之一。每個問題對應一個明確答案的結構,讓 AI 爬蟲不需要解讀段落語意,直接取用資料。如果你的頁面有常見問題區塊,卻沒有標記 FAQPage Schema,那就是白白放棄了被引用的機會。
第三優先:Organization Schema。Organization Schema 幫助 AI 系統建立對你品牌的基本認識:公司名稱、官方網址、聯絡方式、社群帳號。這是品牌知識面板(Knowledge Panel)的資料來源之一,也影響 AI 回答品牌相關問題時的準確度。
第四優先:Article Schema。對於部落格文章或指南類內容,Article Schema 標記發布日期、作者與標題,幫助 AI 判斷內容的時效性與來源可信度。時效性在 AI 搜尋中愈來愈重要,尤其是 Perplexity 等即時搜尋型 AI。
Shopify 商家特別需要注意:許多主題內建的 JSON-LD 輸出格式不完整,甚至有語法錯誤。建議用 Google Rich Results Test 逐頁貼入網址檢測,不要假設全站 Schema 都正確。
Want this checked for your brand automatically? Run a free AI visibility snapshot.
Run free snapshotllms.txt 到底是什麼?它真正的用途是哪裡?
llms.txt 是一個放在網站根目錄的純文字或 Markdown 檔案,用來向 AI 系統提供網站內容的結構化摘要,格式比 sitemap.xml 更易讀,比 HTML 更精簡。你可以把它想成一份「給 AI 讀的目錄」,列出你的主要頁面、服務說明或 API 文件的摘要與連結。
但在實際效益上,有一個關鍵誤解需要澄清:llms.txt 不會讓你在 ChatGPT 或 Gemini 的回答中排名更高。Google 在 2026 年 5 月 15 日發布的官方 AI 最佳化指南中明確說明,AI Overviews 和 AI Mode 不需要 llms.txt,也不會優先讀取它。影響這兩個 AI 產品的核心因素仍然是 Schema 標記、高品質內容,以及被可信第三方網站引用的頻率。
llms.txt 真正發揮作用的地方是 agentic web:Cursor、Claude Code、GitHub Copilot 等開發工具,以及會主動抓取文件來協助使用者的 AI agent。當開發者在 Cursor 裡詢問「這個 API 怎麼用」,Cursor 會去讀你的 llms.txt 和 /docs 路徑;當 Claude Code 幫使用者整合你的服務,它會查詢 llms.txt 理解你的功能範圍。如果你的目標受眾是開發者或技術使用者,llms.txt 的投資報酬率相當高。
建立 llms.txt 的成本極低,大約兩小時可以完成一個基本版本。值得做,但要對它的作用有正確預期:它是 agentic 工具的導覽地圖,不是 AI 搜尋排名的快捷鍵。
如何確認 AI 爬蟲實際上能讀到你的內容?
確認爬蟲存取不能只看 robots.txt,還要驗證實際的 HTTP 回應。最直接的方式是使用指令列工具模擬爬蟲的 User-Agent:
curl -A "GPTBot" -I https://yourdomain.com/your-page
如果回傳 200,代表伺服器允許存取;如果回傳 403 或 429,代表防火牆擋掉了這個 User-Agent。同樣的指令也可以換成 ClaudeBot、PerplexityBot 分別測試。
對於沒有指令列存取權限的使用者,可以請技術人員或建站服務商幫你跑這個測試,或是透過第三方爬蟲測試工具輸入你的網址和目標 User-Agent,查看回傳的 HTTP 狀態碼。
除了狀態碼,也要確認回傳的 HTML 包含實際內容,而不是空殼頁面。部分使用 JavaScript 渲染的網站(例如 React 或 Vue SPA),在爬蟲沒有執行 JavaScript 的情況下只會看到空白的 <div>。這類網站需要設定伺服器端渲染(SSR)或靜態生成(SSG),才能讓爬蟲讀到完整內容。
完成這三個技術環節之後,還需要做什麼?
技術層面是可見度的地基,但不是全部。AI 系統在引用來源時,除了能不能讀,還看值不值得讀——也就是內容本身的品質與可信度。
確認爬蟲能存取之後,下一步是系統性地為你的主要頁面建立問答格式的內容區塊,並配合 FAQPage Schema 標記,讓 AI 系統有結構化的資料可以引用。接著是建立 Organization Schema 和 Article Schema,強化品牌識別與內容時效性的訊號。最後,如果你有技術文件或 API 說明,建立 llms.txt 讓 agentic 工具能快速導覽。
這個順序的邏輯是:先確保 AI 能讀到你,再確保 AI 讀懂你,最後才是讓特定工具更容易使用你的資料。跳過前兩步直接做 llms.txt,就像裝了門牌卻鎖上了門。
AI 技術可見度自查清單
以下是完成本文三個環節的具體步驟,可以直接照順序執行:
robots.txt 檢查(約 10 分鐘)
- 打開
yourdomain.com/robots.txt,搜尋GPTBot、ClaudeBot、PerplexityBot、Google-Extended是否出現在Disallow規則中 - 若有,評估是否有業務理由封鎖(例如付費牆內容),無特殊理由則移除或改為允許
- 詢問建站服務商或主機技術支援,確認 WAF 或 CDN 安全規則有放行上述 User-Agent
- 用
curl -A "GPTBot" -I yourdomain.com驗證實際回傳的 HTTP 狀態碼
Schema 標記部署(依優先順序)
- 確認商品頁有 Product Schema,且包含
name、price、aggregateRating欄位 - 在有問答內容的頁面加入 FAQPage Schema
- 在首頁或關於頁加入 Organization Schema,填入
url、contactPoint、sameAs(社群帳號) - 文章和指南頁加入 Article Schema,確認
datePublished和author欄位正確 - 使用 Google Rich Results Test 逐頁驗證,確認無語法錯誤
llms.txt 建立(可選,建議技術型網站優先)
- 在網站根目錄建立
/llms.txt - 列出網站主要章節的標題、一句話描述與連結
- 若有 API 或技術文件,在 llms.txt 中特別標注
/docs路徑 - 確認 robots.txt 沒有封鎖對
/llms.txt的存取
完成這份清單,你的網站就已經建立了 AI 可見度的技術基礎。之後的工作重心可以轉移到內容品質與第三方引用——那是另一個層次的策略,但技術基礎不打好,再好的內容也會被埋沒。