llms.txt、Schema 与 AI 爬虫:技术基础

AI 可见度的技术检查清单:robots.txt 配置、Schema 优先级、llms.txt 的真实作用,以及哪些技术工作真正有价值。

TL;DR

先检查 robots.txt 是否屏蔽了 AI 爬虫,然后按优先级部署 Schema 标记(Product → FAQPage → Organization → Article),最后考虑添加 llms.txt。注意:根据 Google 2026 年 5 月的官方指南,llms.txt 对 AI Overviews 没有直接影响,它真正发挥作用的场景是 Cursor、Claude Code 等 agentic 工具。

在做完内容优化和信源建设之后,技术层面的检查是确保努力不被白费的最后一道关卡。一个写得很好的产品页面,如果被 robots.txt 意外屏蔽了 AI 爬虫,对 AI 可见度的贡献等于零。技术工作不是最重要的,但做错了会让其他所有努力失效。

第一件事:检查是否意外屏蔽了 AI 爬虫

这是 10 分钟能完成的基础检查,优先级高于其他所有技术工作。

打开你网站的 robots.txt 文件,通常在 yourdomain.com/robots.txt,检查是否有以下这些行:

Disallow: / (针对 GPTBot、ClaudeBot、PerplexityBot 或 Google-Extended)

这四个爬虫分别对应 OpenAI、Anthropic、Perplexity 和谷歌的 AI 产品。屏蔽任何一个都意味着对应的 AI 系统无法读取你的网站内容。如果发现有屏蔽,评估是否有意为之——有些品牌出于内容版权考虑主动屏蔽,这是合理的选择;但很多品牌的屏蔽是早年复制粘贴模板时无意中留下的。

robots.txt 只是第一关。还需要询问你的开发人员或运维团队:服务器防火墙和 CDN 的安全规则是否有可能拦截 AI 爬虫的 IP 段?Cloudflare 等 CDN 的某些安全模式可能会把 AI 爬虫识别为可疑流量并阻止访问,这种情况在 robots.txt 里不会有任何显示,但效果和屏蔽一样。

第二件事:按优先级部署 Schema 标记

Schema 标记(结构化数据)是用机器可读的格式,向搜索引擎和 AI 明确标注页面内容的类型和关键信息。部署 Schema 对谷歌 AI Overviews 的引用率有直接影响,而 AI Overviews 的内容会进入其他 AI 模型的训练数据。

按以下优先级部署:

Product schema(最高优先级):适用于所有产品页面。标注产品名称、描述、价格区间、评分、评价数量、品牌信息。关键字段不能留空——空字段不如不标注,会导致 Schema 验证失败。

FAQPage schema(高优先级):适用于 FAQ 页面和包含问答内容的产品页面。这个 Schema 类型在谷歌富媒体搜索结果里有直接展示机会,同时 AI 在处理问答类查询时对有 FAQPage 标记的内容权重更高。

Organization schema(中优先级):适用于关于页和首页。标注公司名称、官网地址、联系信息、社交媒体账号。对于跨境品牌尤其重要,能帮助 AI 建立品牌的完整实体信息。

Article schema(标准优先级):适用于所有博客文章和内容页面。标注作者信息、发布日期、更新日期。AI 在判断内容时效性时会参考这些信息。

使用 Shopify 平台的用户,Shopify 会自动为产品页生成基础 Product schema,但完整性通常不足。建议用 Google 富媒体搜索结果测试工具(Rich Results Test)检查现有 Schema 的状态,找出缺失字段并补充。

Want this checked for your brand automatically? Run a free AI visibility snapshot.

Run free snapshot

第三件事:正确理解 llms.txt 的真实作用

llms.txt 在 2025 年引发了大量讨论,市场上流传着各种夸大其作用的说法。在投入时间之前,需要建立正确的预期。

官方立场是什么:Google 在 2026 年 5 月 15 日发布的官方指南明确表示,AI Overviews 和 AI Mode 不需要 llms.txt,Google 的 AI 产品不依赖 llms.txt 来决定引用哪些内容。这是最权威的官方表态,应该成为你判断 llms.txt 优先级的基准。

llms.txt 真正发挥作用的场景:llms.txt 设计的初衷,是让 agentic 工具(比如 Cursor、Claude Code、GitHub Copilot 等)在访问网站时能快速理解网站内容的结构和范围。如果你的目标用户包括开发者,或者你的产品有 API 文档,llms.txt 在这个场景下有实际价值。如果你的产品主要面向普通消费者,这个价值就比较有限。

应该怎么做:llms.txt 的制作成本极低——在网站根目录创建一个纯文本文件,用简洁的语言描述网站是什么、主要内容有哪些、关键页面的链接。这件事值得做,但优先级应该排在 robots.txt 检查、Schema 部署和内容改写之后。不要因为 llms.txt 而推迟更有价值的工作。

技术自查清单

完成以上工作后,用这份清单做最终确认:

robots.txt

  • GPTBot 未被屏蔽
  • ClaudeBot 未被屏蔽
  • PerplexityBot 未被屏蔽
  • Google-Extended 未被屏蔽
  • 已向开发团队确认防火墙和 CDN 规则

Schema 标记

  • 所有产品页有完整的 Product schema
  • FAQ 页面有 FAQPage schema
  • 关于页有 Organization schema
  • 内容页面有 Article schema
  • 已用 Google Rich Results Test 验证无错误

页面内容可读性

  • 关键产品信息以 HTML 文字呈现,不只在图片里
  • 规格参数有文字版本,不依赖图表
  • 页面在禁用 JavaScript 时仍有完整内容可读

llms.txt

  • 根目录存在 llms.txt(可选但推荐)
  • 内容准确描述了网站主要内容和关键页面

技术检查不是最性感的工作,但它是内容和信源建设的基础设施。把这份清单跑完,可以确保你在其他地方做的努力能够被 AI 系统正常读取和使用。

常见问题

如果 robots.txt 没有屏蔽 AI 爬虫,是不是就不用管了?

不是。没有屏蔽是必要条件,但不是充分条件。还需要确认服务器防火墙、CDN 安全规则是否意外拦截了 AI 爬虫的 IP 段,以及页面内容是否以 AI 可读的 HTML 文字呈现。

Schema 标记会直接提升 ChatGPT 的推荐排名吗?

没有直接证据表明 Schema 能提升 ChatGPT 的推荐排名,但 Schema 能提升谷歌 AI Overviews 的引用率,而 AI Overviews 的内容反过来会影响其他 AI 模型的训练数据。Schema 是值得做的间接投入。

llms.txt 文件写什么内容?

llms.txt 是一个放在网站根目录的纯文本文件,用简洁的语言描述网站内容、主要产品、目标用户,以及对 AI 使用该内容的权限说明。格式没有强制标准,简洁清晰比追求格式正确更重要。

Shopify 用户怎么添加 Schema 标记?

Shopify 产品页会自动生成基础的 Product schema,但通常不够完整。推荐使用 Google 富媒体搜索结果测试工具(Rich Results Test)检查现有 Schema,然后通过主题的 liquid 模板文件补充缺失字段,或者使用专门的 Schema 应用。

免费运行快照

AI 可见度的技术检查清单:robots.txt 配置、Schema 优先级、llms.txt 的真实作用,以及哪些技术工作真正有价值。

AnswerAtlas 是独立的 AI 可见度分析平台,与本页面所提及的 OpenAI、Google、Anthropic 或任何 AI 平台均无关联或背书关系。所有商标均属各自所有人。