在做完内容优化和信源建设之后,技术层面的检查是确保努力不被白费的最后一道关卡。一个写得很好的产品页面,如果被 robots.txt 意外屏蔽了 AI 爬虫,对 AI 可见度的贡献等于零。技术工作不是最重要的,但做错了会让其他所有努力失效。
第一件事:检查是否意外屏蔽了 AI 爬虫
这是 10 分钟能完成的基础检查,优先级高于其他所有技术工作。
打开你网站的 robots.txt 文件,通常在 yourdomain.com/robots.txt,检查是否有以下这些行:
Disallow: / (针对 GPTBot、ClaudeBot、PerplexityBot 或 Google-Extended)
这四个爬虫分别对应 OpenAI、Anthropic、Perplexity 和谷歌的 AI 产品。屏蔽任何一个都意味着对应的 AI 系统无法读取你的网站内容。如果发现有屏蔽,评估是否有意为之——有些品牌出于内容版权考虑主动屏蔽,这是合理的选择;但很多品牌的屏蔽是早年复制粘贴模板时无意中留下的。
robots.txt 只是第一关。还需要询问你的开发人员或运维团队:服务器防火墙和 CDN 的安全规则是否有可能拦截 AI 爬虫的 IP 段?Cloudflare 等 CDN 的某些安全模式可能会把 AI 爬虫识别为可疑流量并阻止访问,这种情况在 robots.txt 里不会有任何显示,但效果和屏蔽一样。
第二件事:按优先级部署 Schema 标记
Schema 标记(结构化数据)是用机器可读的格式,向搜索引擎和 AI 明确标注页面内容的类型和关键信息。部署 Schema 对谷歌 AI Overviews 的引用率有直接影响,而 AI Overviews 的内容会进入其他 AI 模型的训练数据。
按以下优先级部署:
Product schema(最高优先级):适用于所有产品页面。标注产品名称、描述、价格区间、评分、评价数量、品牌信息。关键字段不能留空——空字段不如不标注,会导致 Schema 验证失败。
FAQPage schema(高优先级):适用于 FAQ 页面和包含问答内容的产品页面。这个 Schema 类型在谷歌富媒体搜索结果里有直接展示机会,同时 AI 在处理问答类查询时对有 FAQPage 标记的内容权重更高。
Organization schema(中优先级):适用于关于页和首页。标注公司名称、官网地址、联系信息、社交媒体账号。对于跨境品牌尤其重要,能帮助 AI 建立品牌的完整实体信息。
Article schema(标准优先级):适用于所有博客文章和内容页面。标注作者信息、发布日期、更新日期。AI 在判断内容时效性时会参考这些信息。
使用 Shopify 平台的用户,Shopify 会自动为产品页生成基础 Product schema,但完整性通常不足。建议用 Google 富媒体搜索结果测试工具(Rich Results Test)检查现有 Schema 的状态,找出缺失字段并补充。
Want this checked for your brand automatically? Run a free AI visibility snapshot.
Run free snapshot第三件事:正确理解 llms.txt 的真实作用
llms.txt 在 2025 年引发了大量讨论,市场上流传着各种夸大其作用的说法。在投入时间之前,需要建立正确的预期。
官方立场是什么:Google 在 2026 年 5 月 15 日发布的官方指南明确表示,AI Overviews 和 AI Mode 不需要 llms.txt,Google 的 AI 产品不依赖 llms.txt 来决定引用哪些内容。这是最权威的官方表态,应该成为你判断 llms.txt 优先级的基准。
llms.txt 真正发挥作用的场景:llms.txt 设计的初衷,是让 agentic 工具(比如 Cursor、Claude Code、GitHub Copilot 等)在访问网站时能快速理解网站内容的结构和范围。如果你的目标用户包括开发者,或者你的产品有 API 文档,llms.txt 在这个场景下有实际价值。如果你的产品主要面向普通消费者,这个价值就比较有限。
应该怎么做:llms.txt 的制作成本极低——在网站根目录创建一个纯文本文件,用简洁的语言描述网站是什么、主要内容有哪些、关键页面的链接。这件事值得做,但优先级应该排在 robots.txt 检查、Schema 部署和内容改写之后。不要因为 llms.txt 而推迟更有价值的工作。
技术自查清单
完成以上工作后,用这份清单做最终确认:
robots.txt
- GPTBot 未被屏蔽
- ClaudeBot 未被屏蔽
- PerplexityBot 未被屏蔽
- Google-Extended 未被屏蔽
- 已向开发团队确认防火墙和 CDN 规则
Schema 标记
- 所有产品页有完整的 Product schema
- FAQ 页面有 FAQPage schema
- 关于页有 Organization schema
- 内容页面有 Article schema
- 已用 Google Rich Results Test 验证无错误
页面内容可读性
- 关键产品信息以 HTML 文字呈现,不只在图片里
- 规格参数有文字版本,不依赖图表
- 页面在禁用 JavaScript 时仍有完整内容可读
llms.txt
- 根目录存在 llms.txt(可选但推荐)
- 内容准确描述了网站主要内容和关键页面
技术检查不是最性感的工作,但它是内容和信源建设的基础设施。把这份清单跑完,可以确保你在其他地方做的努力能够被 AI 系统正常读取和使用。