
更新人
更新于 Apr 27, 2026
TL;DR: LLMs.txt 是一个纯文本文件,告诉 AI 爬虫(GPTBot、ClaudeBot、PerplexityBot、Gemini)可以访问、引用或跳过您电子商务网站的哪些部分。与 robots.txt 不同 —— 后者控制传统搜索引擎爬虫 —— LLMs.txt 直接影响您的产品页面、常见问题解答内容和购买指南是否会出现在 AI 生成的购物答案中。本指南涵盖了设置、策略、平台实施和持续维护。
当客户询问 ChatGPT “150 美元以下最佳可持续跑鞋是什么?”时 —— 答案来自哪里?该模型从训练数据和实时网络检索的组合中获取信息,从被允许访问且被认为可信的来源提取产品信息、评价和编辑内容。如果您的电子商务网站的产品页面、购买指南和常见问题解答内容对提供这些回答的 AI 爬虫不可访问,那么您的品牌就无法出现在该答案中 —— 无论您的传统 SEO 表现有多强。
LLMs.txt 是一个新的技术标准 —— 概念上类似于 robots.txt —— 为网站所有者提供了直接控制 AI 爬虫如何与其内容互动的能力。对于电子商务品牌来说,LLMs.txt 是确保正确的产品内容被展示给 AI 系统的强大机制,同时将低价值或敏感页面(购物车页面、账户区域、过滤的类别 URL)排除在 AI 索引流程之外。
本指南涵盖电子商务团队需要了解的 LLMs.txt 的所有内容:它是什么,为什么重要,如何正确设置,最大程度地增加 AI 购物可见性 的内容以及如何进行持续维护。
LLMs.txt 是一个纯文本文件,托管在您域名的根目录下(例如,yourstore.com/llms.txt),该文件直接与 AI 爬虫沟通 —— 驱动生成式搜索和对话 AI 代理的爬虫。它使用指令来指定 AI 系统可以访问、引用或跳过哪些内容。
与 robots.txt 的概念比较清晰,但功能上有所不同:
| 特性 | robots.txt | LLMs.txt |
|---|---|---|
| 控制传统搜索爬虫 | ✅ 是 | ❌ 否 |
| 控制 AI/LLM 爬虫 | ❌ 否 | ✅ 是 |
| 影响 AI 生成的答案 | ❌ 有限 | ✅ 直接 |
| 引文和归属控制 | ❌ 无 | ✅ 可选通过数据源指令 |
| 购物提要指导 | ❌ 无 | ✅ 通过网站地图/数据源引用 |
关键区别:robots.txt 告诉 Googlebot 和 Bingbot 在传统搜索排名中索引哪些内容。而 LLMs.txt 告诉 GPTBot、ClaudeBot、PerplexityBot 和 Gemini 在生成 AI 驱动的购物答案、产品比较和品牌推荐时应使用哪些内容。
截至2026年,AI爬虫对LLMs.txt指令的自愿遵守情况因平台而异。然而,主要的AI公司——OpenAI、Anthropic、Google、Perplexity——都表示承诺尊重适当配置的LLMs.txt文件,因为标准在逐步成熟。早期实施使品牌在合规曲线中处于领先地位。
当用户向AI系统询问“油性皮肤的最佳护肤方案”、“宽脚的最耐磨登山靴”或“初学者可负担的意式浓咖啡机”时,这些查询会从AI爬虫的现有内容索引中提取信息。尚未配置LLMs.txt的品牌正在将其AI可见性留给机会——AI爬虫可能会访问低价值的分页类别URL、过时的产品页面或价格敏感的结账区域,而非那些实际上能够推动有利于AI推荐的权威产品描述、购买指南和常见问题内容。
没有LLMs.txt,访问您商店的AI爬虫可能会索引:
/collections/shoes?color=red&size=10)适当地配置LLMs.txt后,您可以指导AI爬虫访问:
LLMs.txt的实施仍处于早期阶段。大多数电子商务品牌尚未配置该文件。早期实施者将AI爬虫引导至其最强大、最权威的内容,较之于那些AI足迹被随机爬虫行为塑造的竞争对手,他们拥有可衡量的优势。
2026年需要配置规则的主要AI爬虫:
| AI平台 | 爬虫用户代理 |
|---|---|
| ChatGPT(OpenAI) | GPTBot |
| Claude(Anthropic) | ClaudeBot |
| Gemini(Google) | Google-Extended |
| Perplexity | PerplexityBot |
| Meta AI | Meta-ExternalAgent |
| Amazon(Rufus) | Amazonbot |
| Copilot(Microsoft) | Bingbot(Copilot使用Bing的索引) |
您可以使用通配符用户代理编写适用于所有AI爬虫的通用规则,或创建特定于平台的规则,允许一个爬虫而限制另一个爬虫——例如,如果您希望您的内容能够喂养Perplexity的实时搜索,但不想为OpenAI的训练数据做贡献。
创建一个名为llms.txt的纯文本文件。将其托管在您的域根目录下 — 可通过yourstore.com/llms.txt访问。文件格式采用类似于robots.txt语法的简单键值指令。
每个规则块以您要针对的爬虫开始:
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
这些是最有可能生成准确、良好AI产品推荐的内容类型。具有全面架构的产品页面、教育型博客内容及FAQ部分是电子商务品牌最具价值的AI引用资产。
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /search
Disallow: /collections/?
最后一条规则(/collections/*?*)阻止通过过滤生成的URL — 这是针对电子商务网站最重要的禁止指令,因为过滤的分类页面占据了AI可爬行性问题的主要部分。
指向AI爬虫最重要的结构化数据资产:
Data-source: https://yourstore.com/sitemap.xml
Data-source: https://yourstore.com/pages/buying-guide
Data-source: https://yourstore.com/blogs/product-guides
这些指令引导AI系统关注您希望在产品发现回答中引用的内容。
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Allow: /blogs/
Allow: /pages/faq
Allow: /pages/about
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /search
Disallow: /collections/?
Data-source: https://yourstore.com/sitemap.xml
Data-source: https://yourstore.com/blogs/product-guides
User-agent: PerplexityBot
Allow: /products/
Allow: /blogs/
Allow: /pages/faq
Disallow: /cart
Disallow: /checkout
Disallow: /collections/?
Data-source: https://yourstore.com/sitemap.xml
Shopify: Shopify 不原生支持特定白名单文件以外的根级文件上传。实施选项包括: (1) URL重定向变通方法,将/llms.txt路由到托管文件, (2) 生成并通过 Shopify 基础设施提供该文件的代理应用,或 (3) 在 Shopify 应用商店专门为LLMs.txt管理构建的第三方应用。
WooCommerce (WordPress): 直接通过SFTP或托管控制面板将llms.txt上传到您网站的根目录。一些SEO插件,包括Yoast SEO和Rank Math,正在开始在2026年添加原生的LLMs.txt生成功能。
Magento / 自定义平台: 直接将文件上传到公共根目录。确保您的网页服务器配置不会阻止对根目录中.txt文件的访问 — 一些安全配置会阻止非标准的根文件。
始终允许:
/products/[slug])始终阻止:
/search?q=)/collections/shoes?color=red)根据具体情况考虑:
配置LLMs.txt并不是一次性的设置。持续监控对于验证文件是否按预期工作以及随着您的网站和AI平台环境的演变而进行适应是至关重要的。
在服务器日志中跟踪AI爬虫活动。 查找来自GPTBot、ClaudeBot、PerplexityBot和Google-Extended用户代理的请求。监测这些爬虫访问的URL — 如果您看到在不允许路径上的爬取活动,请验证文件语法和服务器配置。
使用AI可见性监控来验证引用模式。 LLMs.txt效果的真实测试并不是爬虫访问日志 — 而是AI系统是否引用了您网站上的正确内容。监控哪些页面在AI产品推荐中被引用(以及哪些竞争者页面被引用)的平台提供了反馈循环,以验证您的LLMs.txt策略。
在发生重大内容更改时更新文件:

LLMs.txt 控制 AI 爬虫可以访问的内容——但它不能单独告诉您这种访问是否转化为有利的 AI 购物推荐。您 LLMs.txt 配置与实际 AI 引用结果之间的反馈循环需要一个监控层,而仅靠 LLMs.txt 无法提供。Dageno AI 填补了这一空白。
Dageno AI 持续监控 AI 系统如何在 ChatGPT、Perplexity、Gemini、Google AI 模式、Claude 和其他主要平台上展现您的品牌和产品——揭示哪些产品页面被引用,AI 系统描述了哪些属性,以及哪里存在不准确或缺失。对于使用 LLMs.txt 指导 AI 爬虫访问特定内容的电子商务团队,Dageno AI 验证这种指导是否有效:您在 LLMs.txt 中允许的产品页面是否真的生成了更多的 AI 引用?您阻止的页面是否仍然出现在 AI 响应中(这可能表示不同的引用路径——例如一个第三方评论网站)?AI 爬虫访问的产品内容在 AI 购物答案中是否被准确呈现,还是存在需要纠正的属性错误?
Dageno AI 的 AI 搜索分析扩展 还提供页面验证——检查您打算在 LLMs.txt 配置中允许的页面是否在技术上可访问、结构正确且符合架构。这确保了您的 LLMs.txt 策略是建立在 AI 系统实际上可以解析和有效使用的页面之上。
准备主宰 AI 搜索?
开始使用 - 免费!>意外阻止产品页面。 一个广泛的 Disallow: /collections/ 规则如果没有正确排除核心产品页面,就是电子商务网站最严重的配置错误。始终通过爬虫模拟检查您打算的高价值页面是否可访问。
robots.txt 和 LLMs.txt 之间的冲突规则。 如果一个页面在 robots.txt 中被阻止但在 LLMs.txt 中被允许,爬虫行为将变得不可预测。围绕一致的内容可见性策略来协调这两个文件。
未包含数据源指令。 许多品牌配置了 Allow/Disallow 规则,但跳过了数据源引用——错过了主动指导 AI 系统访问其最强内容资产的机会。
设置与遗忘。 LLMs.txt 至少需要每季度审核一次。为您的 Q1 产品目录配置的文件在没有更新的情况下,到 Q3 时将过时。

Ye Faye is an SEO and AI growth executive with extensive experience spanning leading SEO service providers and high-growth AI companies, bringing a rare blend of search intelligence and AI product expertise. As a former Marketing Operations Director, he has led cross-functional, data-driven initiatives that improve go-to-market execution, accelerate scalable growth, and elevate marketing effectiveness. He focuses on Generative Engine Optimization (GEO), helping organizations adapt their content and visibility strategies for generative search and AI-driven discovery, and strengthening authoritative presence across platforms such as ChatGPT and Perplexity
Read full bio