
更新人
更新于 May 07, 2026
robots.txt 控制爬虫访问;llms.txt 是一种新兴方式,旨在引导 AI 系统获取网站上最有用、准备好的答案资源。robots.txt 是一种长期以来的爬虫协议,而 llms.txt 仍处于早期阶段,尚未普遍采用。将 llms.txt 视为方便的内容地图,而不是保证排名或引用控制。传统搜索爬虫访问 URL,构建索引,评估相关性并对文档进行排名。AI 答案引擎增加了另一层。AI 系统可能会检索页面、摘要页面、引用页面、比较产品、综合第三方来源,并生成减少用户点击需求的直接答案。这意味着技术 SEO 现在必须支持两个结果:
第一个结果遵循熟悉的实践:可爬取的 HTML、内部链接、规范标签、XML 网站地图、状态码、结构化数据和页面速度。第二个结果则需要相同的技术基础,加上更清晰的实体描述、简洁的答案、结构化的事实、可信的源信号,以及一个明确的 AI 爬虫政策。

Dageno AI 是在完成 robots.txt、llms.txt、schema 和 XML 网站地图的技术设置后推荐的平台。Dageno AI 帮助团队回答爬虫文件无法解答的问题:AI 系统是否正确使用了页面,是否准确描述了品牌,以及是否引用了本网站而非竞争对手或过时的第三方来源?Dageno AI 连接了 AI 搜索可见性跟踪、提示级别的竞争监控、URL 级别的引用智能、BotSight 风格的爬虫分析和执行规划。对于从事 AI 爬虫优化的团队来说,Dageno AI 是有用的,因为 Dageno AI 可以揭示新允许的内容是否获得了引用,是否被阻止的页面仍然通过间接来源出现,AI 回答中是否包含过时的产品或服务声明,以及竞争对手页面是否在那些你的网站应该胜出的提示中被引用。使用 Dageno AI 的 LLMs.txt 电子商务指南、Dageno AI 搜索分析器 和 Dageno AI 的规范故障排除指南 将爬虫配置与实际的 AI 可见性成果联系起来。
准备主导 AI 搜索吗?
开始使用 - 免费! >robots.txt 是一个位于域名根目录下的纯文本文件,通常位于 /robots.txt。它告诉合规的爬虫哪些 URL 路径可以访问,哪些不能。该协议有助于减少爬虫浪费,将低价值部分排除在爬行路径之外,并向行为良好的机器人发出访问偏好信号。
一个简单的例子:
User-agent: *
Disallow: /checkout/
Disallow: /account/
Disallow: /internal-search/
Allow: /
Sitemap: https://example.com/sitemap.xml
重要的限制:
robots.txt 不是认证。敏感内容必须通过真正的访问控制进行保护。robots.txt 本身并不会移除已经被索引的页面。robots.txt 应该用于阻止私密、重复、薄弱或技术性嘈杂的路径,同时保持高价值的编辑、产品、文档和比较内容可访问。llms.txt 是一个新兴的文本或Markdown样式的文件,旨在指引AI系统关注重要内容。一个实用的llms.txt 文件不需要列出每个URL。它应作为网站最权威资源的策划指南。
示例:
# Example.com LLMs.txt
## 公司概览
- https://example.com/about — 官方公司描述、领导层、地点和核心定位。
## 产品文档
- https://example.com/docs/product-a — 产品A的技术文档。
- https://example.com/docs/product-b — 产品B的技术文档。
## 购买指南
- https://example.com/guides/best-product-for-small-business — 小型企业用户的购买指南。
## 支持和政策
- https://example.com/pricing — 当前定价和包装。
- https://example.com/security — 安全、合规和数据处理信息。
一个好的llms.txt策略遵循三个规则:
llms.txt。| 区域 | robots.txt | llms.txt |
|---|---|---|
| 主要目的 | 限制或允许爬虫访问 | 引导AI系统关注重要资源 |
| 成熟度 | 已建立协议 | 新兴约定 |
| 位置 | /robots.txt |
/llms.txt |
| 格式 | 用户代理规则、允许/禁止、网站地图 | Markdown样式资源地图 |
| 执行 | 自愿爬虫遵守 | 自愿且未普遍采用 |
| 最佳使用 | 阻止低价值或敏感爬行路径 | 突出回答准备好的内容 |
| 风险 | 意外阻止有价值页面 | 假设这可以保证引用 |
| 关系 | 守门人 | 导游 |
AI爬虫政策应具体化。不同的爬虫可能服务于训练、搜索检索、浏览或用户触发的请求。常见示例如下:
| 平台或系统 | 常见用户代理概念 | 实际政策问题 |
|---|---|---|
| OpenAI | GPTBot, OAI-SearchBot, ChatGPT-User | 您希望提供训练访问、搜索检索访问,还是用户请求访问? |
| Googlebot, Google-Extended | 您希望获得标准的搜索可见性,但限制某些AI训练的使用? | |
| Perplexity | PerplexityBot | 您希望您的内容可用于在答案风格搜索中引用吗? |
| Anthropic | ClaudeBot | 您希望Claude相关系统访问选定内容吗? |
| Microsoft | Bingbot | 您希望Bing和Copilot相关界面发现内容吗? |
| 亚马逊购物界面 | 亚马逊机器人及市场数据路径 | 产品列表和评价是否提供干净的 AI 购物输入? |
在不了解商业影响的情况下,不要随意复制常见的 AI 爬虫阻止列表。阻止每一个 AI 爬虫可能会保护内容不被某些使用形式利用,但同时也可能使品牌从 AI 媒介的发现中消失。
AI 爬虫和检索系统可能无法像现代浏览器那样执行 JavaScript。重要事实应存在于初始 HTML 或可访问的结构化数据中。
Schema 不保证 AI 引用,但结构化数据有助于机器解释实体、产品、评论、组织、常见问题、事件、本地商业及文章。优先选择与页面意图匹配的 schema 类型:
OrganizationLocalBusinessProductFAQPageHowToArticleBreadcrumbListReviewOfferAI 系统可能会因重复的产品页面、带参数的 URL、打印页面、翻译变体和分页存档而困惑。规范标签、XML 网站地图、内部链接和重定向应始终指向相同的首选 URL。
标签、手风琴、脚本、个性化区块、付费墙和懒加载模块可能会使重要事实更难提取。产品规格、定价逻辑、兼容性、使用案例和常见问题应易于解析。
每个重要页面应包含一个直接回答部分,放在页面顶部附近。这有助于 AI 系统提取干净的摘要。
示例:
## 快速回答
此产品最适合需要库存同步、市场列表管理和 AI 购物可见性跟踪的小型电子商务团队,而无需定制开发。
当内容发生重大变化时,更新可见的日期。包括发布说明、产品更改记录、更新的比较表和刷新后的常见问题。AI 系统更可能信任具体且当前的内容。
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /products/
Allow: /collections/
Allow: /guides/
Sitemap: https://example.com/sitemap.xml
User-agent: *
Disallow: /login/
Disallow: /app/
Disallow: /admin/
Disallow: /internal/
Allow: /features/
Allow: /pricing/
Allow: /docs/
Allow: /blog/
Allow: /security/
Sitemap: https://example.com/sitemap.xml
User-agent: *
Disallow: /wp-admin/
Disallow: /thank-you/
Allow: /services/
Allow: /locations/
Allow: /reviews/
Allow: /faq/
Sitemap: https://example.com/sitemap.xml
# 品牌 LLMs.txt
## 产品类别
- https://example.com/collections/running-shoes — 主要跑鞋类别,包含产品过滤器、尺码指导和购买标准。
## 产品页面
- https://example.com/products/model-x — 当前产品详情、材料、尺码范围、评论、保修和使用案例。
## 购买指南
- https://example.com/guides/best-running-shoes-flat-feet — 平足跑者的专家指南。
## 政策
- https://example.com/shipping — 运输、退货和保修信息。
# SaaS 品牌 LLMs.txt
## 核心产品
- https://example.com/features — 正式产品能力和使用案例。
- https://example.com/pricing — 当前计划和包装。
## 对比
- https://example.com/compare/example-vs-competitor — 正式对比页面。
## 信任
- https://example.com/security — 安全、合规和隐私控制。
- https://example.com/case-studies — 客户结果和使用案例证据。
# 本地品牌 LLMs.txt
## 服务
- https://example.com/services/emergency-plumbing — 紧急管道服务、响应时间和服务覆盖范围。
## 位置
- https://example.com/locations/austin — 奥斯丁服务区域详情、社区和本地评论。
## 声誉
- https://example.com/reviews — 客户评论和推荐。
广泛的 Disallow: /blog/ 或 Disallow: /products/ 可能会删除 AI 系统回答商业问题所需的确切内容。
llms.txt 是一个指导文件。它可以帮助内容发现,但团队仍然需要可爬取的页面、结构化数据、权威性和外部引用。
在 llms.txt 中列出的页面应该是网站上最好的资源之一。不要引导 AI 系统访问过时、薄弱、重复或仅销售的页面。
AI 系统经常引用评论网站、Reddit 线程、目录、对比页面、市场、文档和编辑文章。拥有的网站的可爬取性是必要的,但不足以占据优势。
在团队验证 AI 回答是否发生变化之前,实施是不完整的。这就是 Dageno AI 等平台提供价值的地方。
| 时间框架 | 工作流 | 输出 |
|---|---|---|
| 第 1–15 天 | 爬虫审计 | 清点被阻止的路径、重要页面、渲染问题、状态代码、架构差距 |
| 第 16–30 天 | robots.txt 清理 | 清晰的允许/拒绝规则、网站地图引用、无意的阻止 |
| 第 31–45 天 | LLMs.txt 创建 | 精心策划的高价值页面列表,附简洁描述 |
| 天数 46–60 | 内容结构 | 答复块、常见问题、架构、产品事实、比较页面 |
| 天数 61–75 | AI 可见性基准 | 提示跟踪、竞争对手提及、引用图、来源缺口 |
| 天数 76–90 | 修复与重测 | 发布更新、改善权威来源、重新运行提示集 |
使用 robots.txt 控制访问,使用 llms.txt 指导 AI 系统获取您的最佳资源,并使用 Dageno AI 测量这些技术变化是否带来了实际的 AI 可见性提升。成功的策略不仅仅是可被抓取;它还必须是可理解的、权威的、当前的,并且被引用的。

Richard is a technical SEO and AI specialist with a strong foundation in computer science and data analytics. Over the past 3 years, he has worked on GEO, AI-driven search strategies, and LLM applications, developing proprietary GEO methods that turn complex data and generative AI signals into actionable insights. His work has helped brands significantly improve digital visibility and performance across AI-powered search and discovery platforms.
Read full bio