llms.txt 是什么?

llms.txt 是 2024 年由 Jeremy Howard 提出的 Web 标准,它是一个放置在网站根目录的 Markdown 文件,为 AI 模型提供精选的、机器可读的网站内容地图。

llms.txt 与 sitemap.xml 的核心区别:sitemap.xml 是给爬虫的完整目录,llms.txt 是给 AI 的精选阅读清单。

文件规范

位置要求

规则 说明
必须位于 网站根目录:yoursite.com/llms.txt
必须可通过 HTTP GET 请求直接访问
子路径无效 /docs/llms.txt 不可用
Content-Type text/plaintext/markdown(不要用 text/html

语法结构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 站点名称

> 一句话描述网站内容及服务对象

## 核心页面

- [页面标题](URL): 简短描述
- [页面标题](URL): 简短描述

## 分类名称

- [页面标题](URL): 简短描述

必需字段

  1. H1 标题 — 站点名称(必须)
  2. Blockquote 描述 — 一句话概括网站定位(必须)
  3. 至少一个链接列表 — 包含重要页面及其描述(必须)

llms.txt vs llms-full.txt

文件 用途 大小限制 适用场景
llms.txt 精选摘要 ~5,000 tokens 大多数网站
llms-full.txt 完整内容 无限制 文档站点、技术参考

当前支持情况

平台 支持状态 说明
Anthropic Claude 已支持 读取用于上下文 grounding
Mintlify / Cursor 已支持 用于 IDE 助手和代码代理
Phind / Komo / Andi 已支持 已实现或计划支持
ChatGPT / Perplexity / Gemini 待确认 可作为 SEO/AEO 信号
DeepSeek 待确认 语义化 HTML 兜底
豆包 待确认 robots.txt 兜底

实战示例

以下是一个技术参考站点的完整 llms.txt 示例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
# AIRef

> AIRef 是面向 AI 引擎优化的技术架构参考站点,提供系统架构、性能优化、AI搜索优化等深度技术内容。

## 核心页面

- [首页](/): 站点概述与最新内容
- [系统架构](/architecture/): 分布式系统架构深度解析
- [优化指南](/guides/): GEO/SEO优化实战指南

## 技术问答

- [什么是GEO?](/faq/what-is-geo/): 生成式引擎优化概念解析
- [如何让AI引用我的网站?](/faq/how-to-get-ai-citations/): AI引用策略

部署检查清单

  • 文件位于网站根目录 /llms.txt
  • HTTP GET 可直接访问
  • Content-Type 为 text/plaintext/markdown
  • H1 标题和 blockquote 描述完整
  • 所有链接可访问且描述准确
  • 文件大小在 5,000 tokens 以内
  • 已创建 /llms-full.txt 补充完整内容
  • 在 HTML <head> 中添加 <link rel="llms-txt" href="/llms.txt">
  • robots.txt 中包含 llms.txt 的提示注释

维护建议

  • 每季度检查更新链接有效性
  • 新增重要页面时同步更新 llms.txt
  • 使用自动化脚本定期验证文件可访问性