llms.txt 是一个目前仍处于提案阶段的标准化文件,采用 Markdown 格式编写,旨在为网站提供一种向 AI 输送结构化数据的方式,帮助大型语言模型(LLM)更高效地理解网站内容。
llms.txt 与 robots.txt、sitemap.xml 的区别
文件 对象 作用
robots.txt 搜索引擎爬虫 设定可抓取或禁止抓取的路径规则
sitemap.xml 搜索引擎爬虫 提供网站 URL 列表,便于快速收录
llms.txt AI / 大型语言模型工具 提供页面结构、标题、分类等语义信息
目前,llms.txt 还没有成为官方标准,但已有社区提案网站 llms-txt 对其进行了详细介绍。
社区规范格式
根据 llms-txt 社区的规范,llms.txt 应包含以下按顺序排列的 Markdown 部分:
一个唯一的、必需的 H1 标题,用于显示项目或网站名称;
一个引用块(blockquote),用于撰写项目简短摘要,包含理解整个文件所需的关键信息;
零个或多个 Markdown 区块(例如段落、列表等),用于进一步解释项目及如何理解所提供的内容(但不能使用标题格式);
零个或多个由 H2 标题分隔的“文件列表”区块,列出可获取更多详细信息的 URL;
每个“文件列表”应为 Markdown 列表项,每一项必须包含形如 name 的超链接,其后可选地使用冒号 : 附加说明。
服务器配置提示
如果 WordPress 没有安装在网站根目录(例如像我这样安装在 /blog 子目录下),则需通过 URL 重写将 llms.txt 指向根目录访问路径。
例如,Nginx 配置如下:
`` Apache 服务器则需在网站根目录的 .htaccess 文件中添加: RewriteEngine On RewriteRule ^llms.txt$ /blog/llms.txt [L]