数智学习中心 计科随机库
学习专区 Linux专栏 博客圈 计科之路 登录
让网站对 AI 更友好:一次关于 llms.txt 的探索与插件开发

llms.txt 是一个目前仍处于提案阶段的标准化文件,采用 Markdown 格式编写,旨在为网站提供一种向 AI 输送结构化数据的方式,帮助大型语言模型(LLM)更高效地理解网站内容。

llms.txt 与 robots.txt、sitemap.xml 的区别

文件 对象 作用

robots.txt 搜索引擎爬虫 设定可抓取或禁止抓取的路径规则

sitemap.xml 搜索引擎爬虫 提供网站 URL 列表,便于快速收录

llms.txt AI / 大型语言模型工具 提供页面结构、标题、分类等语义信息

目前,llms.txt 还没有成为官方标准,但已有社区提案网站 llms-txt 对其进行了详细介绍。

社区规范格式

根据 llms-txt 社区的规范,llms.txt 应包含以下按顺序排列的 Markdown 部分:

一个唯一的、必需的 H1 标题,用于显示项目或网站名称;

一个引用块(blockquote),用于撰写项目简短摘要,包含理解整个文件所需的关键信息;

零个或多个 Markdown 区块(例如段落、列表等),用于进一步解释项目及如何理解所提供的内容(但不能使用标题格式);

零个或多个由 H2 标题分隔的“文件列表”区块,列出可获取更多详细信息的 URL;

每个“文件列表”应为 Markdown 列表项,每一项必须包含形如 name 的超链接,其后可选地使用冒号 : 附加说明。

服务器配置提示

如果 WordPress 没有安装在网站根目录(例如像我这样安装在 /blog 子目录下),则需通过 URL 重写将 llms.txt 指向根目录访问路径。

例如,Nginx 配置如下:

`` Apache 服务器则需在网站根目录的 .htaccess 文件中添加: RewriteEngine On RewriteRule ^llms.txt$ /blog/llms.txt [L]
评论留言

一共0条留言