Conceptos

llms.txt

Estándar propuesto para publicar un archivo Markdown en la raíz de un sitio web que permite a los modelos de lenguaje entender y utilizar el contenido del sitio de forma eficiente durante la inferencia.

growing#llms-txt#ai#web-standards#seo#agents#markdown#inference

¿Qué es?

llms.txt es un estándar propuesto por Jeremy Howard (fast.ai) en septiembre de 2024 para colocar un archivo Markdown en la ruta /llms.txt de un sitio web. Su propósito es ofrecer a los modelos de lenguaje una versión concisa, estructurada y legible del contenido más importante del sitio — sin el ruido del HTML, la navegación, los anuncios ni el JavaScript.

Es análogo a robots.txt y sitemap.xml, pero con un objetivo diferente:

  • robots.txt indica a los rastreadores qué acceso es aceptable
  • sitemap.xml lista todas las páginas indexables para motores de búsqueda
  • llms.txt ofrece un resumen curado y enlaces a contenido detallado para modelos de lenguaje

¿Por qué importa?

Los modelos de lenguaje enfrentan una limitación fundamental al interactuar con sitios web: las ventanas de contexto son demasiado pequeñas para procesar un sitio completo, y convertir HTML complejo a texto plano es impreciso y ruidoso.

llms.txt resuelve esto proporcionando:

  1. Contexto inmediato — un resumen del sitio que cabe en una ventana de contexto
  2. Navegación estructurada — enlaces a archivos Markdown detallados organizados por sección
  3. Información curada — solo el contenido relevante, sin duplicación ni ruido
  4. Formato legible por humanos y máquinas — Markdown es el formato más ampliamente entendido por los LLMs actuales

¿Cómo se usa?

En la inferencia

El caso de uso principal es durante la inferencia — cuando un usuario pide información a un modelo de lenguaje. Por ejemplo:

  • Un desarrollador incluye la documentación de una librería en su IDE con asistente de IA
  • Un chatbot con capacidad de búsqueda consulta un sitio para responder preguntas
  • Un agente de IA necesita entender la estructura de un servicio para interactuar con él

Formato del archivo

El archivo sigue una estructura específica en Markdown:

# Nombre del proyecto
 
> Descripción breve con información clave
 
Detalles adicionales sobre el proyecto.
 
## Sección
 
- [Título del enlace](https://url): Notas opcionales sobre el archivo
 
## Optional
 
- [Título del enlace](https://url): Contenido secundario que puede omitirse

La sección «Optional» tiene un significado especial: los enlaces allí pueden omitirse si se necesita un contexto más corto.

Variantes comunes

Muchos sitios publican variantes expandidas:

  • /llms.txt — el archivo base con resumen y enlaces
  • /llms-full.txt — versión expandida con el contenido completo de cada enlace incrustado

Implementación en este sitio

Este sitio publica dos archivos generados automáticamente en el pipeline de conocimiento:

  • /llms.txt — índice con título, tipo y resumen en inglés de cada nodo de conocimiento
  • /llms-full.txt — contenido completo de cada artículo en formato plano

Ambos se regeneran con cada ejecución de pnpm generate y se sirven como archivos estáticos desde public/.

Relación con otros estándares

EstándarAudienciaPropósito
robots.txtRastreadoresControl de acceso
sitemap.xmlMotores de búsquedaÍndice de páginas
llms.txtModelos de lenguajeResumen curado del sitio
MCPAgentes de IAProtocolo de herramientas y contexto

llms.txt y MCP son complementarios: llms.txt proporciona contenido estático legible, mientras que MCP habilita interacciones dinámicas con herramientas y servicios.

Adopción

Desde su propuesta en 2024, llms.txt ha sido adoptado por proyectos de documentación técnica, sitios de comercio electrónico, instituciones educativas y sitios personales. La especificación es deliberadamente simple — un archivo Markdown con convenciones mínimas — lo que facilita su adopción sin herramientas especializadas.

Referencias

Conceptos