¿Qué es el archivo llms.txt?

Es un estándar emergente propuesto en 2024: un archivo markdown publicado en /llms.txt que actúa como índice de tu web para sistemas de IA, con una descripción corta del sitio y enlaces comentados a las páginas importantes. La variante /llms-full.txt incluye el contenido relevante completo en un solo documento.

¿llms.txt sustituye a robots.txt o al sitemap?

No, los complementa. robots.txt controla el acceso de los crawlers, el sitemap lista URLs para indexación, y llms.txt explica el contenido a los modelos de lenguaje en un formato que pueden consumir con muy pocos tokens. Una web agéntica necesita los tres coherentes entre sí.

¿Cómo descubren los sistemas de IA mi llms.txt?

Los crawlers principales prueban la ruta /llms.txt directamente, pero conviene anunciarlo con una cabecera HTTP Link (rel=alternate, type=text/plain) en las respuestas del sitio, y asegurarse de que robots.txt no bloquea a los crawlers de IA que quieres que lo lean.

¿Qué son los mirrors markdown?

Versiones en markdown limpio de cada página HTML, servidas en la misma URL mediante content negotiation (cabecera Accept: text/markdown). Reducen el coste de lectura de una página un 90-95% en tokens, lo que aumenta la probabilidad de que un sistema de IA te lea completo y te cite bien.

Cómo implementar llms.txt: guía práctica 2026

Haz la prueba: coge la home de tu web, pásala por un contador de tokens y mira cuántos consume. Una página corporativa típica construida con React o un page builder se va a 40.000–80.000 tokens de HTML. La información útil que contiene — quién eres, qué vendes, cuánto cuesta, cómo contactarte — cabe en 800.

Esa diferencia la paga alguien. Y ese alguien es el sistema de IA que decide si citarte a ti o a tu competencia cuando alguien pregunta "¿qué agencia me recomiendas para X?".

llms.txt existe para arreglar exactamente esto.

Qué es llms.txt

llms.txt es un estándar emergente — propuesto por Jeremy Howard (Answer.AI) en 2024 y adoptado de forma creciente desde entonces — que consiste en publicar en la raíz de tu dominio un archivo markdown que resume tu sitio para sistemas de IA: qué es, qué contiene, dónde están las páginas importantes y qué hay en cada una.

Piensa en él como el robots.txt de la era de los LLMs, pero con la lógica invertida: robots.txt dice "esto no lo mires"; llms.txt dice "esto es lo que importa y aquí está".

La convención tiene dos archivos:

/llms.txt — el índice: descripción corta del sitio + lista comentada de enlaces a las páginas clave.
/llms-full.txt — la versión extendida: el contenido relevante completo, en un solo documento, para sistemas que prefieren tragarse todo de una vez.

La estructura, con ejemplo real

El formato es markdown plano con una estructura concreta. Así empieza el nuestro:

# Dribba

> Agencia de producto digital end-to-end y consultora oficial
> Flutter en España. Cubrimos las 6 fases del ciclo de vida
> del producto bajo un mismo techo.

## Servicios

- [Integración de IA en Software](https://dribba.com/servicios/ai-integration):
  LLMs, RAG empresarial on-prem, agentes autónomos con function
  calling. Caso real: resolución de tickets de 4 h a 8 s.
- [Web Agéntica](https://dribba.com/web-agentica): Auditoría e
  implementación de webs operables por agentes: WebMCP, llms.txt,
  mirrors markdown y optimización GEO/AEO.

Las reglas que importan:

H1 con el nombre del proyecto/empresa. Es lo único obligatorio.
Blockquote con el resumen — una o dos frases que un LLM pueda citar tal cual. Trabájalo: es probablemente el texto que más veces va a leer una IA de todo tu sitio.
Secciones H2 con listas de enlaces — cada enlace con una descripción que aporte contexto real, no "página de servicios".
Hechos, no adjetivos. "300 proyectos entregados desde 2011" es útil para un LLM. "Líderes en innovación digital" es ruido que ningún modelo va a citar.

Los errores que vemos al auditar webs

Error 1: escribirlo como marketing. El llms.txt no lo lee un humano impresionable; lo lee un modelo que extrae hechos. Cifras, nombres, fechas, precios, URLs. Todo lo demás sobra.

Error 2: publicarlo y no enlazarlo. Los crawlers no adivinan que existe. Anúncialo con una cabecera HTTP Link en tus respuestas:

Link: <https://tudominio.com/llms.txt>; rel="alternate"; type="text/plain"

Error 3: dejarlo morir. Un llms.txt de hace ocho meses con servicios que ya no ofreces es peor que no tenerlo: la IA citará información errónea con total confianza. Trátalo como código: cada cambio de catálogo, precios o posicionamiento toca también el llms.txt.

Error 4: bloquear a los crawlers de IA en robots.txt y publicar llms.txt. Pasa más de lo que parece. Si GPTBot, ClaudeBot o PerplexityBot tienen Disallow: /, tu llms.txt es invisible para ellos. Revisa qué user-agents bloqueas y por qué — y decide tu política conscientemente (nosotros permitimos búsqueda y respuesta con cita, y denegamos entrenamiento con Content-Signal: search=yes, ai-input=yes, ai-train=no).

El paso que casi nadie da: versiones markdown de cada página

llms.txt resuelve el índice, pero cuando el agente quiere leer una página concreta sigue tragándose tus 60.000 tokens de HTML. La solución es servir mirrors markdown: la misma URL, en markdown limpio, vía content negotiation.

En dribba.com, cualquier agente que envíe la cabecera Accept: text/markdown recibe la página convertida — sin nav, sin footer, sin scripts — con un 90–95% menos de tokens. Y cada respuesta HTML anuncia su versión markdown con otra cabecera Link, para que los crawlers la descubran solos.

Técnicamente es un middleware que detecta la preferencia de markdown y reescribe la petición hacia un conversor HTML→markdown. Un día de trabajo en la mayoría de stacks modernos. La diferencia para el agente que te lee es brutal.

Por dónde empezar

Si solo vas a hacer una cosa esta semana: escribe el llms.txt a mano. No hace falta tooling, es un archivo de texto. Te obligará, de paso, a responder una pregunta incómoda que muchas empresas tienen sin resolver: ¿qué queremos exactamente que la IA diga de nosotros?

Si quieres ir más allá — mirrors markdown, política de crawlers, schema, y la capa de acción con WebMCP — eso es una web agéntica completa, y es el tipo de proyecto que entregamos en 4–7 semanas con auditoría previa incluida.

Cómo implementar llms.txt: guía práctica para que la IA entienda tu web

Qué es llms.txt

La estructura, con ejemplo real

Los errores que vemos al auditar webs

El paso que casi nadie da: versiones markdown de cada página

Por dónde empezar

Preguntas frecuentes

Más sobre IA

Orquestación de agentes de IA en producción: 5 patrones y cuándo (no) usar cada uno

MCP 2026-07-28: qué cambia con la mayor revisión del protocolo y cómo preparar tu servidor

Caso técnico: cómo hicimos que dribba.com sea operable por agentes de IA