Haz la prueba: coge la home de tu web, pásala por un contador de tokens y mira cuántos consume. Una página corporativa típica construida con React o un page builder se va a 40.000–80.000 tokens de HTML. La información útil que contiene — quién eres, qué vendes, cuánto cuesta, cómo contactarte — cabe en 800.

Esa diferencia la paga alguien. Y ese alguien es el sistema de IA que decide si citarte a ti o a tu competencia cuando alguien pregunta "¿qué agencia me recomiendas para X?".

llms.txt existe para arreglar exactamente esto.

Qué es llms.txt

llms.txt es un estándar emergente — propuesto por Jeremy Howard (Answer.AI) en 2024 y adoptado de forma creciente desde entonces — que consiste en publicar en la raíz de tu dominio un archivo markdown que resume tu sitio para sistemas de IA: qué es, qué contiene, dónde están las páginas importantes y qué hay en cada una.

Piensa en él como el robots.txt de la era de los LLMs, pero con la lógica invertida: robots.txt dice "esto no lo mires"; llms.txt dice "esto es lo que importa y aquí está".

La convención tiene dos archivos:

  • /llms.txt — el índice: descripción corta del sitio + lista comentada de enlaces a las páginas clave.
  • /llms-full.txt — la versión extendida: el contenido relevante completo, en un solo documento, para sistemas que prefieren tragarse todo de una vez.

La estructura, con ejemplo real

El formato es markdown plano con una estructura concreta. Así empieza el nuestro:

# Dribba

> Agencia de producto digital end-to-end y consultora oficial
> Flutter en España. Cubrimos las 6 fases del ciclo de vida
> del producto bajo un mismo techo.

## Servicios

- [Integración de IA en Software](https://dribba.com/servicios/ai-integration):
  LLMs, RAG empresarial on-prem, agentes autónomos con function
  calling. Caso real: resolución de tickets de 4 h a 8 s.
- [Web Agéntica](https://dribba.com/web-agentica): Auditoría e
  implementación de webs operables por agentes: WebMCP, llms.txt,
  mirrors markdown y optimización GEO/AEO.

Las reglas que importan:

  1. H1 con el nombre del proyecto/empresa. Es lo único obligatorio.
  2. Blockquote con el resumen — una o dos frases que un LLM pueda citar tal cual. Trabájalo: es probablemente el texto que más veces va a leer una IA de todo tu sitio.
  3. Secciones H2 con listas de enlaces — cada enlace con una descripción que aporte contexto real, no "página de servicios".
  4. Hechos, no adjetivos. "300 proyectos entregados desde 2011" es útil para un LLM. "Líderes en innovación digital" es ruido que ningún modelo va a citar.

Los errores que vemos al auditar webs

Error 1: escribirlo como marketing. El llms.txt no lo lee un humano impresionable; lo lee un modelo que extrae hechos. Cifras, nombres, fechas, precios, URLs. Todo lo demás sobra.

Error 2: publicarlo y no enlazarlo. Los crawlers no adivinan que existe. Anúncialo con una cabecera HTTP Link en tus respuestas:

Link: <https://tudominio.com/llms.txt>; rel="alternate"; type="text/plain"

Error 3: dejarlo morir. Un llms.txt de hace ocho meses con servicios que ya no ofreces es peor que no tenerlo: la IA citará información errónea con total confianza. Trátalo como código: cada cambio de catálogo, precios o posicionamiento toca también el llms.txt.

Error 4: bloquear a los crawlers de IA en robots.txt y publicar llms.txt. Pasa más de lo que parece. Si GPTBot, ClaudeBot o PerplexityBot tienen Disallow: /, tu llms.txt es invisible para ellos. Revisa qué user-agents bloqueas y por qué — y decide tu política conscientemente (nosotros permitimos búsqueda y respuesta con cita, y denegamos entrenamiento con Content-Signal: search=yes, ai-input=yes, ai-train=no).

El paso que casi nadie da: versiones markdown de cada página

llms.txt resuelve el índice, pero cuando el agente quiere leer una página concreta sigue tragándose tus 60.000 tokens de HTML. La solución es servir mirrors markdown: la misma URL, en markdown limpio, vía content negotiation.

En dribba.com, cualquier agente que envíe la cabecera Accept: text/markdown recibe la página convertida — sin nav, sin footer, sin scripts — con un 90–95% menos de tokens. Y cada respuesta HTML anuncia su versión markdown con otra cabecera Link, para que los crawlers la descubran solos.

Técnicamente es un middleware que detecta la preferencia de markdown y reescribe la petición hacia un conversor HTML→markdown. Un día de trabajo en la mayoría de stacks modernos. La diferencia para el agente que te lee es brutal.

Por dónde empezar

Si solo vas a hacer una cosa esta semana: escribe el llms.txt a mano. No hace falta tooling, es un archivo de texto. Te obligará, de paso, a responder una pregunta incómoda que muchas empresas tienen sin resolver: ¿qué queremos exactamente que la IA diga de nosotros?

Si quieres ir más allá — mirrors markdown, política de crawlers, schema, y la capa de acción con WebMCP — eso es una web agéntica completa, y es el tipo de proyecto que entregamos en 4–7 semanas con auditoría previa incluida.