Context engineering para agentes de IA: la memoria decide, no el context window

Si tu agente de IA funciona en la demo pero se descontrola en la tarea número catorce, el problema casi nunca es el modelo. Es el contexto. Context engineering es la disciplina de diseñar qué ve el modelo en cada llamada de inferencia: qué se recupera, qué se resume, qué se descarta y qué se guarda fuera de la ventana. En 2026 es lo que separa a los equipos que despliegan agentes fiables de los que siguen atrapados en la demo.

La idea de fondo es incómoda para quien vendió "context windows infinitas" como solución: más contexto no es mejor contexto. Un análisis de despliegues empresariales de IA atribuyó cerca del 65% de los fallos de agentes a deriva de contexto o pérdida de memoria durante el razonamiento multi-paso, no a incapacidad del modelo subyacente. El cuello de botella se movió del modelo al sistema que lo alimenta.

Qué es (y qué no es) context engineering

Prompt engineering optimizaba una instrucción. Context engineering diseña el sistema completo que entrega información al modelo en tiempo de ejecución: pipelines de recuperación, sistemas de memoria, catálogos de herramientas, resumen de conversación y presupuesto de la ventana de contexto.

La metáfora más útil que hemos visto: la ventana de contexto es RAM, no almacenamiento. Es volátil (desaparece al terminar la sesión), es limitada y es cara por token. Tratarla como un disco donde acumular todo el historial es la vía rápida al desastre. Sin compresión, la degradación empieza a notarse alrededor de las 10-15 vueltas de conversación.

Las cuatro operaciones que debes implementar

La comunidad ha convergido en cuatro operaciones básicas sobre el contexto. Cualquier arquitectura de agente seria las implementa, se llamen como se llamen:

Write (escribir): persistir información fuera de la ventana. El agente mantiene notas de trabajo y resultados intermedios durante la ejecución, para no depender de que "todo siga en pantalla".
Select (seleccionar): recuperar solo lo relevante ahora mediante búsqueda semántica y scoring de relevancia, en lugar de reinyectar el historial entero.
Compress (comprimir): resumir para reducir tokens conservando la información que importa. La compresión adaptativa de memoria puede recortar el uso de tokens hasta un 80% manteniendo fidelidad.
Isolate (aislar): dar a cada sub-tarea su propio contexto limpio, para que un tema no contamine a otro. Es la base de las arquitecturas multi-agente bien hechas.

Memoria a corto y largo plazo

Un agente en producción necesita dos capas de memoria, igual que un sistema operativo separa RAM de disco:

Capa	Qué guarda	Coste	Persistencia
Corto plazo	Contexto inmediato de la sesión actual	Alto (tokens)	Se pierde al cerrar
Largo plazo	Preferencias, hechos, historial de relación	Bajo (almacenamiento)	Sobrevive entre sesiones

El trabajo interesante está en el trasvase entre ambas: qué asciende a la ventana cuando hace falta y qué se comprime y baja a almacenamiento cuando deja de ser relevante. Frameworks como Letta se inspiran directamente en la gestión de memoria virtual de los sistemas operativos para automatizar ese movimiento.

Presupuesto de contexto: el hábito que casi nadie tiene

Antes de escribir una línea de orquestación, define un presupuesto de tokens por llamada y repártelo explícitamente: system prompt, definiciones de herramientas, memoria recuperada, historial reciente y margen para la respuesta. Si no lo haces tú, lo hará el runtime truncando por el peor sitio posible. Instrumenta cada invocación con la ocupación real de cada partida; es la única forma de detectar cuándo la recuperación está inflando el prompt sin aportar.

Cuándo NO necesitas nada de esto

Seremos honestos, porque es fácil sobre-ingenierizar aquí. Si tu caso es una llamada única sin estado —clasificar un texto, extraer campos de un documento, responder una pregunta autocontenida— no montes sistemas de memoria. Un buen prompt y, como mucho, RAG básico bastan. La maquinaria de write/select/compress/isolate se justifica cuando hay tareas de larga duración, multi-paso, con estado que debe sobrevivir entre turnos o sesiones. Meter memoria persistente en un flujo stateless solo añade latencia, coste y superficie de bugs.

Tampoco confundas "más memoria" con "mejor agente": memoria mal seleccionada es ruido que empeora las respuestas. Si al añadir contexto la calidad baja, el problema es la selección, no la falta de datos.

Cómo lo abordamos en Dribba

Llevamos 15 años construyendo producto y el patrón se repite: la parte difícil de un agente no es conectarlo, es que siga siendo correcto en la tarea 50. Por eso tratamos el contexto como código —versionado, presupuestado y medido— y validamos cada iteración con evals reales, no con "vibes". El context engineering y una capa sólida de MCP en producción son las dos caras de un mismo trabajo: darle al modelo exactamente lo que necesita, ni más ni menos.

Conclusión

En 2026 el diferencial competitivo de un agente no está en el tamaño de su ventana de contexto, sino en el rigor con que gestionas lo que entra en ella. Write, select, compress e isolate no son buzzwords: son las cuatro palancas que convierten una demo impresionante en un sistema que aguanta producción.

¿Tienes un agente que funciona en la demo pero se rompe con carga real? En Dribba diseñamos la capa de contexto y memoria para que deje de romperse. Hablemos.

Context engineering para agentes de IA: la memoria decide, no el context window

Context engineering para agentes de IA: la memoria decide, no el context window

Qué es (y qué no es) context engineering

Las cuatro operaciones que debes implementar

Memoria a corto y largo plazo

Presupuesto de contexto: el hábito que casi nadie tiene

Cuándo NO necesitas nada de esto

Cómo lo abordamos en Dribba

Conclusión

Más sobre IA

Gemini 3.6 Flash abarata el token: qué cambia (y qué no) para tu factura de IA

AI Act, Artículo 50: cómo implementar la transparencia de IA en tu app antes del 2 de agosto de 2026

Orquestación de agentes de IA en producción: 5 patrones y cuándo (no) usar cada uno