Técnica que almacena el cómputo interno de prefijos de prompt reutilizados entre llamadas a LLMs, reduciendo costos hasta un 90% y latencia hasta un 85% en aplicaciones con contexto repetitivo.
El caché de prompts es una optimización ofrecida por proveedores de LLMs que almacena el cómputo interno (los estados de atención) de prefijos de prompt que se repiten entre llamadas a la API. En lugar de reprocesar miles de tokens idénticos en cada request, el modelo reutiliza el cómputo previo y solo procesa los tokens nuevos.
A diferencia del caché tradicional en software — que almacena salidas como respuestas HTTP o resultados de consultas — el caché de prompts almacena entradas procesadas, porque las salidas de un LLM son dinámicas y varían con cada generación.
El proceso sigue tres pasos:
El caché tiene una ventana de tiempo limitada — típicamente entre 5 y 10 minutos de inactividad antes de expirar.
| Proveedor | Tipo | Mínimo de tokens | Descuento | Latencia |
|---|---|---|---|---|
| Anthropic (Claude) | Explícito — requiere marcar bloques con cache_control | 1.024 | 90% en tokens cacheados | Hasta 85% menos |
| OpenAI (GPT-4o, o1) | Automático — sin cambios de código | 1.024 | 50% en tokens cacheados | Reducción variable |
| Google (Gemini) | Explícito — requiere configuración manual | Variable | Hasta 75% | Variable |
| DeepSeek | Automático | 1.024 | Hasta 90% | Variable |
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
system=[{
"type": "text",
"text": documento_largo, # Miles de tokens
"cache_control": {"type": "ephemeral"}
}],
messages=[{"role": "user", "content": pregunta}]
)El bloque marcado con cache_control se almacena tras la primera llamada. Las siguientes llamadas con el mismo prefijo pagan solo el precio de lectura de caché.
El caché de prompts es más efectivo cuando:
Para un agente que itera 10 veces con un system prompt de 4.000 tokens y definiciones de herramientas de 2.000 tokens:
| Escenario | Tokens de entrada procesados | Costo relativo |
|---|---|---|
| Sin caché | 10 × 6.000 = 60.000 | 100% |
| Con caché (Anthropic) | 6.000 + 9 × 600 = 11.400 | ~19% |
| Con caché (OpenAI) | 6.000 + 9 × 3.000 = 33.000 | ~55% |
El ahorro escala con el número de iteraciones y el tamaño del prefijo. En pipelines de RAG donde el mismo documento se analiza con múltiples preguntas, el patrón es idéntico.
En aplicaciones de IA con contexto repetitivo — agentes, RAG, análisis de documentos — el costo de tokens de entrada domina la factura. El caché de prompts convierte un gasto lineal en uno casi constante: el primer request paga el precio completo, pero los siguientes pagan una fracción. Para un agente que itera 10 veces con el mismo system prompt y herramientas, la diferencia puede ser de 10x en costo.
cache_control.Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.
La cantidad máxima de tokens que un LLM puede procesar en una sola interacción, determinando cuánta información puede considerar simultáneamente para generar respuestas.
Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Patrones de diseño donde agentes de IA ejecutan tareas complejas de múltiples pasos de forma autónoma, combinando razonamiento, uso de herramientas y toma de decisiones iterativa.