Ventanas de Contexto
La cantidad máxima de tokens que un LLM puede procesar en una sola interacción, determinando cuánta información puede considerar simultáneamente para generar respuestas.
¿Qué es?
La ventana de contexto es el límite máximo de tokens (palabras y subpalabras) que un LLM puede procesar en una sola interacción. Incluye tanto la entrada (prompt, contexto, historial) como la salida generada. Es la «memoria de trabajo» del modelo.
Evolución del tamaño
| Año | Modelo | Ventana |
|---|---|---|
| 2022 | GPT-3.5 | 4K tokens |
| 2023 | GPT-4 | 8K–32K tokens |
| 2023 | Claude 2 | 100K tokens |
| 2024 | Claude 3 | 200K tokens |
| 2024 | Gemini 1.5 | 1M–2M tokens |
| 2025 | GPT-4.1 | 1M tokens |
Para referencia: 1K tokens ≈ 750 palabras en inglés, ≈ 600 en español.
¿Por qué importa?
La ventana de contexto es la restricción fundamental que define qué puede y qué no puede hacer un LLM en una sola interacción. En RAG, determina cuántos documentos recuperados caben en el prompt. En conversaciones, limita el historial que el modelo recuerda. En agentes, afecta cuántas iteraciones de razonamiento caben en una sesión. Diseñar sistemas que trabajan dentro de estos límites — con chunking, summarización y gestión de contexto — es una habilidad arquitectónica esencial para cualquier aplicación basada en LLMs.
El problema «Lost in the Middle»
Los modelos no prestan atención uniforme a todo el contexto. Investigaciones muestran que la información al inicio y al final del contexto se procesa mejor que la del medio. Esto tiene implicaciones prácticas para cómo ordenar la información en prompts largos.
Estrategias para contextos largos
- Chunking inteligente: dividir documentos y procesar por partes
- Resumen progresivo: resumir secciones anteriores para liberar espacio
- Priorización: colocar información crítica al inicio o final del contexto
- RAG selectivo: recuperar solo los fragmentos más relevantes en lugar de documentos completos
Costo y rendimiento
Más contexto = más cómputo. La atención en Transformers escala cuadráticamente con la longitud de la secuencia (O(n²)), aunque técnicas como atención sparse, sliding window y ring attention reducen esto en la práctica.
Referencias
- Lost in the Middle — Liu et al., 2023. Cómo los LLMs usan contextos largos.
- Extending Context Window of Large Language Models — Survey de técnicas de extensión de contexto.
- Prompt Caching — Anthropic — Anthropic, 2024. Optimización de uso de ventana de contexto.