Conceptos

Ventanas de Contexto

La cantidad máxima de tokens que un LLM puede procesar en una sola interacción, determinando cuánta información puede considerar simultáneamente para generar respuestas.

seed#context-window#tokens#llm#memory#attention#scaling

¿Qué es?

La ventana de contexto es el límite máximo de tokens (palabras y subpalabras) que un LLM puede procesar en una sola interacción. Incluye tanto la entrada (prompt, contexto, historial) como la salida generada. Es la «memoria de trabajo» del modelo.

Evolución del tamaño

AñoModeloVentana
2022GPT-3.54K tokens
2023GPT-48K–32K tokens
2023Claude 2100K tokens
2024Claude 3200K tokens
2024Gemini 1.51M–2M tokens
2025GPT-4.11M tokens

Para referencia: 1K tokens ≈ 750 palabras en inglés, ≈ 600 en español.

¿Por qué importa?

La ventana de contexto es la restricción fundamental que define qué puede y qué no puede hacer un LLM en una sola interacción. En RAG, determina cuántos documentos recuperados caben en el prompt. En conversaciones, limita el historial que el modelo recuerda. En agentes, afecta cuántas iteraciones de razonamiento caben en una sesión. Diseñar sistemas que trabajan dentro de estos límites — con chunking, summarización y gestión de contexto — es una habilidad arquitectónica esencial para cualquier aplicación basada en LLMs.

El problema «Lost in the Middle»

Los modelos no prestan atención uniforme a todo el contexto. Investigaciones muestran que la información al inicio y al final del contexto se procesa mejor que la del medio. Esto tiene implicaciones prácticas para cómo ordenar la información en prompts largos.

Estrategias para contextos largos

  • Chunking inteligente: dividir documentos y procesar por partes
  • Resumen progresivo: resumir secciones anteriores para liberar espacio
  • Priorización: colocar información crítica al inicio o final del contexto
  • RAG selectivo: recuperar solo los fragmentos más relevantes en lugar de documentos completos

Costo y rendimiento

Más contexto = más cómputo. La atención en Transformers escala cuadráticamente con la longitud de la secuencia (O(n²)), aunque técnicas como atención sparse, sliding window y ring attention reducen esto en la práctica.

Referencias

Conceptos