Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.
La optimización de inferencia abarca las técnicas para hacer que los LLMs sean más rápidos, baratos y eficientes en producción. Mientras que el entrenamiento ocurre una vez, la inferencia ocurre millones de veces — pequeñas mejoras tienen impacto masivo.
Reducir la precisión numérica de los pesos del modelo:
Almacenar los key-value pairs de capas de atención para no recalcularlos en cada token generado. Esencial para generación autoregresiva eficiente.
| Framework | Características |
|---|---|
| vLLM | PagedAttention, continuous batching |
| TensorRT-LLM | Optimización NVIDIA, alta performance |
| Ollama | Local, fácil de usar |
| llama.cpp | CPU inference, cuantización agresiva |
Servicios como AWS Bedrock y APIs de proveedores eliminan la gestión de infraestructura. Se paga por token consumido, ideal para cargas variables.
En producción, la inferencia ocurre millones de veces. Cada milisegundo de latencia y cada token procesado tiene un costo. Las técnicas de optimización — cuantización, KV cache, batching — son la diferencia entre un sistema de IA viable económicamente y uno que quiebra el presupuesto.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Modelo de computación en la nube donde el proveedor gestiona la infraestructura automáticamente, permitiendo ejecutar código sin aprovisionar ni administrar servidores, pagando solo por el uso real.
Técnica que almacena el cómputo interno de prefijos de prompt reutilizados entre llamadas a LLMs, reduciendo costos hasta un 90% y latencia hasta un 85% en aplicaciones con contexto repetitivo.