Jonatan Matajonmatum.com

conceptos notas experimentos ensayos

© 2026 Jonatan Mata. All rights reserved.v2.1.1

#optimization

2 artículos con la etiqueta #optimization.

Caché de Prompts
Técnica que almacena el cómputo interno de prefijos de prompt reutilizados entre llamadas a LLMs, reduciendo costos hasta un 90% y latencia hasta un 85% en aplicaciones con contexto repetitivo.
evergreen #prompt-caching #llm #cost-reduction #latency #anthropic #openai #optimization
Optimización de Inferencia
Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.
seed #inference #optimization #quantization #latency #serving #llm #performance

Todas las etiquetas