jonmatumalpha
conceptosnotasexperimentosensayos

© 2026 Jonatan Mata · alpha · v0.1.0

#optimization

2 artículos con la etiqueta #optimization.

  • Caché de Prompts

    Técnica que almacena el cómputo interno de prefijos de prompt reutilizados entre llamadas a LLMs, reduciendo costos hasta un 90% y latencia hasta un 85% en aplicaciones con contexto repetitivo.

    evergreen#prompt-caching#llm#cost-reduction#latency#anthropic#openai#optimization
  • Optimización de Inferencia

    Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.

    seed#inference#optimization#quantization#latency#serving#llm#performance
Todas las etiquetas