jonmatumalpha
conceptosnotasexperimentosensayos

© 2026 Jonatan Mata · alpha · v0.1.0

#serving

1 artículo con la etiqueta #serving.

  • Optimización de Inferencia

    Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.

    seed#inference#optimization#quantization#latency#serving#llm#performance
Todas las etiquetas