Conceptos

SLOs, SLIs y SLAs

Framework para definir, medir y comunicar la confiabilidad de servicios mediante objetivos (SLOs), indicadores (SLIs) y acuerdos (SLAs) de nivel de servicio.

seed#slo#sli#sla#reliability#metrics#sre

¿Qué es?

SLOs, SLIs y SLAs son un framework para definir y medir la confiabilidad de servicios:

  • SLI (Service Level Indicator): métrica que mide un aspecto del servicio (ej: latencia p99)
  • SLO (Service Level Objective): objetivo interno para el SLI (ej: p99 < 200ms)
  • SLA (Service Level Agreement): compromiso contractual con consecuencias (ej: 99.9% uptime o créditos)

Relación

SLI (qué medimos) → SLO (qué queremos) → SLA (qué prometemos)

El SLO siempre debe ser más estricto que el SLA para tener margen.

SLIs comunes

SLIMedición
Disponibilidad% de requests exitosos
LatenciaPercentil de tiempo de respuesta
ThroughputRequests por segundo
Error rate% de requests con error
FreshnessAntigüedad de los datos

Error Budget

Error budget = 100% - SLO. Si SLO = 99.9%, tienes 0.1% de margen (~43 min/mes). Este presupuesto se «gasta» en deploys, experimentos y fallos.

¿Por qué importa?

Los SLOs convierten la confiabilidad en una decisión de ingeniería cuantificable. Sin ellos, los equipos no saben cuánta confiabilidad es suficiente y oscilan entre sobre-invertir en estabilidad o ignorar la deuda operacional hasta que un incidente los obliga a actuar.

Referencias

Conceptos