SLOs, SLIs & SLAs

¿Qué es?

SLOs, SLIs y SLAs son un framework para definir y medir la confiabilidad de servicios:

SLI (Service Level Indicator): métrica que mide un aspecto del servicio (ej: latencia p99)
SLO (Service Level Objective): objetivo interno para el SLI (ej: p99 < 200ms)
SLA (Service Level Agreement): compromiso contractual con consecuencias (ej: 99.9% uptime o créditos)

Relación

SLI (qué medimos) → SLO (qué queremos) → SLA (qué prometemos)

El SLO siempre debe ser más estricto que el SLA para tener margen.

SLIs comunes

SLI	Medición
Disponibilidad	% de requests exitosos
Latencia	Percentil de tiempo de respuesta
Throughput	Requests por segundo
Error rate	% de requests con error
Freshness	Antigüedad de los datos

Error Budget

Error budget = 100% - SLO. Si SLO = 99.9%, tienes 0.1% de margen (~43 min/mes). Este presupuesto se «gasta» en deploys, experimentos y fallos.

¿Por qué importa?

Los SLOs convierten la confiabilidad en una decisión de ingeniería cuantificable. Sin ellos, los equipos no saben cuánta confiabilidad es suficiente y oscilan entre sobre-invertir en estabilidad o ignorar la deuda operacional hasta que un incidente los obliga a actuar.

Referencias

SRE Book - Service Level Objectives — Google.
SLA vs SLO vs SLI — Atlassian, 2024. Comparación práctica entre SLA, SLO y SLI.
Implementing SLOs — SRE Workbook — Google, 2018. Guía práctica para implementar SLOs.

¿Qué es?

SLOs, SLIs y SLAs son un framework para definir y medir la confiabilidad de servicios:

SLI (Service Level Indicator): métrica que mide un aspecto del servicio (ej: latencia p99)
SLO (Service Level Objective): objetivo interno para el SLI (ej: p99 < 200ms)
SLA (Service Level Agreement): compromiso contractual con consecuencias (ej: 99.9% uptime o créditos)

Relación

SLI (qué medimos) → SLO (qué queremos) → SLA (qué prometemos)

El SLO siempre debe ser más estricto que el SLA para tener margen.

SLIs comunes

SLI	Medición
Disponibilidad	% de requests exitosos
Latencia	Percentil de tiempo de respuesta
Throughput	Requests por segundo
Error rate	% de requests con error
Freshness	Antigüedad de los datos

Error Budget

Error budget = 100% - SLO. Si SLO = 99.9%, tienes 0.1% de margen (~43 min/mes). Este presupuesto se «gasta» en deploys, experimentos y fallos.

¿Por qué importa?

Referencias

SRE Book - Service Level Objectives — Google.
SLA vs SLO vs SLI — Atlassian, 2024. Comparación práctica entre SLA, SLO y SLI.
Implementing SLOs — SRE Workbook — Google, 2018. Guía práctica para implementar SLOs.

SLOs, SLIs y SLAs

¿Qué es?

Relación

SLIs comunes

Error Budget

¿Por qué importa?

Referencias

Contenido relacionado

SLOs, SLIs y SLAs

¿Qué es?

Relación

SLIs comunes

Error Budget

¿Por qué importa?

Referencias

Contenido relacionado