SLOs, SLIs y SLAs
Framework para definir, medir y comunicar la confiabilidad de servicios mediante objetivos (SLOs), indicadores (SLIs) y acuerdos (SLAs) de nivel de servicio.
seed#slo#sli#sla#reliability#metrics#sre
¿Qué es?
SLOs, SLIs y SLAs son un framework para definir y medir la confiabilidad de servicios:
- SLI (Service Level Indicator): métrica que mide un aspecto del servicio (ej: latencia p99)
- SLO (Service Level Objective): objetivo interno para el SLI (ej: p99 < 200ms)
- SLA (Service Level Agreement): compromiso contractual con consecuencias (ej: 99.9% uptime o créditos)
Relación
SLI (qué medimos) → SLO (qué queremos) → SLA (qué prometemos)
El SLO siempre debe ser más estricto que el SLA para tener margen.
SLIs comunes
| SLI | Medición |
|---|---|
| Disponibilidad | % de requests exitosos |
| Latencia | Percentil de tiempo de respuesta |
| Throughput | Requests por segundo |
| Error rate | % de requests con error |
| Freshness | Antigüedad de los datos |
Error Budget
Error budget = 100% - SLO. Si SLO = 99.9%, tienes 0.1% de margen (~43 min/mes). Este presupuesto se «gasta» en deploys, experimentos y fallos.
¿Por qué importa?
Los SLOs convierten la confiabilidad en una decisión de ingeniería cuantificable. Sin ellos, los equipos no saben cuánta confiabilidad es suficiente y oscilan entre sobre-invertir en estabilidad o ignorar la deuda operacional hasta que un incidente los obliga a actuar.
Referencias
- SRE Book - Service Level Objectives — Google.
- SLA vs SLO vs SLI — Atlassian, 2024. Comparación práctica entre SLA, SLO y SLI.
- Implementing SLOs — SRE Workbook — Google, 2018. Guía práctica para implementar SLOs.