Ingeniería de Confiabilidad del Sitio
Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.
¿Qué es?
Site Reliability Engineering (SRE) es la disciplina creada por Google que aplica principios de ingeniería de software a la operación de sistemas. El objetivo: crear sistemas escalables y confiables mediante automatización, no trabajo manual.
Conceptos clave
- SLO (Service Level Objective): objetivo de confiabilidad (ej: 99.9% uptime)
- SLI (Service Level Indicator): métrica que mide el SLO
- SLA (Service Level Agreement): compromiso contractual con el cliente
- Error Budget: margen de error permitido (100% - SLO)
- Toil: trabajo manual, repetitivo, automatizable
Error Budget
Si tu SLO es 99.9%, tienes 0.1% de error budget (~43 min/mes). Mientras tengas budget:
- Puedes desplegar features nuevas
- Puedes tomar riesgos calculados
Si se agota:
- Freeze de deploys
- Enfoque en confiabilidad
SLO y error budget en la práctica
| SLO | Error budget/mes | Error budget/año | Perfil típico |
|---|---|---|---|
| 99% | 7.3 horas | 3.65 días | Herramientas internas, batch jobs |
| 99.9% | 43.8 minutos | 8.77 horas | APIs de producción, servicios web |
| 99.95% | 21.9 minutos | 4.38 horas | Servicios críticos de negocio |
| 99.99% | 4.38 minutos | 52.6 minutos | Infraestructura de pagos, auth |
Prácticas
- Eliminar toil mediante automatización
- Postmortems blameless después de incidentes
- Capacity planning basado en datos
- Chaos engineering para probar resiliencia
¿Por qué importa?
SRE aplica principios de ingeniería de software a las operaciones. En lugar de procesos manuales y heroísmo, define SLOs medibles, automatiza la respuesta a incidentes y trata la confiabilidad como una feature que se diseña, no como algo que simplemente ocurre.
Referencias
- Site Reliability Engineering — Google, libro gratuito.
- The Site Reliability Workbook — Google, ejercicios prácticos.
- SRE Resources — Google, 2024. Recursos adicionales de SRE incluyendo artículos y presentaciones.