Site Reliability Engineering

¿Qué es?

Site Reliability Engineering (SRE) es la disciplina creada por Google que aplica principios de ingeniería de software a la operación de sistemas. El objetivo: crear sistemas escalables y confiables mediante automatización, no trabajo manual.

Conceptos clave

SLO (Service Level Objective): objetivo de confiabilidad (ej: 99.9% uptime)
SLI (Service Level Indicator): métrica que mide el SLO
SLA (Service Level Agreement): compromiso contractual con el cliente
Error Budget: margen de error permitido (100% - SLO)
Toil: trabajo manual, repetitivo, automatizable

Error Budget

Si tu SLO es 99.9%, tienes 0.1% de error budget (~43 min/mes). Mientras tengas budget:

Puedes desplegar features nuevas
Puedes tomar riesgos calculados

Si se agota:

Freeze de deploys
Enfoque en confiabilidad

SLO y error budget en la práctica

SLO	Error budget/mes	Error budget/año	Perfil típico
99%	7.3 horas	3.65 días	Herramientas internas, batch jobs
99.9%	43.8 minutos	8.77 horas	APIs de producción, servicios web
99.95%	21.9 minutos	4.38 horas	Servicios críticos de negocio
99.99%	4.38 minutos	52.6 minutos	Infraestructura de pagos, auth

Prácticas

Eliminar toil mediante automatización
Postmortems blameless después de incidentes
Capacity planning basado en datos
Chaos engineering para probar resiliencia

¿Por qué importa?

SRE aplica principios de ingeniería de software a las operaciones. En lugar de procesos manuales y heroísmo, define SLOs medibles, automatiza la respuesta a incidentes y trata la confiabilidad como una feature que se diseña, no como algo que simplemente ocurre.

Referencias

Site Reliability Engineering — Google, libro gratuito.
The Site Reliability Workbook — Google, ejercicios prácticos.
SRE Resources — Google, 2024. Recursos adicionales de SRE incluyendo artículos y presentaciones.

¿Qué es?

Conceptos clave

SLO (Service Level Objective): objetivo de confiabilidad (ej: 99.9% uptime)
SLI (Service Level Indicator): métrica que mide el SLO
SLA (Service Level Agreement): compromiso contractual con el cliente
Error Budget: margen de error permitido (100% - SLO)
Toil: trabajo manual, repetitivo, automatizable

Error Budget

Si tu SLO es 99.9%, tienes 0.1% de error budget (~43 min/mes). Mientras tengas budget:

Puedes desplegar features nuevas
Puedes tomar riesgos calculados

Si se agota:

Freeze de deploys
Enfoque en confiabilidad

SLO y error budget en la práctica

SLO	Error budget/mes	Error budget/año	Perfil típico
99%	7.3 horas	3.65 días	Herramientas internas, batch jobs
99.9%	43.8 minutos	8.77 horas	APIs de producción, servicios web
99.95%	21.9 minutos	4.38 horas	Servicios críticos de negocio
99.99%	4.38 minutos	52.6 minutos	Infraestructura de pagos, auth

Prácticas

Eliminar toil mediante automatización
Postmortems blameless después de incidentes
Capacity planning basado en datos
Chaos engineering para probar resiliencia

¿Por qué importa?

Referencias

Site Reliability Engineering — Google, libro gratuito.
The Site Reliability Workbook — Google, ejercicios prácticos.
SRE Resources — Google, 2024. Recursos adicionales de SRE incluyendo artículos y presentaciones.

Ingeniería de Confiabilidad del Sitio

¿Qué es?

Conceptos clave

Error Budget

SLO y error budget en la práctica

Prácticas

¿Por qué importa?

Referencias

Contenido relacionado

Ingeniería de Confiabilidad del Sitio

¿Qué es?

Conceptos clave

Error Budget

SLO y error budget en la práctica

Prácticas

¿Por qué importa?

Referencias

Contenido relacionado