Conceptos

Ingeniería de Confiabilidad del Sitio

Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.

seed#sre#reliability#toil#error-budget#automation#operations

¿Qué es?

Site Reliability Engineering (SRE) es la disciplina creada por Google que aplica principios de ingeniería de software a la operación de sistemas. El objetivo: crear sistemas escalables y confiables mediante automatización, no trabajo manual.

Conceptos clave

  • SLO (Service Level Objective): objetivo de confiabilidad (ej: 99.9% uptime)
  • SLI (Service Level Indicator): métrica que mide el SLO
  • SLA (Service Level Agreement): compromiso contractual con el cliente
  • Error Budget: margen de error permitido (100% - SLO)
  • Toil: trabajo manual, repetitivo, automatizable

Error Budget

Si tu SLO es 99.9%, tienes 0.1% de error budget (~43 min/mes). Mientras tengas budget:

  • Puedes desplegar features nuevas
  • Puedes tomar riesgos calculados

Si se agota:

  • Freeze de deploys
  • Enfoque en confiabilidad

SLO y error budget en la práctica

SLOError budget/mesError budget/añoPerfil típico
99%7.3 horas3.65 díasHerramientas internas, batch jobs
99.9%43.8 minutos8.77 horasAPIs de producción, servicios web
99.95%21.9 minutos4.38 horasServicios críticos de negocio
99.99%4.38 minutos52.6 minutosInfraestructura de pagos, auth

Prácticas

  • Eliminar toil mediante automatización
  • Postmortems blameless después de incidentes
  • Capacity planning basado en datos
  • Chaos engineering para probar resiliencia

¿Por qué importa?

SRE aplica principios de ingeniería de software a las operaciones. En lugar de procesos manuales y heroísmo, define SLOs medibles, automatiza la respuesta a incidentes y trata la confiabilidad como una feature que se diseña, no como algo que simplemente ocurre.

Referencias

Conceptos