Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Ingeniería de Confiabilidad del Sitio

Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.

seed#sre#reliability#toil#error-budget#automation#operations

¿Qué es?

Site Reliability Engineering (SRE) es la disciplina creada por Google que aplica principios de ingeniería de software a la operación de sistemas. El objetivo: crear sistemas escalables y confiables mediante automatización, no trabajo manual.

Conceptos clave

  • SLO (Service Level Objective): objetivo de confiabilidad (ej: 99.9% uptime)
  • SLI (Service Level Indicator): métrica que mide el SLO
  • SLA (Service Level Agreement): compromiso contractual con el cliente
  • Error Budget: margen de error permitido (100% - SLO)
  • Toil: trabajo manual, repetitivo, automatizable

Error Budget

Si tu SLO es 99.9%, tienes 0.1% de error budget (~43 min/mes). Mientras tengas budget:

  • Puedes desplegar features nuevas
  • Puedes tomar riesgos calculados

Si se agota:

  • Freeze de deploys
  • Enfoque en confiabilidad

SLO y error budget en la práctica

SLOError budget/mesError budget/añoPerfil típico
99%7.3 horas3.65 díasHerramientas internas, batch jobs
99.9%43.8 minutos8.77 horasAPIs de producción, servicios web
99.95%21.9 minutos4.38 horasServicios críticos de negocio
99.99%4.38 minutos52.6 minutosInfraestructura de pagos, auth

Prácticas

  • Eliminar toil mediante automatización
  • Postmortems blameless después de incidentes
  • Capacity planning basado en datos
  • Chaos engineering para probar resiliencia

¿Por qué importa?

SRE aplica principios de ingeniería de software a las operaciones. En lugar de procesos manuales y heroísmo, define SLOs medibles, automatiza la respuesta a incidentes y trata la confiabilidad como una feature que se diseña, no como algo que simplemente ocurre.

Referencias

  • Site Reliability Engineering — Google, libro gratuito.
  • The Site Reliability Workbook — Google, ejercicios prácticos.
  • SRE Resources — Google, 2024. Recursos adicionales de SRE incluyendo artículos y presentaciones.

Contenido relacionado

  • DevOps

    Cultura y conjunto de prácticas que unifican desarrollo (Dev) y operaciones (Ops) para entregar software con mayor velocidad, calidad y confiabilidad. No es un rol — es una forma de trabajar.

  • Observabilidad

    Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.

  • SLOs, SLIs y SLAs

    Framework para definir, medir y comunicar la confiabilidad de servicios mediante objetivos (SLOs), indicadores (SLIs) y acuerdos (SLAs) de nivel de servicio.

  • Métricas y Monitoreo

    Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.

  • Gestión de Incidentes

    Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.

  • Ingeniería del Caos

    Disciplina de experimentar en sistemas de producción para descubrir debilidades antes de que causen incidentes, inyectando fallos controlados.

  • Estrategias de Alertas

    Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.

Conceptos