Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.
Incident management es el proceso estructurado para manejar problemas en producción: desde la detección hasta la resolución y el aprendizaje posterior. Un buen proceso minimiza el impacto y previene recurrencias.
El objetivo es aprender, no culpar. Preguntas clave:
| Nivel | Impacto | Respuesta |
|---|---|---|
| SEV1 | Servicio caído, todos los usuarios afectados | Respuesta inmediata, all-hands |
| SEV2 | Funcionalidad degradada, subconjunto de usuarios | Respuesta en minutos, equipo on-call |
| SEV3 | Problema menor, workaround disponible | Siguiente día hábil |
La forma en que un equipo responde a incidentes define su madurez operacional. Un proceso claro — detección, triaje, comunicación, resolución, postmortem — reduce el tiempo de recuperación y convierte cada incidente en una oportunidad de mejora sistémica.
Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.
Conjunto de prácticas técnicas y culturales que implementan los principios DevOps — desde Infrastructure as Code hasta blameless post-mortems. El «cómo» detrás de la filosofía.
Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.
Disciplina de experimentar en sistemas de producción para descubrir debilidades antes de que causen incidentes, inyectando fallos controlados.
Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.