Gestión de Incidentes
Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.
seed#incident-management#on-call#postmortem#sre#response#blameless
¿Qué es?
Incident management es el proceso estructurado para manejar problemas en producción: desde la detección hasta la resolución y el aprendizaje posterior. Un buen proceso minimiza el impacto y previene recurrencias.
Fases
- Detección: alertas, reportes de usuarios, monitoreo
- Triage: evaluar severidad e impacto
- Respuesta: asignar roles, comunicar, mitigar
- Resolución: restaurar el servicio
- Postmortem: analizar y aprender
Roles durante un incidente
- Incident Commander: coordina la respuesta
- Tech Lead: lidera la investigación técnica
- Communications: actualiza stakeholders
- Scribe: documenta timeline y acciones
Postmortems blameless
El objetivo es aprender, no culpar. Preguntas clave:
- ¿Qué pasó? (timeline)
- ¿Por qué pasó? (5 whys)
- ¿Cómo prevenimos que vuelva a pasar? (action items)
Herramientas
- PagerDuty, Opsgenie (on-call)
- Statuspage (comunicación)
- Jira, Linear (tracking de action items)
Severidades
| Nivel | Impacto | Respuesta |
|---|---|---|
| SEV1 | Servicio caído, todos los usuarios afectados | Respuesta inmediata, all-hands |
| SEV2 | Funcionalidad degradada, subconjunto de usuarios | Respuesta en minutos, equipo on-call |
| SEV3 | Problema menor, workaround disponible | Siguiente día hábil |
¿Por qué importa?
La forma en que un equipo responde a incidentes define su madurez operacional. Un proceso claro — detección, triaje, comunicación, resolución, postmortem — reduce el tiempo de recuperación y convierte cada incidente en una oportunidad de mejora sistémica.
Referencias
- Incident Management - PagerDuty — Guía completa.
- Managing Incidents — SRE Book — Google, 2016. Capítulo sobre gestión de incidentes.
- Incident Management Guide — FireHydrant, 2024. Guía práctica de gestión de incidentes.