Incident Management

¿Qué es?

Incident management es el proceso estructurado para manejar problemas en producción: desde la detección hasta la resolución y el aprendizaje posterior. Un buen proceso minimiza el impacto y previene recurrencias.

Fases

Detección: alertas, reportes de usuarios, monitoreo
Triage: evaluar severidad e impacto
Respuesta: asignar roles, comunicar, mitigar
Resolución: restaurar el servicio
Postmortem: analizar y aprender

Roles durante un incidente

Incident Commander: coordina la respuesta
Tech Lead: lidera la investigación técnica
Communications: actualiza stakeholders
Scribe: documenta timeline y acciones

Postmortems blameless

El objetivo es aprender, no culpar. Preguntas clave:

¿Qué pasó? (timeline)
¿Por qué pasó? (5 whys)
¿Cómo prevenimos que vuelva a pasar? (action items)

Herramientas

PagerDuty, Opsgenie (on-call)
Statuspage (comunicación)
Jira, Linear (tracking de action items)

Severidades

Nivel	Impacto	Respuesta
SEV1	Servicio caído, todos los usuarios afectados	Respuesta inmediata, all-hands
SEV2	Funcionalidad degradada, subconjunto de usuarios	Respuesta en minutos, equipo on-call
SEV3	Problema menor, workaround disponible	Siguiente día hábil

¿Por qué importa?

La forma en que un equipo responde a incidentes define su madurez operacional. Un proceso claro — detección, triaje, comunicación, resolución, postmortem — reduce el tiempo de recuperación y convierte cada incidente en una oportunidad de mejora sistémica.

Referencias

Incident Management - PagerDuty — Guía completa.
Managing Incidents — SRE Book — Google, 2016. Capítulo sobre gestión de incidentes.
Incident Management Guide — FireHydrant, 2024. Guía práctica de gestión de incidentes.

¿Qué es?

Fases

Detección: alertas, reportes de usuarios, monitoreo
Triage: evaluar severidad e impacto
Respuesta: asignar roles, comunicar, mitigar
Resolución: restaurar el servicio
Postmortem: analizar y aprender

Roles durante un incidente

Incident Commander: coordina la respuesta
Tech Lead: lidera la investigación técnica
Communications: actualiza stakeholders
Scribe: documenta timeline y acciones

Postmortems blameless

El objetivo es aprender, no culpar. Preguntas clave:

¿Qué pasó? (timeline)
¿Por qué pasó? (5 whys)
¿Cómo prevenimos que vuelva a pasar? (action items)

Herramientas

PagerDuty, Opsgenie (on-call)
Statuspage (comunicación)
Jira, Linear (tracking de action items)

Severidades

Nivel	Impacto	Respuesta
SEV1	Servicio caído, todos los usuarios afectados	Respuesta inmediata, all-hands
SEV2	Funcionalidad degradada, subconjunto de usuarios	Respuesta en minutos, equipo on-call
SEV3	Problema menor, workaround disponible	Siguiente día hábil

¿Por qué importa?

Referencias

Incident Management - PagerDuty — Guía completa.
Managing Incidents — SRE Book — Google, 2016. Capítulo sobre gestión de incidentes.
Incident Management Guide — FireHydrant, 2024. Guía práctica de gestión de incidentes.

Gestión de Incidentes

¿Qué es?

Fases

Roles durante un incidente

Postmortems blameless

Herramientas

Severidades

¿Por qué importa?

Referencias

Contenido relacionado

Gestión de Incidentes

¿Qué es?

Fases

Roles durante un incidente

Postmortems blameless

Herramientas

Severidades

¿Por qué importa?

Referencias

Contenido relacionado