Conceptos

Gestión de Incidentes

Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.

seed#incident-management#on-call#postmortem#sre#response#blameless

¿Qué es?

Incident management es el proceso estructurado para manejar problemas en producción: desde la detección hasta la resolución y el aprendizaje posterior. Un buen proceso minimiza el impacto y previene recurrencias.

Fases

  1. Detección: alertas, reportes de usuarios, monitoreo
  2. Triage: evaluar severidad e impacto
  3. Respuesta: asignar roles, comunicar, mitigar
  4. Resolución: restaurar el servicio
  5. Postmortem: analizar y aprender

Roles durante un incidente

  • Incident Commander: coordina la respuesta
  • Tech Lead: lidera la investigación técnica
  • Communications: actualiza stakeholders
  • Scribe: documenta timeline y acciones

Postmortems blameless

El objetivo es aprender, no culpar. Preguntas clave:

  • ¿Qué pasó? (timeline)
  • ¿Por qué pasó? (5 whys)
  • ¿Cómo prevenimos que vuelva a pasar? (action items)

Herramientas

  • PagerDuty, Opsgenie (on-call)
  • Statuspage (comunicación)
  • Jira, Linear (tracking de action items)

Severidades

NivelImpactoRespuesta
SEV1Servicio caído, todos los usuarios afectadosRespuesta inmediata, all-hands
SEV2Funcionalidad degradada, subconjunto de usuariosRespuesta en minutos, equipo on-call
SEV3Problema menor, workaround disponibleSiguiente día hábil

¿Por qué importa?

La forma en que un equipo responde a incidentes define su madurez operacional. Un proceso claro — detección, triaje, comunicación, resolución, postmortem — reduce el tiempo de recuperación y convierte cada incidente en una oportunidad de mejora sistémica.

Referencias

Conceptos