Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Gestión de Incidentes

Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.

seed#incident-management#on-call#postmortem#sre#response#blameless

¿Qué es?

Incident management es el proceso estructurado para manejar problemas en producción: desde la detección hasta la resolución y el aprendizaje posterior. Un buen proceso minimiza el impacto y previene recurrencias.

Fases

  1. Detección: alertas, reportes de usuarios, monitoreo
  2. Triage: evaluar severidad e impacto
  3. Respuesta: asignar roles, comunicar, mitigar
  4. Resolución: restaurar el servicio
  5. Postmortem: analizar y aprender

Roles durante un incidente

  • Incident Commander: coordina la respuesta
  • Tech Lead: lidera la investigación técnica
  • Communications: actualiza stakeholders
  • Scribe: documenta timeline y acciones

Postmortems blameless

El objetivo es aprender, no culpar. Preguntas clave:

  • ¿Qué pasó? (timeline)
  • ¿Por qué pasó? (5 whys)
  • ¿Cómo prevenimos que vuelva a pasar? (action items)

Herramientas

  • PagerDuty, Opsgenie (on-call)
  • Statuspage (comunicación)
  • Jira, Linear (tracking de action items)

Severidades

NivelImpactoRespuesta
SEV1Servicio caído, todos los usuarios afectadosRespuesta inmediata, all-hands
SEV2Funcionalidad degradada, subconjunto de usuariosRespuesta en minutos, equipo on-call
SEV3Problema menor, workaround disponibleSiguiente día hábil

¿Por qué importa?

La forma en que un equipo responde a incidentes define su madurez operacional. Un proceso claro — detección, triaje, comunicación, resolución, postmortem — reduce el tiempo de recuperación y convierte cada incidente en una oportunidad de mejora sistémica.

Referencias

  • Incident Management - PagerDuty — Guía completa.
  • Managing Incidents — SRE Book — Google, 2016. Capítulo sobre gestión de incidentes.
  • Incident Management Guide — FireHydrant, 2024. Guía práctica de gestión de incidentes.

Contenido relacionado

  • Ingeniería de Confiabilidad del Sitio

    Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.

  • Prácticas DevOps

    Conjunto de prácticas técnicas y culturales que implementan los principios DevOps — desde Infrastructure as Code hasta blameless post-mortems. El «cómo» detrás de la filosofía.

  • Observabilidad

    Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.

  • Ingeniería del Caos

    Disciplina de experimentar en sistemas de producción para descubrir debilidades antes de que causen incidentes, inyectando fallos controlados.

  • Estrategias de Alertas

    Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.

Conceptos