Conceptos

Estrategias de Alertas

Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.

seed#alerting#monitoring#pagerduty#on-call#sre#notifications

¿Qué es?

Alerting es el proceso de notificar a los equipos cuando algo requiere atención. Alertas mal configuradas causan fatiga (demasiadas) o incidentes perdidos (muy pocas).

Principios

  • Actionable: cada alerta debe tener una acción clara
  • Basadas en síntomas: alertar en impacto al usuario, no en causas
  • Basadas en SLOs: alertar cuando el error budget se consume
  • Escalamiento: si no se responde, escalar automáticamente

Severidades

SeveridadRespuestaEjemplo
CriticalInmediata (wake up)Servicio caído
WarningHoras de trabajoDegradación de performance
InfoRevisar cuando sea posibleTendencia preocupante

Anti-patrones

Anti-patrónConsecuenciaSolución
Alertas que siempre se ignoranAlert fatigue, se pierden alertas realesEliminar o convertir en dashboard
Alertas sin runbookRespuesta lenta, depende de conocimiento tribalVincular runbook a cada alerta
Alertas por métricas internasRuido sin impacto visible al usuarioAlertar por síntomas, no causas
Umbrales arbitrariosFalsos positivos frecuentesBasar umbrales en SLOs

¿Por qué importa?

Las alertas mal diseñadas causan fatiga, y la fatiga causa que se ignoren alertas reales. Una estrategia de alertas efectiva es la diferencia entre detectar un incidente en minutos y enterarse por los usuarios horas después.

Referencias

Conceptos