Estrategias de Alertas
Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.
seed#alerting#monitoring#pagerduty#on-call#sre#notifications
¿Qué es?
Alerting es el proceso de notificar a los equipos cuando algo requiere atención. Alertas mal configuradas causan fatiga (demasiadas) o incidentes perdidos (muy pocas).
Principios
- Actionable: cada alerta debe tener una acción clara
- Basadas en síntomas: alertar en impacto al usuario, no en causas
- Basadas en SLOs: alertar cuando el error budget se consume
- Escalamiento: si no se responde, escalar automáticamente
Severidades
| Severidad | Respuesta | Ejemplo |
|---|---|---|
| Critical | Inmediata (wake up) | Servicio caído |
| Warning | Horas de trabajo | Degradación de performance |
| Info | Revisar cuando sea posible | Tendencia preocupante |
Anti-patrones
| Anti-patrón | Consecuencia | Solución |
|---|---|---|
| Alertas que siempre se ignoran | Alert fatigue, se pierden alertas reales | Eliminar o convertir en dashboard |
| Alertas sin runbook | Respuesta lenta, depende de conocimiento tribal | Vincular runbook a cada alerta |
| Alertas por métricas internas | Ruido sin impacto visible al usuario | Alertar por síntomas, no causas |
| Umbrales arbitrarios | Falsos positivos frecuentes | Basar umbrales en SLOs |
¿Por qué importa?
Las alertas mal diseñadas causan fatiga, y la fatiga causa que se ignoren alertas reales. Una estrategia de alertas efectiva es la diferencia entre detectar un incidente en minutos y enterarse por los usuarios horas después.
Referencias
- My Philosophy on Alerting — Rob Ewaschuk, Google.
- Monitoring Distributed Systems — Google SRE Book, 2016. Capítulo sobre monitoreo y alertas.
- Grafana Alerting — Grafana, 2024. Sistema de alertas unificado.