Métricas y Monitoreo
Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.
seed#metrics#monitoring#prometheus#grafana#dashboards#alerting
¿Qué es?
Métricas son mediciones numéricas agregadas en el tiempo que describen el comportamiento del sistema. El monitoreo es el proceso de recolectar, almacenar, visualizar y alertar sobre esas métricas.
Tipos de métricas
| Tipo | Comportamiento | Ejemplo | Cuándo usar |
|---|---|---|---|
| Counter | Solo incrementa | Requests totales, errores acumulados | Tasas (requests/s) |
| Gauge | Sube y baja | Memoria usada, conexiones activas | Estado actual del recurso |
| Histogram | Distribución de valores (server-side) | Latencia p50/p95/p99 | Percentiles de latencia |
| Summary | Distribución de valores (client-side) | Latencia precalculada | Cuando no se puede agregar en servidor |
The Four Golden Signals (Google SRE)
- Latency: tiempo de respuesta
- Traffic: volumen de requests
- Errors: tasa de errores
- Saturation: qué tan «lleno» está el sistema
Stack típico
Aplicación → Prometheus (recolección) → Grafana (visualización) → Alertmanager (alertas)
Mejores prácticas
- USE method para recursos: Utilization, Saturation, Errors
- RED method para servicios: Rate, Errors, Duration
- Dashboards por servicio con los 4 golden signals
- Alertas basadas en SLOs, no en métricas arbitrarias
¿Por qué importa?
Lo que no se mide no se mejora. Las métricas y el monitoreo convierten la intuición en datos, permitiendo detectar degradaciones antes de que impacten a los usuarios y tomar decisiones de capacidad basadas en evidencia.
Referencias
- Prometheus — Sistema de monitoreo CNCF.
- Grafana — Plataforma de visualización.
- OpenTelemetry Metrics — OpenTelemetry, 2024. Estándar abierto para métricas.