Conceptos

Métricas y Monitoreo

Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.

seed#metrics#monitoring#prometheus#grafana#dashboards#alerting

¿Qué es?

Métricas son mediciones numéricas agregadas en el tiempo que describen el comportamiento del sistema. El monitoreo es el proceso de recolectar, almacenar, visualizar y alertar sobre esas métricas.

Tipos de métricas

TipoComportamientoEjemploCuándo usar
CounterSolo incrementaRequests totales, errores acumuladosTasas (requests/s)
GaugeSube y bajaMemoria usada, conexiones activasEstado actual del recurso
HistogramDistribución de valores (server-side)Latencia p50/p95/p99Percentiles de latencia
SummaryDistribución de valores (client-side)Latencia precalculadaCuando no se puede agregar en servidor

The Four Golden Signals (Google SRE)

  1. Latency: tiempo de respuesta
  2. Traffic: volumen de requests
  3. Errors: tasa de errores
  4. Saturation: qué tan «lleno» está el sistema

Stack típico

Aplicación → Prometheus (recolección) → Grafana (visualización) → Alertmanager (alertas)

Mejores prácticas

  • USE method para recursos: Utilization, Saturation, Errors
  • RED method para servicios: Rate, Errors, Duration
  • Dashboards por servicio con los 4 golden signals
  • Alertas basadas en SLOs, no en métricas arbitrarias

¿Por qué importa?

Lo que no se mide no se mejora. Las métricas y el monitoreo convierten la intuición en datos, permitiendo detectar degradaciones antes de que impacten a los usuarios y tomar decisiones de capacidad basadas en evidencia.

Referencias

Conceptos