Metrics & Monitoring

¿Qué es?

Métricas son mediciones numéricas agregadas en el tiempo que describen el comportamiento del sistema. El monitoreo es el proceso de recolectar, almacenar, visualizar y alertar sobre esas métricas.

Tipos de métricas

Tipo	Comportamiento	Ejemplo	Cuándo usar
Counter	Solo incrementa	Requests totales, errores acumulados	Tasas (requests/s)
Gauge	Sube y baja	Memoria usada, conexiones activas	Estado actual del recurso
Histogram	Distribución de valores (server-side)	Latencia p50/p95/p99	Percentiles de latencia
Summary	Distribución de valores (client-side)	Latencia precalculada	Cuando no se puede agregar en servidor

The Four Golden Signals (Google SRE)

Latency: tiempo de respuesta
Traffic: volumen de requests
Errors: tasa de errores
Saturation: qué tan «lleno» está el sistema

Stack típico

Aplicación → Prometheus (recolección) → Grafana (visualización) → Alertmanager (alertas)

Mejores prácticas

USE method para recursos: Utilization, Saturation, Errors
RED method para servicios: Rate, Errors, Duration
Dashboards por servicio con los 4 golden signals
Alertas basadas en SLOs, no en métricas arbitrarias

¿Por qué importa?

Lo que no se mide no se mejora. Las métricas y el monitoreo convierten la intuición en datos, permitiendo detectar degradaciones antes de que impacten a los usuarios y tomar decisiones de capacidad basadas en evidencia.

Referencias

Prometheus — Sistema de monitoreo CNCF.
Grafana — Plataforma de visualización.
OpenTelemetry Metrics — OpenTelemetry, 2024. Estándar abierto para métricas.

¿Qué es?

Métricas son mediciones numéricas agregadas en el tiempo que describen el comportamiento del sistema. El monitoreo es el proceso de recolectar, almacenar, visualizar y alertar sobre esas métricas.

Tipos de métricas

Tipo	Comportamiento	Ejemplo	Cuándo usar
Counter	Solo incrementa	Requests totales, errores acumulados	Tasas (requests/s)
Gauge	Sube y baja	Memoria usada, conexiones activas	Estado actual del recurso
Histogram	Distribución de valores (server-side)	Latencia p50/p95/p99	Percentiles de latencia
Summary	Distribución de valores (client-side)	Latencia precalculada	Cuando no se puede agregar en servidor

The Four Golden Signals (Google SRE)

Latency: tiempo de respuesta
Traffic: volumen de requests
Errors: tasa de errores
Saturation: qué tan «lleno» está el sistema

Stack típico

Aplicación → Prometheus (recolección) → Grafana (visualización) → Alertmanager (alertas)

Mejores prácticas

USE method para recursos: Utilization, Saturation, Errors
RED method para servicios: Rate, Errors, Duration
Dashboards por servicio con los 4 golden signals
Alertas basadas en SLOs, no en métricas arbitrarias

¿Por qué importa?

Referencias

Prometheus — Sistema de monitoreo CNCF.
Grafana — Plataforma de visualización.
OpenTelemetry Metrics — OpenTelemetry, 2024. Estándar abierto para métricas.

Métricas y Monitoreo

¿Qué es?

Tipos de métricas

The Four Golden Signals (Google SRE)

Stack típico

Mejores prácticas

¿Por qué importa?

Referencias

Contenido relacionado

Métricas y Monitoreo

¿Qué es?

Tipos de métricas

The Four Golden Signals (Google SRE)

Stack típico

Mejores prácticas

¿Por qué importa?

Referencias

Contenido relacionado