Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Métricas y Monitoreo

Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.

seed#metrics#monitoring#prometheus#grafana#dashboards#alerting

¿Qué es?

Métricas son mediciones numéricas agregadas en el tiempo que describen el comportamiento del sistema. El monitoreo es el proceso de recolectar, almacenar, visualizar y alertar sobre esas métricas.

Tipos de métricas

TipoComportamientoEjemploCuándo usar
CounterSolo incrementaRequests totales, errores acumuladosTasas (requests/s)
GaugeSube y bajaMemoria usada, conexiones activasEstado actual del recurso
HistogramDistribución de valores (server-side)Latencia p50/p95/p99Percentiles de latencia
SummaryDistribución de valores (client-side)Latencia precalculadaCuando no se puede agregar en servidor

The Four Golden Signals (Google SRE)

  1. Latency: tiempo de respuesta
  2. Traffic: volumen de requests
  3. Errors: tasa de errores
  4. Saturation: qué tan «lleno» está el sistema

Stack típico

Aplicación → Prometheus (recolección) → Grafana (visualización) → Alertmanager (alertas)

Mejores prácticas

  • USE method para recursos: Utilization, Saturation, Errors
  • RED method para servicios: Rate, Errors, Duration
  • Dashboards por servicio con los 4 golden signals
  • Alertas basadas en SLOs, no en métricas arbitrarias

¿Por qué importa?

Lo que no se mide no se mejora. Las métricas y el monitoreo convierten la intuición en datos, permitiendo detectar degradaciones antes de que impacten a los usuarios y tomar decisiones de capacidad basadas en evidencia.

Referencias

  • Prometheus — Sistema de monitoreo CNCF.
  • Grafana — Plataforma de visualización.
  • OpenTelemetry Metrics — OpenTelemetry, 2024. Estándar abierto para métricas.

Contenido relacionado

  • Observabilidad

    Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.

  • Ingeniería de Confiabilidad del Sitio

    Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.

  • Estrategias de Alertas

    Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.

Conceptos