Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Observabilidad

Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.

seed#observability#monitoring#logs#metrics#traces#opentelemetry

¿Qué es?

Observabilidad es la capacidad de entender qué está pasando dentro de un sistema basándose en los datos que produce. A diferencia del monitoreo (que verifica condiciones conocidas), la observabilidad permite investigar problemas desconocidos.

Los tres pilares

Logs

Registros textuales de eventos:

  • Structured logging (JSON) para búsqueda eficiente
  • Niveles: DEBUG, INFO, WARN, ERROR
  • Correlación con trace IDs

Métricas

Mediciones numéricas agregadas en el tiempo:

  • Counters: valores que solo incrementan
  • Gauges: valores que suben y bajan
  • Histograms: distribución de valores

Traces

Seguimiento de requests a través de servicios distribuidos:

  • Span: unidad de trabajo
  • Trace: conjunto de spans relacionados
  • Context propagation: pasar trace ID entre servicios

OpenTelemetry

Estándar CNCF que unifica la instrumentación de logs, métricas y traces con SDKs para todos los lenguajes principales.

Herramientas

HerramientaTipo
GrafanaDashboards
PrometheusMétricas
Jaeger/TempoTraces
LokiLogs
DatadogAll-in-one
AWS CloudWatchAWS native

¿Por qué importa?

La observabilidad es lo que permite entender el comportamiento de un sistema en producción sin predecir de antemano qué preguntas necesitarás responder. A diferencia del monitoreo tradicional, que verifica condiciones conocidas, la observabilidad permite investigar lo desconocido.

Referencias

  • OpenTelemetry — Estándar de observabilidad.
  • Observability Engineering — Charity Majors et al.
  • OpenTelemetry Documentation — OpenTelemetry, 2024. Documentación completa del estándar.

Contenido relacionado

  • Prácticas DevOps

    Conjunto de prácticas técnicas y culturales que implementan los principios DevOps — desde Infrastructure as Code hasta blameless post-mortems. El «cómo» detrás de la filosofía.

  • Ingeniería de Plataforma

    Disciplina que diseña y construye plataformas internas de autoservicio para que los equipos de desarrollo desplieguen y operen aplicaciones de forma autónoma.

  • Observabilidad de IA

    Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.

  • Optimización de Costos

    Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.

  • Ingeniería de Confiabilidad del Sitio

    Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.

  • Métricas y Monitoreo

    Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.

  • Estrategias de Logging

    Prácticas para implementar logging efectivo en sistemas distribuidos: structured logging, niveles, correlación y agregación centralizada.

  • Gestión de Incidentes

    Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.

  • Trazado Distribuido

    Técnica de observabilidad que rastrea requests a través de múltiples servicios en sistemas distribuidos, permitiendo identificar cuellos de botella y diagnosticar fallos.

  • Ingeniería del Caos

    Disciplina de experimentar en sistemas de producción para descubrir debilidades antes de que causen incidentes, inyectando fallos controlados.

  • AWS SQS

    Servicio de colas de mensajes completamente administrado de AWS que desacopla componentes de aplicaciones distribuidas, garantizando la entrega de mensajes con escalabilidad ilimitada.

  • AWS SNS

    Servicio de mensajería pub/sub de AWS que distribuye mensajes a múltiples suscriptores simultáneamente, habilitando patrones de fan-out y notificaciones a escala.

  • AWS EventBridge

    Bus de eventos serverless de AWS que conecta aplicaciones usando eventos, permitiendo arquitecturas desacopladas y event-driven con enrutamiento basado en reglas.

  • Diseño de APIs

    Principios y prácticas para diseñar interfaces de programación claras, consistentes y evolucionables que faciliten la integración entre sistemas.

  • Estrategias de Alertas

    Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.

Conceptos