Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.
Observabilidad es la capacidad de entender qué está pasando dentro de un sistema basándose en los datos que produce. A diferencia del monitoreo (que verifica condiciones conocidas), la observabilidad permite investigar problemas desconocidos.
Registros textuales de eventos:
Mediciones numéricas agregadas en el tiempo:
Seguimiento de requests a través de servicios distribuidos:
Estándar CNCF que unifica la instrumentación de logs, métricas y traces con SDKs para todos los lenguajes principales.
| Herramienta | Tipo |
|---|---|
| Grafana | Dashboards |
| Prometheus | Métricas |
| Jaeger/Tempo | Traces |
| Loki | Logs |
| Datadog | All-in-one |
| AWS CloudWatch | AWS native |
La observabilidad es lo que permite entender el comportamiento de un sistema en producción sin predecir de antemano qué preguntas necesitarás responder. A diferencia del monitoreo tradicional, que verifica condiciones conocidas, la observabilidad permite investigar lo desconocido.
Conjunto de prácticas técnicas y culturales que implementan los principios DevOps — desde Infrastructure as Code hasta blameless post-mortems. El «cómo» detrás de la filosofía.
Disciplina que diseña y construye plataformas internas de autoservicio para que los equipos de desarrollo desplieguen y operen aplicaciones de forma autónoma.
Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.
Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.
Disciplina que aplica principios de ingeniería de software a operaciones de infraestructura, enfocándose en crear sistemas escalables y altamente confiables.
Recolección y visualización de mediciones numéricas del sistema en el tiempo para entender rendimiento, detectar anomalías y tomar decisiones basadas en datos.
Prácticas para implementar logging efectivo en sistemas distribuidos: structured logging, niveles, correlación y agregación centralizada.
Procesos y prácticas para detectar, responder, resolver y aprender de incidentes de producción de forma estructurada y efectiva.
Técnica de observabilidad que rastrea requests a través de múltiples servicios en sistemas distribuidos, permitiendo identificar cuellos de botella y diagnosticar fallos.
Disciplina de experimentar en sistemas de producción para descubrir debilidades antes de que causen incidentes, inyectando fallos controlados.
Servicio de colas de mensajes completamente administrado de AWS que desacopla componentes de aplicaciones distribuidas, garantizando la entrega de mensajes con escalabilidad ilimitada.
Servicio de mensajería pub/sub de AWS que distribuye mensajes a múltiples suscriptores simultáneamente, habilitando patrones de fan-out y notificaciones a escala.
Bus de eventos serverless de AWS que conecta aplicaciones usando eventos, permitiendo arquitecturas desacopladas y event-driven con enrutamiento basado en reglas.
Principios y prácticas para diseñar interfaces de programación claras, consistentes y evolucionables que faciliten la integración entre sistemas.
Prácticas para configurar alertas efectivas que notifiquen problemas reales sin generar fatiga por exceso de notificaciones.