Técnica de observabilidad que rastrea requests a través de múltiples servicios en sistemas distribuidos, permitiendo identificar cuellos de botella y diagnosticar fallos.
El trazado distribuido rastrea una request desde su origen hasta su destino a través de todos los servicios que toca. Cada servicio genera un «span» con timing y metadata, y todos los spans se agrupan en un «trace» que muestra el flujo completo.
| Concepto | Descripción | Ejemplo |
|---|---|---|
| Trace | El viaje completo de una request | Request HTTP desde el cliente hasta la respuesta |
| Span | Una operación dentro del trace (inicio, fin, metadata) | Llamada a base de datos, invocación de servicio |
| Context propagation | Pasar el trace ID entre servicios | Header traceparent (W3C Trace Context) |
| Sampling | No trazar el 100% de requests para reducir costo | Head-based (1%), tail-based (solo errores) |
Cliente → API Gateway (span 1)
→ Auth Service (span 2)
→ Product Service (span 3)
→ Database (span 4)
→ Response
| Herramienta | Tipo |
|---|---|
| Jaeger | Open-source (CNCF) |
| Grafana Tempo | Open-source, integrado con Grafana |
| AWS X-Ray | Managed AWS |
| Datadog APM | SaaS |
| OpenTelemetry | Estándar de instrumentación |
En sistemas distribuidos, un request atraviesa múltiples servicios. Sin trazado distribuido, diagnosticar latencia o errores es como buscar una aguja en un pajar. Las trazas conectan los puntos entre servicios y revelan dónde se pierde el tiempo.
Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.
Estilo arquitectónico que estructura una aplicación como colección de servicios pequeños, independientes y desplegables, cada uno con su propia lógica de negocio y datos.
Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.
Patrón para gestionar transacciones distribuidas en microservicios mediante una secuencia de transacciones locales con acciones de compensación para manejar fallos.
Prácticas para implementar logging efectivo en sistemas distribuidos: structured logging, niveles, correlación y agregación centralizada.