Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.
La observabilidad de IA extiende las prácticas tradicionales de observabilidad — logs, métricas y trazas — al dominio de los sistemas de inteligencia artificial. Mientras que en software convencional se monitorean tiempos de respuesta y tasas de error, en sistemas de IA se necesita además rastrear el consumo de tokens, la calidad de las respuestas, los costos por llamada y la presencia de alucinaciones.
La diferencia fundamental es que los LLMs son no deterministas: la misma entrada puede producir salidas diferentes. Esto hace que la observabilidad no sea solo operacional sino también cualitativa — necesitamos medir no solo «¿funcionó?» sino «¿la respuesta fue buena?».
En un sistema de IA, una traza captura el recorrido completo de una solicitud a través del pipeline:
Usuario → Prompt → Retrieval (RAG) → LLM Call → Tool Use → LLM Call → Respuesta
│ │ │ │ │ │ │
└─ trace_id: abc-123 ─┴───────────────┴───────────┴──────────┴──────────┘
Cada paso registra: tokens de entrada/salida, latencia, modelo usado, costo y resultado. Esto es especialmente crítico en flujos agénticos donde el modelo puede iterar múltiples veces.
| Métrica | Descripción | ¿Por qué importa? |
|---|---|---|
| TTFT (Time to First Token) | Latencia hasta el primer token | Experiencia del usuario |
| Tokens por segundo | Velocidad de generación | Throughput del sistema |
| Costo por request | Tokens × precio del modelo | Control presupuestario |
| Tasa de alucinación | Respuestas con información fabricada | Confiabilidad |
| Tasa de rechazo | Requests que el modelo no pudo completar | Cobertura funcional |
| Satisfacción del usuario | Feedback explícito o implícito | Calidad percibida |
Registro detallado de prompts, respuestas, decisiones de herramientas y errores. A diferencia de logs tradicionales, los logs de IA incluyen el contenido completo de las interacciones para permitir reproducción y depuración.
| Herramienta | Tipo | Características |
|---|---|---|
| Langfuse | Open source | Trazas, evaluaciones, gestión de prompts |
| LangSmith | Comercial (LangChain) | Trazas, datasets de evaluación, playground |
| Arize Phoenix | Open source | Trazas, detección de drift, evaluaciones |
| Braintrust | Comercial | Evaluaciones, logging, comparación de modelos |
| OpenTelemetry + extensiones | Estándar abierto | Integración con infraestructura existente de trazado distribuido |
La observabilidad de IA incluye evaluaciones continuas — no solo en desarrollo sino en producción:
El costo de un sistema de IA en producción puede crecer rápidamente sin visibilidad. Un dashboard de costos efectivo rastrea:
La combinación de trazas con metadatos de costo permite responder preguntas como «¿cuánto cuesta en promedio resolver un ticket de soporte con el agente?» — información crítica para decisiones de producto.
Sin observabilidad, un sistema de IA en producción es una caja negra costosa. Los equipos no pueden:
Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.
Técnica de observabilidad que rastrea requests a través de múltiples servicios en sistemas distribuidos, permitiendo identificar cuellos de botella y diagnosticar fallos.
Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.
Patrones y frameworks para coordinar múltiples modelos de IA, herramientas y fuentes de datos en pipelines de producción, gestionando el flujo entre componentes, la memoria y la recuperación de errores.
Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.