Observabilidad de IA
Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.
¿Qué es?
La observabilidad de IA extiende las prácticas tradicionales de observabilidad — logs, métricas y trazas — al dominio de los sistemas de inteligencia artificial. Mientras que en software convencional se monitorean tiempos de respuesta y tasas de error, en sistemas de IA se necesita además rastrear el consumo de tokens, la calidad de las respuestas, los costos por llamada y la presencia de alucinaciones.
La diferencia fundamental es que los LLMs son no deterministas: la misma entrada puede producir salidas diferentes. Esto hace que la observabilidad no sea solo operacional sino también cualitativa.
Los tres pilares aplicados a IA
Trazas (Traces)
En un sistema de IA, una traza captura el recorrido completo de una solicitud a través del pipeline:
Usuario → Prompt → Retrieval (RAG) → LLM Call → Tool Use → LLM Call → Respuesta
│ │ │ │ │ │ │
└─ trace_id: abc-123 ─┴───────────────┴───────────┴──────────┴──────────┘
Cada paso registra: tokens de entrada/salida, latencia, modelo usado, costo y resultado. Esto es especialmente crítico en flujos agénticos donde el modelo puede iterar múltiples veces.
Métricas
| Métrica | Descripción | ¿Por qué importa? |
|---|---|---|
| TTFT (Time to First Token) | Latencia hasta el primer token | Experiencia del usuario |
| Tokens por segundo | Velocidad de generación | Throughput del sistema |
| Costo por request | Tokens × precio del modelo | Control presupuestario |
| Tasa de alucinación | Respuestas con información fabricada | Confiabilidad |
| Tasa de rechazo | Requests que el modelo no pudo completar | Cobertura funcional |
| Satisfacción del usuario | Feedback explícito o implícito | Calidad percibida |
Logs
Registro detallado de prompts, respuestas, decisiones de herramientas y errores. A diferencia de logs tradicionales, los logs de IA incluyen el contenido completo de las interacciones para permitir reproducción y depuración.
Herramientas del ecosistema
| Herramienta | Tipo | Características |
|---|---|---|
| Langfuse | Open source | Trazas, evaluaciones, gestión de prompts |
| LangSmith | Comercial (LangChain) | Trazas, datasets de evaluación, playground |
| Arize Phoenix | Open source | Trazas, detección de drift, evaluaciones |
| Braintrust | Comercial | Evaluaciones, logging, comparación de modelos |
| OpenTelemetry + extensiones | Estándar abierto | Integración con infraestructura existente de trazado distribuido |
Evaluaciones en producción
La observabilidad de IA incluye evaluaciones continuas — no solo en desarrollo sino en producción:
- LLM-as-judge: usar un modelo para evaluar las respuestas de otro
- Evaluaciones heurísticas: reglas sobre longitud, formato, presencia de fuentes
- Feedback humano: thumbs up/down, correcciones, escalaciones
- Métricas de negocio: tasa de resolución, tiempo de sesión, conversión
¿Por qué importa?
Sin observabilidad, un sistema de IA en producción es una caja negra costosa. Los equipos no pueden:
- Detectar degradación de calidad antes de que los usuarios la reporten
- Optimizar costos identificando llamadas innecesarias o modelos sobredimensionados
- Depurar por qué un agente tomó una decisión incorrecta
- Cumplir requisitos de auditoría y compliance
Referencias
- OpenLLMetry — Traceloop. Instrumentación OpenTelemetry para LLMs.
- Langfuse Documentation — Langfuse. Plataforma open source de observabilidad de LLMs.
- LLM Observability — Arize AI — Arize. Documentación de Phoenix para trazas y evaluaciones.