Conceptos

Observabilidad de IA

Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.

seed#observability#llm#monitoring#tracing#langfuse#production#metrics

¿Qué es?

La observabilidad de IA extiende las prácticas tradicionales de observabilidad — logs, métricas y trazas — al dominio de los sistemas de inteligencia artificial. Mientras que en software convencional se monitorean tiempos de respuesta y tasas de error, en sistemas de IA se necesita además rastrear el consumo de tokens, la calidad de las respuestas, los costos por llamada y la presencia de alucinaciones.

La diferencia fundamental es que los LLMs son no deterministas: la misma entrada puede producir salidas diferentes. Esto hace que la observabilidad no sea solo operacional sino también cualitativa.

Los tres pilares aplicados a IA

Trazas (Traces)

En un sistema de IA, una traza captura el recorrido completo de una solicitud a través del pipeline:

Usuario → Prompt → Retrieval (RAG) → LLM Call → Tool Use → LLM Call → Respuesta
  │         │           │                │           │          │          │
  └─ trace_id: abc-123 ─┴───────────────┴───────────┴──────────┴──────────┘

Cada paso registra: tokens de entrada/salida, latencia, modelo usado, costo y resultado. Esto es especialmente crítico en flujos agénticos donde el modelo puede iterar múltiples veces.

Métricas

MétricaDescripción¿Por qué importa?
TTFT (Time to First Token)Latencia hasta el primer tokenExperiencia del usuario
Tokens por segundoVelocidad de generaciónThroughput del sistema
Costo por requestTokens × precio del modeloControl presupuestario
Tasa de alucinaciónRespuestas con información fabricadaConfiabilidad
Tasa de rechazoRequests que el modelo no pudo completarCobertura funcional
Satisfacción del usuarioFeedback explícito o implícitoCalidad percibida

Logs

Registro detallado de prompts, respuestas, decisiones de herramientas y errores. A diferencia de logs tradicionales, los logs de IA incluyen el contenido completo de las interacciones para permitir reproducción y depuración.

Herramientas del ecosistema

HerramientaTipoCaracterísticas
LangfuseOpen sourceTrazas, evaluaciones, gestión de prompts
LangSmithComercial (LangChain)Trazas, datasets de evaluación, playground
Arize PhoenixOpen sourceTrazas, detección de drift, evaluaciones
BraintrustComercialEvaluaciones, logging, comparación de modelos
OpenTelemetry + extensionesEstándar abiertoIntegración con infraestructura existente de trazado distribuido

Evaluaciones en producción

La observabilidad de IA incluye evaluaciones continuas — no solo en desarrollo sino en producción:

  • LLM-as-judge: usar un modelo para evaluar las respuestas de otro
  • Evaluaciones heurísticas: reglas sobre longitud, formato, presencia de fuentes
  • Feedback humano: thumbs up/down, correcciones, escalaciones
  • Métricas de negocio: tasa de resolución, tiempo de sesión, conversión

¿Por qué importa?

Sin observabilidad, un sistema de IA en producción es una caja negra costosa. Los equipos no pueden:

  • Detectar degradación de calidad antes de que los usuarios la reporten
  • Optimizar costos identificando llamadas innecesarias o modelos sobredimensionados
  • Depurar por qué un agente tomó una decisión incorrecta
  • Cumplir requisitos de auditoría y compliance

Referencias

Conceptos