Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Observabilidad de IA

Prácticas y herramientas para monitorear, trazar y depurar sistemas de IA en producción, cubriendo métricas de tokens, latencia, calidad de respuestas, costos y detección de alucinaciones.

evergreen#observability#llm#monitoring#tracing#langfuse#production#metrics

¿Qué es?

La observabilidad de IA extiende las prácticas tradicionales de observabilidad — logs, métricas y trazas — al dominio de los sistemas de inteligencia artificial. Mientras que en software convencional se monitorean tiempos de respuesta y tasas de error, en sistemas de IA se necesita además rastrear el consumo de tokens, la calidad de las respuestas, los costos por llamada y la presencia de alucinaciones.

La diferencia fundamental es que los LLMs son no deterministas: la misma entrada puede producir salidas diferentes. Esto hace que la observabilidad no sea solo operacional sino también cualitativa — necesitamos medir no solo «¿funcionó?» sino «¿la respuesta fue buena?».

Los tres pilares aplicados a IA

Trazas (Traces)

En un sistema de IA, una traza captura el recorrido completo de una solicitud a través del pipeline:

Usuario → Prompt → Retrieval (RAG) → LLM Call → Tool Use → LLM Call → Respuesta
  │         │           │                │           │          │          │
  └─ trace_id: abc-123 ─┴───────────────┴───────────┴──────────┴──────────┘

Cada paso registra: tokens de entrada/salida, latencia, modelo usado, costo y resultado. Esto es especialmente crítico en flujos agénticos donde el modelo puede iterar múltiples veces.

Métricas

MétricaDescripción¿Por qué importa?
TTFT (Time to First Token)Latencia hasta el primer tokenExperiencia del usuario
Tokens por segundoVelocidad de generaciónThroughput del sistema
Costo por requestTokens × precio del modeloControl presupuestario
Tasa de alucinaciónRespuestas con información fabricadaConfiabilidad
Tasa de rechazoRequests que el modelo no pudo completarCobertura funcional
Satisfacción del usuarioFeedback explícito o implícitoCalidad percibida

Logs

Registro detallado de prompts, respuestas, decisiones de herramientas y errores. A diferencia de logs tradicionales, los logs de IA incluyen el contenido completo de las interacciones para permitir reproducción y depuración.

Herramientas del ecosistema

HerramientaTipoCaracterísticas
LangfuseOpen sourceTrazas, evaluaciones, gestión de prompts
LangSmithComercial (LangChain)Trazas, datasets de evaluación, playground
Arize PhoenixOpen sourceTrazas, detección de drift, evaluaciones
BraintrustComercialEvaluaciones, logging, comparación de modelos
OpenTelemetry + extensionesEstándar abiertoIntegración con infraestructura existente de trazado distribuido

Evaluaciones en producción

La observabilidad de IA incluye evaluaciones continuas — no solo en desarrollo sino en producción:

  • LLM-as-judge: usar un modelo para evaluar las respuestas de otro
  • Evaluaciones heurísticas: reglas sobre longitud, formato, presencia de fuentes
  • Feedback humano: thumbs up/down, correcciones, escalaciones
  • Métricas de negocio: tasa de resolución, tiempo de sesión, conversión

Rastreo de costos

El costo de un sistema de IA en producción puede crecer rápidamente sin visibilidad. Un dashboard de costos efectivo rastrea:

  • Costo por usuario/sesión: identifica usuarios o flujos que consumen desproporcionadamente
  • Costo por modelo: compara el gasto entre proveedores y modelos para optimizar la selección
  • Costo por feature: atribuye el gasto a funcionalidades específicas del producto
  • Tendencia diaria/semanal: detecta anomalías antes de que se conviertan en facturas sorpresa
  • Tokens desperdiciados: identifica llamadas con contexto excesivo o respuestas truncadas que se repiten

La combinación de trazas con metadatos de costo permite responder preguntas como «¿cuánto cuesta en promedio resolver un ticket de soporte con el agente?» — información crítica para decisiones de producto.

¿Por qué importa?

Sin observabilidad, un sistema de IA en producción es una caja negra costosa. Los equipos no pueden:

  • Detectar degradación de calidad antes de que los usuarios la reporten
  • Optimizar costos identificando llamadas innecesarias o modelos sobredimensionados
  • Depurar por qué un agente tomó una decisión incorrecta
  • Cumplir requisitos de auditoría y compliance

Referencias

  • OpenLLMetry — Traceloop. Instrumentación OpenTelemetry para LLMs.
  • Langfuse Documentation — Langfuse. Plataforma open source de observabilidad de LLMs.
  • LLM Observability — Arize AI — Arize. Documentación de Phoenix para trazas y evaluaciones.
  • GenAI Semantic Conventions — OpenTelemetry — OpenTelemetry, 2024. Convenciones semánticas para instrumentar sistemas de IA generativa.
  • Braintrust Documentation — Braintrust, 2024. Plataforma de evaluación y logging para LLMs.

Contenido relacionado

  • Observabilidad

    Capacidad de entender el estado interno de un sistema a partir de sus outputs externos: logs, métricas y traces, permitiendo diagnosticar problemas sin acceso directo al sistema.

  • Trazado Distribuido

    Técnica de observabilidad que rastrea requests a través de múltiples servicios en sistemas distribuidos, permitiendo identificar cuellos de botella y diagnosticar fallos.

  • Métricas de Evaluación de IA

    Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.

  • Orquestación de IA

    Patrones y frameworks para coordinar múltiples modelos de IA, herramientas y fuentes de datos en pipelines de producción, gestionando el flujo entre componentes, la memoria y la recuperación de errores.

  • Optimización de Costos

    Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.

Conceptos