Conceptos

Métricas de Evaluación de IA

Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.

seed#evaluation#benchmarks#metrics#llm#quality#testing

¿Qué es?

Evaluar sistemas de IA es fundamentalmente diferente a evaluar software tradicional. No hay una respuesta «correcta» única — la calidad es subjetiva, contextual y multidimensional. Las métricas de evaluación proporcionan frameworks para medir qué tan bien funciona un sistema de IA en diferentes dimensiones.

Dimensiones de evaluación

Calidad de respuesta

  • Relevancia: ¿la respuesta aborda la pregunta?
  • Precisión factual: ¿los hechos son correctos?
  • Completitud: ¿cubre todos los aspectos relevantes?
  • Coherencia: ¿es lógica y bien estructurada?

Benchmarks estándar

BenchmarkMide
MMLUConocimiento general multitarea
HumanEvalGeneración de código
GSM8KRazonamiento matemático
TruthfulQAVeracidad y resistencia a mitos
MT-BenchCalidad conversacional

Evaluación de RAG

  • Faithfulness: fidelidad al contexto recuperado
  • Answer relevancy: relevancia de la respuesta a la pregunta
  • Context precision: precisión del contexto recuperado
  • Context recall: cobertura del contexto necesario

Evaluación de agentes

  • Task completion rate: porcentaje de tareas completadas exitosamente
  • Efficiency: pasos/tokens necesarios para completar la tarea
  • Tool selection accuracy: selección correcta de herramientas
  • Error recovery: capacidad de recuperarse de errores

Métodos de evaluación

  • Automática: métricas computables (BLEU, ROUGE, BERTScore)
  • LLM-as-judge: usar un LLM para evaluar las respuestas de otro
  • Humana: evaluadores humanos califican respuestas
  • A/B testing: comparar sistemas en producción con usuarios reales

Frameworks

  • RAGAS: evaluación de pipelines RAG
  • DeepEval: evaluación de LLMs con métricas predefinidas
  • Promptfoo: testing de prompts con assertions

¿Por qué importa?

Sin métricas de evaluación rigurosas, es imposible saber si un sistema de IA está mejorando o degradándose. Los benchmarks genéricos no capturan el rendimiento en tu dominio específico — las evaluaciones custom son lo que separa los sistemas de IA confiables de los que alucinan sin que nadie lo detecte.

Referencias

Conceptos