AI Evaluation Metrics

¿Qué es?

Evaluar sistemas de IA es fundamentalmente diferente a evaluar software tradicional. No hay una respuesta «correcta» única — la calidad es subjetiva, contextual y multidimensional. Las métricas de evaluación proporcionan frameworks para medir qué tan bien funciona un sistema de IA en diferentes dimensiones.

Dimensiones de evaluación

Calidad de respuesta

Relevancia: ¿la respuesta aborda la pregunta?
Precisión factual: ¿los hechos son correctos?
Completitud: ¿cubre todos los aspectos relevantes?
Coherencia: ¿es lógica y bien estructurada?

Benchmarks estándar

Benchmark	Mide
MMLU	Conocimiento general multitarea
HumanEval	Generación de código
GSM8K	Razonamiento matemático
TruthfulQA	Veracidad y resistencia a mitos
MT-Bench	Calidad conversacional

Evaluación de RAG

Faithfulness: fidelidad al contexto recuperado
Answer relevancy: relevancia de la respuesta a la pregunta
Context precision: precisión del contexto recuperado
Context recall: cobertura del contexto necesario

Evaluación de agentes

Task completion rate: porcentaje de tareas completadas exitosamente
Efficiency: pasos/tokens necesarios para completar la tarea
Tool selection accuracy: selección correcta de herramientas
Error recovery: capacidad de recuperarse de errores

Métodos de evaluación

Automática: métricas computables (BLEU, ROUGE, BERTScore)
LLM-as-judge: usar un LLM para evaluar las respuestas de otro
Humana: evaluadores humanos califican respuestas
A/B testing: comparar sistemas en producción con usuarios reales

Frameworks

RAGAS: evaluación de pipelines RAG
DeepEval: evaluación de LLMs con métricas predefinidas
Promptfoo: testing de prompts con assertions

¿Por qué importa?

Sin métricas de evaluación rigurosas, es imposible saber si un sistema de IA está mejorando o degradándose. Los benchmarks genéricos no capturan el rendimiento en tu dominio específico — las evaluaciones custom son lo que separa los sistemas de IA confiables de los que alucinan sin que nadie lo detecte.

Referencias

Judging LLM-as-a-Judge — Zheng et al., 2023.
RAGAS: Automated Evaluation of RAG — Es et al., 2023.
A Survey on Evaluation of LLMs — Chang et al., 2023. Survey completo de métricas de evaluación para LLMs.

¿Qué es?

Dimensiones de evaluación

Calidad de respuesta

Relevancia: ¿la respuesta aborda la pregunta?
Precisión factual: ¿los hechos son correctos?
Completitud: ¿cubre todos los aspectos relevantes?
Coherencia: ¿es lógica y bien estructurada?

Benchmarks estándar

Benchmark	Mide
MMLU	Conocimiento general multitarea
HumanEval	Generación de código
GSM8K	Razonamiento matemático
TruthfulQA	Veracidad y resistencia a mitos
MT-Bench	Calidad conversacional

Evaluación de RAG

Faithfulness: fidelidad al contexto recuperado
Answer relevancy: relevancia de la respuesta a la pregunta
Context precision: precisión del contexto recuperado
Context recall: cobertura del contexto necesario

Evaluación de agentes

Task completion rate: porcentaje de tareas completadas exitosamente
Efficiency: pasos/tokens necesarios para completar la tarea
Tool selection accuracy: selección correcta de herramientas
Error recovery: capacidad de recuperarse de errores

Métodos de evaluación

Automática: métricas computables (BLEU, ROUGE, BERTScore)
LLM-as-judge: usar un LLM para evaluar las respuestas de otro
Humana: evaluadores humanos califican respuestas
A/B testing: comparar sistemas en producción con usuarios reales

Frameworks

RAGAS: evaluación de pipelines RAG
DeepEval: evaluación de LLMs con métricas predefinidas
Promptfoo: testing de prompts con assertions

¿Por qué importa?

Referencias

Judging LLM-as-a-Judge — Zheng et al., 2023.
RAGAS: Automated Evaluation of RAG — Es et al., 2023.
A Survey on Evaluation of LLMs — Chang et al., 2023. Survey completo de métricas de evaluación para LLMs.

Métricas de Evaluación de IA

¿Qué es?

Dimensiones de evaluación

Calidad de respuesta

Benchmarks estándar

Evaluación de RAG

Evaluación de agentes

Métodos de evaluación

Frameworks

¿Por qué importa?

Referencias

Contenido relacionado

Métricas de Evaluación de IA

¿Qué es?

Dimensiones de evaluación

Calidad de respuesta

Benchmarks estándar

Evaluación de RAG

Evaluación de agentes

Métodos de evaluación

Frameworks

¿Por qué importa?

Referencias

Contenido relacionado