Métricas de Evaluación de IA
Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.
¿Qué es?
Evaluar sistemas de IA es fundamentalmente diferente a evaluar software tradicional. No hay una respuesta «correcta» única — la calidad es subjetiva, contextual y multidimensional. Las métricas de evaluación proporcionan frameworks para medir qué tan bien funciona un sistema de IA en diferentes dimensiones.
Dimensiones de evaluación
Calidad de respuesta
- Relevancia: ¿la respuesta aborda la pregunta?
- Precisión factual: ¿los hechos son correctos?
- Completitud: ¿cubre todos los aspectos relevantes?
- Coherencia: ¿es lógica y bien estructurada?
Benchmarks estándar
| Benchmark | Mide |
|---|---|
| MMLU | Conocimiento general multitarea |
| HumanEval | Generación de código |
| GSM8K | Razonamiento matemático |
| TruthfulQA | Veracidad y resistencia a mitos |
| MT-Bench | Calidad conversacional |
Evaluación de RAG
- Faithfulness: fidelidad al contexto recuperado
- Answer relevancy: relevancia de la respuesta a la pregunta
- Context precision: precisión del contexto recuperado
- Context recall: cobertura del contexto necesario
Evaluación de agentes
- Task completion rate: porcentaje de tareas completadas exitosamente
- Efficiency: pasos/tokens necesarios para completar la tarea
- Tool selection accuracy: selección correcta de herramientas
- Error recovery: capacidad de recuperarse de errores
Métodos de evaluación
- Automática: métricas computables (BLEU, ROUGE, BERTScore)
- LLM-as-judge: usar un LLM para evaluar las respuestas de otro
- Humana: evaluadores humanos califican respuestas
- A/B testing: comparar sistemas en producción con usuarios reales
Frameworks
- RAGAS: evaluación de pipelines RAG
- DeepEval: evaluación de LLMs con métricas predefinidas
- Promptfoo: testing de prompts con assertions
¿Por qué importa?
Sin métricas de evaluación rigurosas, es imposible saber si un sistema de IA está mejorando o degradándose. Los benchmarks genéricos no capturan el rendimiento en tu dominio específico — las evaluaciones custom son lo que separa los sistemas de IA confiables de los que alucinan sin que nadie lo detecte.
Referencias
- Judging LLM-as-a-Judge — Zheng et al., 2023.
- RAGAS: Automated Evaluation of RAG — Es et al., 2023.
- A Survey on Evaluation of LLMs — Chang et al., 2023. Survey completo de métricas de evaluación para LLMs.