jonmatumalpha
conceptosnotasexperimentosensayos

© 2026 Jonatan Mata · alpha · v0.1.0

Notas

Revisión QA del agente de contenido: PR #187

Hallazgos de la revisión manual del PR

growing#content-automation#qa#hallucination#agentic-workflows#lessons-learned

¿Qué pasó?

El agente de contenido generó el PR #187 para upgradar ai-coding-assistants de seed a evergreen. La revisión manual encontró tres errores factuales que el pipeline automatizado no detectó.

Hallazgos

1. Referencia alucinada

El agente citó «The Programmer's Brain in the Era of AI» con URL research.google/pubs/pub52966/. Esa URL existe (HTTP 200), pero apunta a un paper de NLP médico titulado «Structured Understanding of Assessment and Plans in Clinical Documentation» (Yaya-Stupp et al., medRxiv 2022). El título, el año y el tema fueron inventados.

Por qué no se detectó: el QA agent verifica que las URLs retornen HTTP 200, pero no verifica que el contenido de la página coincida con el título citado. Un 200 no significa que la referencia sea correcta.

2. Cifra sin fuente verificable

La sección «¿Por qué importa?» afirmaba «aumentos de productividad del 20-40%» sin citar un estudio específico. El paper de GitHub (Peng et al., 2023) midió 55.8% en una tarea específica. El estudio interno de Google midió ~21%. Ninguna fuente citada respalda el rango «20-40%».

Por qué no se detectó: el QA agent con --deep busca «unsourced claims» pero no cruza las cifras del texto contra las cifras reales de las referencias citadas.

3. Precio incorrecto

La tabla de comparación listaba Kiro a $25/mes. El precio real es $20/mes (Pro) según kiro.dev/pricing. Los precios cambian — el agente probablemente usó datos de entrenamiento desactualizados.

Por qué no se detectó: no hay verificación de precios en el pipeline. Los precios son datos volátiles que el LLM no puede verificar sin acceso web en tiempo real.

¿Qué funcionó bien?

  • La estructura ES↔EN fue correcta y simétrica
  • Las cross-references se expandieron de 2 a 5 conceptos, todos válidos
  • Los links internos usan rutas /concepts/slug correctamente
  • La tabla de comparación con herramientas reales es sustantiva
  • La sección de seguridad agrega profundidad genuina
  • Las 4 URLs legítimas retornaron HTTP 200

¿Qué necesita mejorar?

Corto plazo

MejoraEsfuerzoImpacto
Verificar que el título de la referencia aparezca en la páginaMedio — requiere fetch + búsqueda de textoAlto — elimina alucinaciones de referencias
Cruzar cifras del texto contra las referencias citadasAlto — requiere comprensión semánticaAlto — elimina estadísticas inventadas
Agregar advertencia en el prompt sobre precios y datos volátilesBajo — cambio de promptMedio — reduce errores de datos desactualizados

Mediano plazo

  • Verificación semántica de referencias: después de verificar HTTP 200, hacer fetch del <title> de la página y comparar con el título citado. Si no coincide, marcar como sospechoso.
  • Validación de claims cuantitativos: extraer cifras del texto y verificar que al menos una referencia las respalde. Esto requiere un paso adicional de LLM o una heurística de extracción.
  • Datos volátiles: mantener un archivo de datos verificados (precios, versiones, fechas de lanzamiento) que el agente consulte en lugar de depender de su entrenamiento.

Correcciones aplicadas

  • Precio de Kiro: $25 → $20 Pro
  • Referencia alucinada reemplazada por Peng et al., 2023 (paper real del experimento de Copilot)
  • Referencia débil de SO reemplazada por Google Research ML code completion
  • Cifra «20-40%» reemplazada por 55.8% con cita al paper de Peng et al.

Referencias

  • PR #187: upgrade concepts/ai-coding-assistants to evergreen — jonmatum/jonmatum.com, 2026. El PR revisado.
  • The Impact of AI on Developer Productivity: Evidence from GitHub Copilot — Peng et al., 2023. Experimento controlado que midió 55.8% de mejora.
  • ML-Enhanced Code Completion Improves Developer Productivity — Google Research, 2022. Evaluación interna de autocompletado con ML.

Contenido relacionado

  • Agentes de IA

    Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.

  • Mitigación de Alucinaciones

    Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.

  • Asistentes de Código con IA

    Herramientas que usan LLMs para ayudar a desarrolladores a escribir, entender, depurar y refactorizar código, desde autocompletado hasta agentes que implementan features completas.

Notas