Content Agent QA Review: PR #187

¿Qué pasó?

El agente de contenido generó el PR #187 para upgradar ai-coding-assistants de seed a evergreen. La revisión manual encontró tres errores factuales que el pipeline automatizado no detectó.

Hallazgos

1. Referencia alucinada

El agente citó «The Programmer's Brain in the Era of AI» con URL research.google/pubs/pub52966/. Esa URL existe (HTTP 200), pero apunta a un paper de NLP médico titulado «Structured Understanding of Assessment and Plans in Clinical Documentation» (Yaya-Stupp et al., medRxiv 2022). El título, el año y el tema fueron inventados.

Por qué no se detectó: el QA agent verifica que las URLs retornen HTTP 200, pero no verifica que el contenido de la página coincida con el título citado. Un 200 no significa que la referencia sea correcta.

2. Cifra sin fuente verificable

La sección «¿Por qué importa?» afirmaba «aumentos de productividad del 20-40%» sin citar un estudio específico. El paper de GitHub (Peng et al., 2023) midió 55.8% en una tarea específica. El estudio interno de Google midió ~21%. Ninguna fuente citada respalda el rango «20-40%».

Por qué no se detectó: el QA agent con --deep busca «unsourced claims» pero no cruza las cifras del texto contra las cifras reales de las referencias citadas.

3. Precio incorrecto

La tabla de comparación listaba Kiro a $25/mes. El precio real es $20/mes (Pro) según kiro.dev/pricing. Los precios cambian — el agente probablemente usó datos de entrenamiento desactualizados.

Por qué no se detectó: no hay verificación de precios en el pipeline. Los precios son datos volátiles que el LLM no puede verificar sin acceso web en tiempo real.

¿Qué funcionó bien?

La estructura ES↔EN fue correcta y simétrica
Las cross-references se expandieron de 2 a 5 conceptos, todos válidos
Los links internos usan rutas /concepts/slug correctamente
La tabla de comparación con herramientas reales es sustantiva
La sección de seguridad agrega profundidad genuina
Las 4 URLs legítimas retornaron HTTP 200

¿Qué necesita mejorar?

Corto plazo

Mejora	Esfuerzo	Impacto
Verificar que el título de la referencia aparezca en la página	Medio — requiere fetch + búsqueda de texto	Alto — elimina alucinaciones de referencias
Cruzar cifras del texto contra las referencias citadas	Alto — requiere comprensión semántica	Alto — elimina estadísticas inventadas
Agregar advertencia en el prompt sobre precios y datos volátiles	Bajo — cambio de prompt	Medio — reduce errores de datos desactualizados

Mediano plazo

Verificación semántica de referencias: después de verificar HTTP 200, hacer fetch del <title> de la página y comparar con el título citado. Si no coincide, marcar como sospechoso.
Validación de claims cuantitativos: extraer cifras del texto y verificar que al menos una referencia las respalde. Esto requiere un paso adicional de LLM o una heurística de extracción.
Datos volátiles: mantener un archivo de datos verificados (precios, versiones, fechas de lanzamiento) que el agente consulte en lugar de depender de su entrenamiento.

Correcciones aplicadas

Precio de Kiro: $25 → $20 Pro
Referencia alucinada reemplazada por Peng et al., 2023 (paper real del experimento de Copilot)
Referencia débil de SO reemplazada por Google Research ML code completion
Cifra «20-40%» reemplazada por 55.8% con cita al paper de Peng et al.

Referencias

PR #187: upgrade concepts/ai-coding-assistants to evergreen — jonmatum/jonmatum.com, 2026. El PR revisado.
The Impact of AI on Developer Productivity: Evidence from GitHub Copilot — Peng et al., 2023. Experimento controlado que midió 55.8% de mejora.
ML-Enhanced Code Completion Improves Developer Productivity — Google Research, 2022. Evaluación interna de autocompletado con ML.

Hallazgos

1. Referencia alucinada

2. Cifra sin fuente verificable

Por qué no se detectó: el QA agent con --deep busca «unsourced claims» pero no cruza las cifras del texto contra las cifras reales de las referencias citadas.

3. Precio incorrecto

La tabla de comparación listaba Kiro a $25/mes. El precio real es $20/mes (Pro) según kiro.dev/pricing. Los precios cambian — el agente probablemente usó datos de entrenamiento desactualizados.

Por qué no se detectó: no hay verificación de precios en el pipeline. Los precios son datos volátiles que el LLM no puede verificar sin acceso web en tiempo real.

¿Qué funcionó bien?

La estructura ES↔EN fue correcta y simétrica

Las cross-references se expandieron de 2 a 5 conceptos, todos válidos

Los links internos usan rutas /concepts/slug correctamente

La tabla de comparación con herramientas reales es sustantiva

La sección de seguridad agrega profundidad genuina

Las 4 URLs legítimas retornaron HTTP 200

¿Qué necesita mejorar?

Corto plazo

Mejora	Esfuerzo	Impacto
Verificar que el título de la referencia aparezca en la página	Medio — requiere fetch + búsqueda de texto	Alto — elimina alucinaciones de referencias
Cruzar cifras del texto contra las referencias citadas	Alto — requiere comprensión semántica	Alto — elimina estadísticas inventadas
Agregar advertencia en el prompt sobre precios y datos volátiles	Bajo — cambio de prompt	Medio — reduce errores de datos desactualizados

Mediano plazo

Verificación semántica de referencias: después de verificar HTTP 200, hacer fetch del <title> de la página y comparar con el título citado. Si no coincide, marcar como sospechoso.

Validación de claims cuantitativos: extraer cifras del texto y verificar que al menos una referencia las respalde. Esto requiere un paso adicional de LLM o una heurística de extracción.

Datos volátiles: mantener un archivo de datos verificados (precios, versiones, fechas de lanzamiento) que el agente consulte en lugar de depender de su entrenamiento.

Revisión QA del agente de contenido: PR #187

¿Qué pasó?

Hallazgos

1. Referencia alucinada

2. Cifra sin fuente verificable

3. Precio incorrecto

¿Qué funcionó bien?

¿Qué necesita mejorar?

Corto plazo

Mediano plazo

Correcciones aplicadas

Referencias

Contenido relacionado

Revisión QA del agente de contenido: PR #187

¿Qué pasó?

Hallazgos

1. Referencia alucinada

2. Cifra sin fuente verificable

3. Precio incorrecto

¿Qué funcionó bien?

¿Qué necesita mejorar?

Corto plazo

Mediano plazo

Correcciones aplicadas

Referencias

Contenido relacionado