Hallazgos de la revisión manual del PR
El agente de contenido generó el PR #187 para upgradar ai-coding-assistants de seed a evergreen. La revisión manual encontró tres errores factuales que el pipeline automatizado no detectó.
El agente citó «The Programmer's Brain in the Era of AI» con URL research.google/pubs/pub52966/. Esa URL existe (HTTP 200), pero apunta a un paper de NLP médico titulado «Structured Understanding of Assessment and Plans in Clinical Documentation» (Yaya-Stupp et al., medRxiv 2022). El título, el año y el tema fueron inventados.
Por qué no se detectó: el QA agent verifica que las URLs retornen HTTP 200, pero no verifica que el contenido de la página coincida con el título citado. Un 200 no significa que la referencia sea correcta.
La sección «¿Por qué importa?» afirmaba «aumentos de productividad del 20-40%» sin citar un estudio específico. El paper de GitHub (Peng et al., 2023) midió 55.8% en una tarea específica. El estudio interno de Google midió ~21%. Ninguna fuente citada respalda el rango «20-40%».
Por qué no se detectó: el QA agent con --deep busca «unsourced claims» pero no cruza las cifras del texto contra las cifras reales de las referencias citadas.
La tabla de comparación listaba Kiro a $25/mes. El precio real es $20/mes (Pro) según kiro.dev/pricing. Los precios cambian — el agente probablemente usó datos de entrenamiento desactualizados.
Por qué no se detectó: no hay verificación de precios en el pipeline. Los precios son datos volátiles que el LLM no puede verificar sin acceso web en tiempo real.
/concepts/slug correctamente| Mejora | Esfuerzo | Impacto |
|---|---|---|
| Verificar que el título de la referencia aparezca en la página | Medio — requiere fetch + búsqueda de texto | Alto — elimina alucinaciones de referencias |
| Cruzar cifras del texto contra las referencias citadas | Alto — requiere comprensión semántica | Alto — elimina estadísticas inventadas |
| Agregar advertencia en el prompt sobre precios y datos volátiles | Bajo — cambio de prompt | Medio — reduce errores de datos desactualizados |
<title> de la página y comparar con el título citado. Si no coincide, marcar como sospechoso.Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.
Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.
Herramientas que usan LLMs para ayudar a desarrolladores a escribir, entender, depurar y refactorizar código, desde autocompletado hasta agentes que implementan features completas.