Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.
Las alucinaciones son respuestas de LLMs que suenan correctas pero contienen información fabricada. El modelo genera texto plausible basándose en patrones estadísticos, no en hechos verificados. Mitigar alucinaciones es crítico para aplicaciones donde la precisión importa.
| Tipo | Ejemplo | Detección | Mitigación |
|---|---|---|---|
| Factual | Datos incorrectos como hechos | Verificación contra fuentes | RAG con citas |
| Fabricación | Inventar URLs, papers, citas | Validar que las fuentes existen | Instruir «no sé» + verificación |
| Inconsistencia | Contradecirse en la misma respuesta | Comparar afirmaciones | Chain-of-thought |
| Extrapolación | Generalizar de ejemplos limitados | Evaluar confianza del modelo | Limitar scope del prompt |
RAG ancla las respuestas en documentos reales. La clave es instruir al modelo para que cite fuentes específicas y se limite al contexto proporcionado:
GROUNDED_PROMPT = """Responde SOLO con información de los documentos proporcionados.
Para cada afirmación factual, incluye la referencia entre corchetes: [Doc N].
Si los documentos no contienen la información, responde: "No tengo información suficiente."
Documentos:
{context}
Pregunta: {question}
"""Este patrón reduce fabricación pero no la elimina — el modelo puede malinterpretar el contexto o combinar fragmentos de forma incorrecta.
Técnica de Meta (Dhuliawala et al., 2023) donde el modelo verifica su propia respuesta en cuatro pasos:
def chain_of_verification(client, question: str) -> str:
# 1. Borrador inicial
draft = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": question}],
).choices[0].message.content
# 2. Generar preguntas de verificación
verification_qs = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": (
f"Borrador: {draft}\n\n"
"Lista las afirmaciones factuales y genera una pregunta de verificación para cada una."
)}],
).choices[0].message.content
# 3. Verificar cada pregunta independientemente
verifications = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": (
f"Responde cada pregunta de forma independiente:\n{verification_qs}"
)}],
).choices[0].message.content
# 4. Respuesta final corregida
return client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": (
f"Pregunta original: {question}\n"
f"Borrador: {draft}\n"
f"Verificaciones: {verifications}\n\n"
"Genera una respuesta final corrigiendo cualquier error detectado."
)}],
).choices[0].message.content| Métrica | Qué mide | Herramienta |
|---|---|---|
| Faithfulness | ¿La respuesta es fiel al contexto proporcionado? | RAGAS, DeepEval |
| FActScore | Precisión factual a nivel atómico (claim por claim) | FActScore |
| Attribution | ¿Las citas son reales y relevantes? | Verificación manual + LLM-as-judge |
| Self-consistency | ¿Múltiples generaciones coinciden? | Sampling + comparación |
No existe solución perfecta. Incluso con RAG, el modelo puede:
La mitigación reduce la frecuencia, no elimina el problema. En aplicaciones críticas (médicas, legales, financieras), la verificación humana sigue siendo necesaria.
Las alucinaciones son el riesgo más visible de los sistemas de IA en producción. Un modelo que genera información falsa con confianza puede causar daño real — desde citar jurisprudencia inexistente hasta fabricar datos médicos. Las técnicas de mitigación — RAG, grounding, CoVe, verificación — son requisitos de ingeniería, no mejoras opcionales. El objetivo no es eliminar las alucinaciones (imposible con la arquitectura actual de LLMs) sino reducir su frecuencia y detectarlas antes de que lleguen al usuario.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.
Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.
Técnica de prompting que mejora el razonamiento de los LLMs al pedirles que descompongan problemas complejos en pasos intermedios explícitos antes de llegar a una conclusión.
Hallazgos de la revisión manual del PR