Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Mitigación de Alucinaciones

Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.

evergreen#hallucination#factuality#grounding#rag#verification#llm

¿Qué es?

Las alucinaciones son respuestas de LLMs que suenan correctas pero contienen información fabricada. El modelo genera texto plausible basándose en patrones estadísticos, no en hechos verificados. Mitigar alucinaciones es crítico para aplicaciones donde la precisión importa.

Tipos de alucinaciones

TipoEjemploDetecciónMitigación
FactualDatos incorrectos como hechosVerificación contra fuentesRAG con citas
FabricaciónInventar URLs, papers, citasValidar que las fuentes existenInstruir «no sé» + verificación
InconsistenciaContradecirse en la misma respuestaComparar afirmacionesChain-of-thought
ExtrapolaciónGeneralizar de ejemplos limitadosEvaluar confianza del modeloLimitar scope del prompt

Estrategias de mitigación

Grounding con RAG

RAG ancla las respuestas en documentos reales. La clave es instruir al modelo para que cite fuentes específicas y se limite al contexto proporcionado:

GROUNDED_PROMPT = """Responde SOLO con información de los documentos proporcionados.
Para cada afirmación factual, incluye la referencia entre corchetes: [Doc N].
Si los documentos no contienen la información, responde: "No tengo información suficiente."
 
Documentos:
{context}
 
Pregunta: {question}
"""

Este patrón reduce fabricación pero no la elimina — el modelo puede malinterpretar el contexto o combinar fragmentos de forma incorrecta.

Chain-of-Verification (CoVe)

Técnica de Meta (Dhuliawala et al., 2023) donde el modelo verifica su propia respuesta en cuatro pasos:

Loading diagram...
  1. Borrador: el modelo genera una respuesta inicial
  2. Planificación: genera preguntas de verificación sobre sus propias afirmaciones
  3. Verificación independiente: responde cada pregunta por separado (sin ver el borrador, para evitar sesgo)
  4. Respuesta final: genera una respuesta corregida basada en las verificaciones
def chain_of_verification(client, question: str) -> str:
    # 1. Borrador inicial
    draft = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}],
    ).choices[0].message.content
 
    # 2. Generar preguntas de verificación
    verification_qs = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Borrador: {draft}\n\n"
            "Lista las afirmaciones factuales y genera una pregunta de verificación para cada una."
        )}],
    ).choices[0].message.content
 
    # 3. Verificar cada pregunta independientemente
    verifications = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Responde cada pregunta de forma independiente:\n{verification_qs}"
        )}],
    ).choices[0].message.content
 
    # 4. Respuesta final corregida
    return client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Pregunta original: {question}\n"
            f"Borrador: {draft}\n"
            f"Verificaciones: {verifications}\n\n"
            "Genera una respuesta final corrigiendo cualquier error detectado."
        )}],
    ).choices[0].message.content

Diseño de prompts

  • Instruir al modelo a decir «no sé» cuando no tiene información
  • Pedir que cite fuentes para afirmaciones factuales
  • Usar chain-of-thought para hacer el razonamiento explícito
  • Separar claramente hechos de opiniones

Calibración de confianza

  • Generar múltiples respuestas (N=5) y comparar consistencia — si las respuestas divergen, la confianza es baja
  • Detectar patrones lingüísticos asociados con alucinaciones: hedging excesivo, detalles demasiado específicos sin fuente

Métricas de evaluación

MétricaQué mideHerramienta
Faithfulness¿La respuesta es fiel al contexto proporcionado?RAGAS, DeepEval
FActScorePrecisión factual a nivel atómico (claim por claim)FActScore
Attribution¿Las citas son reales y relevantes?Verificación manual + LLM-as-judge
Self-consistency¿Múltiples generaciones coinciden?Sampling + comparación

Limitaciones

No existe solución perfecta. Incluso con RAG, el modelo puede:

  • Malinterpretar el contexto recuperado
  • Combinar información de formas incorrectas
  • Inventar detalles que «completan» la información

La mitigación reduce la frecuencia, no elimina el problema. En aplicaciones críticas (médicas, legales, financieras), la verificación humana sigue siendo necesaria.

¿Por qué importa?

Las alucinaciones son el riesgo más visible de los sistemas de IA en producción. Un modelo que genera información falsa con confianza puede causar daño real — desde citar jurisprudencia inexistente hasta fabricar datos médicos. Las técnicas de mitigación — RAG, grounding, CoVe, verificación — son requisitos de ingeniería, no mejoras opcionales. El objetivo no es eliminar las alucinaciones (imposible con la arquitectura actual de LLMs) sino reducir su frecuencia y detectarlas antes de que lleguen al usuario.

Referencias

  • Chain-of-Verification Reduces Hallucination in Large Language Models — Dhuliawala et al. (Meta), 2023. Método de auto-verificación en cuatro pasos.
  • FActScore: Fine-grained Atomic Evaluation of Factual Precision — Min et al., 2023. Evaluación de precisión factual a nivel atómico.
  • A Survey on Hallucination in LLMs — Huang et al., 2023. Survey completo sobre alucinaciones en LLMs.
  • Survey of Hallucination in Natural Language Generation — Ji et al., 2023. Survey fundacional sobre alucinaciones en generación de lenguaje natural.
  • RAGAS: Automated Evaluation of Retrieval Augmented Generation — Es et al., 2023. Framework de evaluación para sistemas RAG incluyendo faithfulness.
  • Reduce hallucinations — Anthropic, 2024. Guía práctica oficial con técnicas de prompting para reducir alucinaciones en producción.
  • LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything — Google Research Blog, 2022. Enfoque de Google para modelos de diálogo seguros y fundamentados.

Contenido relacionado

  • Modelos de Lenguaje de Gran Escala

    Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.

  • Generación Aumentada por Recuperación

    Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.

  • Seguridad en IA

    Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.

  • Razonamiento en Cadena

    Técnica de prompting que mejora el razonamiento de los LLMs al pedirles que descompongan problemas complejos en pasos intermedios explícitos antes de llegar a una conclusión.

  • Revisión QA del agente de contenido: PR #187

    Hallazgos de la revisión manual del PR

Conceptos