Hallucination Mitigation

¿Qué es?

Las alucinaciones son respuestas de LLMs que suenan correctas pero contienen información fabricada. El modelo genera texto plausible basándose en patrones estadísticos, no en hechos verificados. Mitigar alucinaciones es crítico para aplicaciones donde la precisión importa.

Tipos de alucinaciones

Tipo	Ejemplo	Detección	Mitigación
Factual	Datos incorrectos como hechos	Verificación contra fuentes	RAG con citas
Fabricación	Inventar URLs, papers, citas	Validar que las fuentes existen	Instruir «no sé» + verificación
Inconsistencia	Contradecirse en la misma respuesta	Comparar afirmaciones	Chain-of-thought
Extrapolación	Generalizar de ejemplos limitados	Evaluar confianza del modelo	Limitar scope del prompt

Estrategias de mitigación

Grounding con RAG

RAG ancla las respuestas en documentos reales. La clave es instruir al modelo para que cite fuentes específicas y se limite al contexto proporcionado:

GROUNDED_PROMPT = """Responde SOLO con información de los documentos proporcionados.
Para cada afirmación factual, incluye la referencia entre corchetes: [Doc N].
Si los documentos no contienen la información, responde: "No tengo información suficiente."
 
Documentos:
{context}
 
Pregunta: {question}
"""

Este patrón reduce fabricación pero no la elimina — el modelo puede malinterpretar el contexto o combinar fragmentos de forma incorrecta.

Chain-of-Verification (CoVe)

Técnica de Meta (Dhuliawala et al., 2023) donde el modelo verifica su propia respuesta en cuatro pasos:

Loading diagram...

Borrador: el modelo genera una respuesta inicial
Planificación: genera preguntas de verificación sobre sus propias afirmaciones
Verificación independiente: responde cada pregunta por separado (sin ver el borrador, para evitar sesgo)
Respuesta final: genera una respuesta corregida basada en las verificaciones

def chain_of_verification(client, question: str) -> str:
    # 1. Borrador inicial
    draft = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}],
    ).choices[0].message.content
 
    # 2. Generar preguntas de verificación
    verification_qs = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Borrador: {draft}\n\n"
            "Lista las afirmaciones factuales y genera una pregunta de verificación para cada una."
        )}],
    ).choices[0].message.content
 
    # 3. Verificar cada pregunta independientemente
    verifications = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Responde cada pregunta de forma independiente:\n{verification_qs}"
        )}],
    ).choices[0].message.content
 
    # 4. Respuesta final corregida
    return client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Pregunta original: {question}\n"
            f"Borrador: {draft}\n"
            f"Verificaciones: {verifications}\n\n"
            "Genera una respuesta final corrigiendo cualquier error detectado."
        )}],
    ).choices[0].message.content

Diseño de prompts

Instruir al modelo a decir «no sé» cuando no tiene información
Pedir que cite fuentes para afirmaciones factuales
Usar chain-of-thought para hacer el razonamiento explícito
Separar claramente hechos de opiniones

Calibración de confianza

Generar múltiples respuestas (N=5) y comparar consistencia — si las respuestas divergen, la confianza es baja
Detectar patrones lingüísticos asociados con alucinaciones: hedging excesivo, detalles demasiado específicos sin fuente

Métricas de evaluación

Métrica	Qué mide	Herramienta
Faithfulness	¿La respuesta es fiel al contexto proporcionado?	RAGAS, DeepEval
FActScore	Precisión factual a nivel atómico (claim por claim)	FActScore
Attribution	¿Las citas son reales y relevantes?	Verificación manual + LLM-as-judge
Self-consistency	¿Múltiples generaciones coinciden?	Sampling + comparación

Limitaciones

No existe solución perfecta. Incluso con RAG, el modelo puede:

Malinterpretar el contexto recuperado
Combinar información de formas incorrectas
Inventar detalles que «completan» la información

La mitigación reduce la frecuencia, no elimina el problema. En aplicaciones críticas (médicas, legales, financieras), la verificación humana sigue siendo necesaria.

¿Por qué importa?

Las alucinaciones son el riesgo más visible de los sistemas de IA en producción. Un modelo que genera información falsa con confianza puede causar daño real — desde citar jurisprudencia inexistente hasta fabricar datos médicos. Las técnicas de mitigación — RAG, grounding, CoVe, verificación — son requisitos de ingeniería, no mejoras opcionales. El objetivo no es eliminar las alucinaciones (imposible con la arquitectura actual de LLMs) sino reducir su frecuencia y detectarlas antes de que lleguen al usuario.

Referencias

Chain-of-Verification Reduces Hallucination in Large Language Models — Dhuliawala et al. (Meta), 2023. Método de auto-verificación en cuatro pasos.
FActScore: Fine-grained Atomic Evaluation of Factual Precision — Min et al., 2023. Evaluación de precisión factual a nivel atómico.
A Survey on Hallucination in LLMs — Huang et al., 2023. Survey completo sobre alucinaciones en LLMs.
Survey of Hallucination in Natural Language Generation — Ji et al., 2023. Survey fundacional sobre alucinaciones en generación de lenguaje natural.
RAGAS: Automated Evaluation of Retrieval Augmented Generation — Es et al., 2023. Framework de evaluación para sistemas RAG incluyendo faithfulness.
Reduce hallucinations — Anthropic, 2024. Guía práctica oficial con técnicas de prompting para reducir alucinaciones en producción.
LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything — Google Research Blog, 2022. Enfoque de Google para modelos de diálogo seguros y fundamentados.

¿Qué es?

Tipos de alucinaciones

Tipo	Ejemplo	Detección	Mitigación
Factual	Datos incorrectos como hechos	Verificación contra fuentes	RAG con citas
Fabricación	Inventar URLs, papers, citas	Validar que las fuentes existen	Instruir «no sé» + verificación
Inconsistencia	Contradecirse en la misma respuesta	Comparar afirmaciones	Chain-of-thought
Extrapolación	Generalizar de ejemplos limitados	Evaluar confianza del modelo	Limitar scope del prompt

Estrategias de mitigación

Grounding con RAG

RAG ancla las respuestas en documentos reales. La clave es instruir al modelo para que cite fuentes específicas y se limite al contexto proporcionado:

GROUNDED_PROMPT = """Responde SOLO con información de los documentos proporcionados.
Para cada afirmación factual, incluye la referencia entre corchetes: [Doc N].
Si los documentos no contienen la información, responde: "No tengo información suficiente."
 
Documentos:
{context}
 
Pregunta: {question}
"""

Este patrón reduce fabricación pero no la elimina — el modelo puede malinterpretar el contexto o combinar fragmentos de forma incorrecta.

Chain-of-Verification (CoVe)

Técnica de Meta (Dhuliawala et al., 2023) donde el modelo verifica su propia respuesta en cuatro pasos:

Loading diagram...

Borrador: el modelo genera una respuesta inicial
Planificación: genera preguntas de verificación sobre sus propias afirmaciones
Verificación independiente: responde cada pregunta por separado (sin ver el borrador, para evitar sesgo)
Respuesta final: genera una respuesta corregida basada en las verificaciones

def chain_of_verification(client, question: str) -> str:
    # 1. Borrador inicial
    draft = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}],
    ).choices[0].message.content
 
    # 2. Generar preguntas de verificación
    verification_qs = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Borrador: {draft}\n\n"
            "Lista las afirmaciones factuales y genera una pregunta de verificación para cada una."
        )}],
    ).choices[0].message.content
 
    # 3. Verificar cada pregunta independientemente
    verifications = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Responde cada pregunta de forma independiente:\n{verification_qs}"
        )}],
    ).choices[0].message.content
 
    # 4. Respuesta final corregida
    return client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": (
            f"Pregunta original: {question}\n"
            f"Borrador: {draft}\n"
            f"Verificaciones: {verifications}\n\n"
            "Genera una respuesta final corrigiendo cualquier error detectado."
        )}],
    ).choices[0].message.content

Diseño de prompts

Instruir al modelo a decir «no sé» cuando no tiene información
Pedir que cite fuentes para afirmaciones factuales
Usar chain-of-thought para hacer el razonamiento explícito
Separar claramente hechos de opiniones

Calibración de confianza

Generar múltiples respuestas (N=5) y comparar consistencia — si las respuestas divergen, la confianza es baja
Detectar patrones lingüísticos asociados con alucinaciones: hedging excesivo, detalles demasiado específicos sin fuente

Métricas de evaluación

Métrica	Qué mide	Herramienta
Faithfulness	¿La respuesta es fiel al contexto proporcionado?	RAGAS, DeepEval
FActScore	Precisión factual a nivel atómico (claim por claim)	FActScore
Attribution	¿Las citas son reales y relevantes?	Verificación manual + LLM-as-judge
Self-consistency	¿Múltiples generaciones coinciden?	Sampling + comparación

Limitaciones

No existe solución perfecta. Incluso con RAG, el modelo puede:

Malinterpretar el contexto recuperado
Combinar información de formas incorrectas
Inventar detalles que «completan» la información

La mitigación reduce la frecuencia, no elimina el problema. En aplicaciones críticas (médicas, legales, financieras), la verificación humana sigue siendo necesaria.

¿Por qué importa?

Referencias

Chain-of-Verification Reduces Hallucination in Large Language Models — Dhuliawala et al. (Meta), 2023. Método de auto-verificación en cuatro pasos.
FActScore: Fine-grained Atomic Evaluation of Factual Precision — Min et al., 2023. Evaluación de precisión factual a nivel atómico.
A Survey on Hallucination in LLMs — Huang et al., 2023. Survey completo sobre alucinaciones en LLMs.
Survey of Hallucination in Natural Language Generation — Ji et al., 2023. Survey fundacional sobre alucinaciones en generación de lenguaje natural.
RAGAS: Automated Evaluation of Retrieval Augmented Generation — Es et al., 2023. Framework de evaluación para sistemas RAG incluyendo faithfulness.
Reduce hallucinations — Anthropic, 2024. Guía práctica oficial con técnicas de prompting para reducir alucinaciones en producción.
LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything — Google Research Blog, 2022. Enfoque de Google para modelos de diálogo seguros y fundamentados.

Mitigación de Alucinaciones

¿Qué es?

Tipos de alucinaciones

Estrategias de mitigación

Grounding con RAG

Chain-of-Verification (CoVe)

Diseño de prompts

Calibración de confianza

Métricas de evaluación

Limitaciones

¿Por qué importa?

Referencias

Contenido relacionado

Mitigación de Alucinaciones

¿Qué es?

Tipos de alucinaciones

Estrategias de mitigación

Grounding con RAG

Chain-of-Verification (CoVe)

Diseño de prompts

Calibración de confianza

Métricas de evaluación

Limitaciones

¿Por qué importa?

Referencias

Contenido relacionado