Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Datos Sintéticos

Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.

evergreen#synthetic-data#data-generation#privacy#training#evaluation#llm#augmentation

¿Qué es?

Los datos sintéticos son información generada por algoritmos — no capturada del mundo real — que replica las propiedades estadísticas y la estructura de datos reales. En el contexto de IA, se usan para entrenar modelos, construir benchmarks de evaluación y probar sistemas cuando los datos reales son insuficientes, costosos de obtener o contienen información sensible.

La práctica se ha vuelto central en el desarrollo de LLMs modernos. Modelos como DeepSeek-R1 y las familias de razonamiento de OpenAI y Anthropic utilizan datos sintéticos extensivamente durante el post-entrenamiento, ya sea como datos de fine-tuning o como juicios generados por modelos evaluadores.

Métodos de generación

Destilación de modelos

Un modelo grande y capaz genera datos que se usan para entrenar un modelo más pequeño. El modelo «profesor» produce respuestas de alta calidad que el modelo «estudiante» aprende a replicar.

Self-Instruct

Técnica introducida por Wang et al. (2022) y popularizada por Stanford Alpaca. Un LLM genera pares instrucción-respuesta a partir de un conjunto semilla de ejemplos. El proceso es iterativo: cada lote generado se filtra por calidad y se agrega al pool para generar más variaciones.

import json
from openai import OpenAI
 
client = OpenAI()
 
SEED_TASKS = [
    {"instruction": "Explica qué es un balanceador de carga", "output": "..."},
    {"instruction": "Escribe una función Python que valide un email", "output": "..."},
]
 
def generate_instructions(seed_tasks: list[dict], n: int = 10) -> list[dict]:
    seed_text = "\n".join(
        f"- Instrucción: {t['instruction']}" for t in seed_tasks
    )
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": (
                f"Aquí hay ejemplos de instrucciones:\n{seed_text}\n\n"
                f"Genera {n} instrucciones nuevas y diversas en el mismo estilo. "
                "Cubre diferentes dominios y niveles de dificultad. "
                "Responde en JSON: [{\"instruction\": \"...\", \"output\": \"...\"}]"
            ),
        }],
        response_format={"type": "json_object"},
    )
    return json.loads(response.choices[0].message.content)["instructions"]

Aumento de datos (Data Augmentation)

Transformar datos existentes para crear variaciones: parafraseo, traducción, cambio de formato, perturbación de valores numéricos.

Generación adversarial

Crear datos diseñados para exponer debilidades del modelo: edge cases, prompts adversariales, escenarios de seguridad. Esto conecta directamente con prácticas de seguridad de IA.

Casos de uso

CasoProblemaSolución con datos sintéticos
Evaluación pre-lanzamientoNo hay usuarios reales aúnGenerar consultas y escenarios representativos
PrivacidadDatos contienen PIIGenerar datos con las mismas propiedades estadísticas sin información real
Datos escasosDominio con pocos ejemplosAumentar el dataset con variaciones generadas
Red teamingProbar robustez del modeloGenerar prompts adversariales automáticamente
Post-entrenamientoMejorar capacidades específicasGenerar pares instrucción-respuesta de alta calidad

Validación de calidad

Generar datos sintéticos sin validarlos es un riesgo. Un pipeline robusto incluye al menos tres verificaciones:

  1. Fidelidad estadística: comparar distribuciones de los datos generados contra los reales usando métricas como Jensen-Shannon divergence o Maximum Mean Discrepancy (MMD).
  2. Utilidad downstream: entrenar un modelo con datos sintéticos y comparar su rendimiento contra uno entrenado con datos reales en el mismo benchmark. La diferencia aceptable depende del dominio, pero una degradación mayor al 5% en la métrica principal suele indicar problemas de calidad.
  3. Detección de filtraciones: verificar que los datos sintéticos no contienen copias textuales de los datos de entrenamiento del modelo generador. Técnicas como membership inference tests ayudan a detectar memorización.
  4. Diversidad: medir la cobertura del espacio de entradas usando métricas de n-gram diversity o embedding clustering para detectar colapso modal.

Riesgos y limitaciones

  • Model collapse: entrenar modelos recursivamente con datos sintéticos puede degradar la calidad generación tras generación. Shumailov et al. (2023) demostraron que el entrenamiento iterativo sobre datos generados por el propio modelo produce una pérdida progresiva de las colas de la distribución original.
  • Sesgo amplificado: los datos sintéticos heredan y pueden amplificar los sesgos del modelo generador
  • Falta de diversidad: los datos generados tienden a ser menos diversos que los datos reales del mundo
  • Costo oculto: generar datos de alta calidad con modelos grandes tiene un costo de API significativo — un dataset de 50K ejemplos con GPT-4o puede costar cientos de dólares

¿Por qué importa?

A medida que los sistemas de IA pasan de prototipos a producción, la calidad de los datos de entrenamiento y evaluación se convierte en el cuello de botella. Los datos reales son costosos, lentos de recopilar y frecuentemente restringidos por regulaciones de privacidad. Los datos sintéticos rompen esta dependencia: los equipos pueden iterar sobre suites de evaluación en horas en lugar de semanas, probar edge cases que rara vez ocurren naturalmente y construir datasets para dominios donde los datos reales simplemente no existen aún.

Referencias

  • Self-Instruct: Aligning Language Models with Self-Generated Instructions — Wang et al., 2022. Método fundacional para generar datos de instrucciones con LLMs.
  • The Curse of Recursion: Training on Generated Data Makes Models Forget — Shumailov et al., 2023. Demostración del fenómeno de model collapse al entrenar con datos sintéticos.
  • A Deep Dive Into the Role of Synthetic Data in Post-Training — Análisis del uso de datos sintéticos en post-entrenamiento de LLMs, 2025.
  • Evaluating Language Models as Synthetic Data Generators — Evaluación de LLMs como generadores de datos sintéticos, 2024.
  • Best Practices and Lessons Learned on Synthetic Data — Liu et al., 2024. Mejores prácticas para generación de datos sintéticos.

Contenido relacionado

  • Ajuste Fino

    Proceso de especializar un modelo pre-entrenado en una tarea o dominio específico mediante entrenamiento adicional con datos curados, adaptando su comportamiento sin partir desde cero.

  • Métricas de Evaluación de IA

    Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.

  • Seguridad en IA

    Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.

  • Modelos de Lenguaje de Gran Escala

    Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.

Conceptos