Synthetic Data

¿Qué es?

Los datos sintéticos son información generada por algoritmos — no capturada del mundo real — que replica las propiedades estadísticas y la estructura de datos reales. En el contexto de IA, se usan para entrenar modelos, construir benchmarks de evaluación y probar sistemas cuando los datos reales son insuficientes, costosos de obtener o contienen información sensible.

La práctica se ha vuelto central en el desarrollo de LLMs modernos. Modelos como DeepSeek-R1 y las familias de razonamiento de OpenAI y Anthropic utilizan datos sintéticos extensivamente durante el post-entrenamiento, ya sea como datos de fine-tuning o como juicios generados por modelos evaluadores.

Métodos de generación

Destilación de modelos

Un modelo grande y capaz genera datos que se usan para entrenar un modelo más pequeño. El modelo «profesor» produce respuestas de alta calidad que el modelo «estudiante» aprende a replicar.

Self-Instruct

Técnica introducida por Wang et al. (2022) y popularizada por Stanford Alpaca. Un LLM genera pares instrucción-respuesta a partir de un conjunto semilla de ejemplos. El proceso es iterativo: cada lote generado se filtra por calidad y se agrega al pool para generar más variaciones.

import json
from openai import OpenAI
 
client = OpenAI()
 
SEED_TASKS = [
    {"instruction": "Explica qué es un balanceador de carga", "output": "..."},
    {"instruction": "Escribe una función Python que valide un email", "output": "..."},
]
 
def generate_instructions(seed_tasks: list[dict], n: int = 10) -> list[dict]:
    seed_text = "\n".join(
        f"- Instrucción: {t['instruction']}" for t in seed_tasks
    )
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": (
                f"Aquí hay ejemplos de instrucciones:\n{seed_text}\n\n"
                f"Genera {n} instrucciones nuevas y diversas en el mismo estilo. "
                "Cubre diferentes dominios y niveles de dificultad. "
                "Responde en JSON: [{\"instruction\": \"...\", \"output\": \"...\"}]"
            ),
        }],
        response_format={"type": "json_object"},
    )
    return json.loads(response.choices[0].message.content)["instructions"]

Aumento de datos (Data Augmentation)

Transformar datos existentes para crear variaciones: parafraseo, traducción, cambio de formato, perturbación de valores numéricos.

Generación adversarial

Crear datos diseñados para exponer debilidades del modelo: edge cases, prompts adversariales, escenarios de seguridad. Esto conecta directamente con prácticas de seguridad de IA.

Casos de uso

Caso	Problema	Solución con datos sintéticos
Evaluación pre-lanzamiento	No hay usuarios reales aún	Generar consultas y escenarios representativos
Privacidad	Datos contienen PII	Generar datos con las mismas propiedades estadísticas sin información real
Datos escasos	Dominio con pocos ejemplos	Aumentar el dataset con variaciones generadas
Red teaming	Probar robustez del modelo	Generar prompts adversariales automáticamente
Post-entrenamiento	Mejorar capacidades específicas	Generar pares instrucción-respuesta de alta calidad

Validación de calidad

Generar datos sintéticos sin validarlos es un riesgo. Un pipeline robusto incluye al menos tres verificaciones:

Fidelidad estadística: comparar distribuciones de los datos generados contra los reales usando métricas como Jensen-Shannon divergence o Maximum Mean Discrepancy (MMD).
Utilidad downstream: entrenar un modelo con datos sintéticos y comparar su rendimiento contra uno entrenado con datos reales en el mismo benchmark. La diferencia aceptable depende del dominio, pero una degradación mayor al 5% en la métrica principal suele indicar problemas de calidad.
Detección de filtraciones: verificar que los datos sintéticos no contienen copias textuales de los datos de entrenamiento del modelo generador. Técnicas como membership inference tests ayudan a detectar memorización.
Diversidad: medir la cobertura del espacio de entradas usando métricas de n-gram diversity o embedding clustering para detectar colapso modal.

Riesgos y limitaciones

Model collapse: entrenar modelos recursivamente con datos sintéticos puede degradar la calidad generación tras generación. Shumailov et al. (2023) demostraron que el entrenamiento iterativo sobre datos generados por el propio modelo produce una pérdida progresiva de las colas de la distribución original.
Sesgo amplificado: los datos sintéticos heredan y pueden amplificar los sesgos del modelo generador
Falta de diversidad: los datos generados tienden a ser menos diversos que los datos reales del mundo
Costo oculto: generar datos de alta calidad con modelos grandes tiene un costo de API significativo — un dataset de 50K ejemplos con GPT-4o puede costar cientos de dólares

¿Por qué importa?

A medida que los sistemas de IA pasan de prototipos a producción, la calidad de los datos de entrenamiento y evaluación se convierte en el cuello de botella. Los datos reales son costosos, lentos de recopilar y frecuentemente restringidos por regulaciones de privacidad. Los datos sintéticos rompen esta dependencia: los equipos pueden iterar sobre suites de evaluación en horas en lugar de semanas, probar edge cases que rara vez ocurren naturalmente y construir datasets para dominios donde los datos reales simplemente no existen aún.

Referencias

Self-Instruct: Aligning Language Models with Self-Generated Instructions — Wang et al., 2022. Método fundacional para generar datos de instrucciones con LLMs.
The Curse of Recursion: Training on Generated Data Makes Models Forget — Shumailov et al., 2023. Demostración del fenómeno de model collapse al entrenar con datos sintéticos.
A Deep Dive Into the Role of Synthetic Data in Post-Training — Análisis del uso de datos sintéticos en post-entrenamiento de LLMs, 2025.
Evaluating Language Models as Synthetic Data Generators — Evaluación de LLMs como generadores de datos sintéticos, 2024.
Best Practices and Lessons Learned on Synthetic Data — Liu et al., 2024. Mejores prácticas para generación de datos sintéticos.

¿Qué es?

Métodos de generación

Destilación de modelos

Un modelo grande y capaz genera datos que se usan para entrenar un modelo más pequeño. El modelo «profesor» produce respuestas de alta calidad que el modelo «estudiante» aprende a replicar.

Self-Instruct

import json
from openai import OpenAI
 
client = OpenAI()
 
SEED_TASKS = [
    {"instruction": "Explica qué es un balanceador de carga", "output": "..."},
    {"instruction": "Escribe una función Python que valide un email", "output": "..."},
]
 
def generate_instructions(seed_tasks: list[dict], n: int = 10) -> list[dict]:
    seed_text = "\n".join(
        f"- Instrucción: {t['instruction']}" for t in seed_tasks
    )
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": (
                f"Aquí hay ejemplos de instrucciones:\n{seed_text}\n\n"
                f"Genera {n} instrucciones nuevas y diversas en el mismo estilo. "
                "Cubre diferentes dominios y niveles de dificultad. "
                "Responde en JSON: [{\"instruction\": \"...\", \"output\": \"...\"}]"
            ),
        }],
        response_format={"type": "json_object"},
    )
    return json.loads(response.choices[0].message.content)["instructions"]

Aumento de datos (Data Augmentation)

Transformar datos existentes para crear variaciones: parafraseo, traducción, cambio de formato, perturbación de valores numéricos.

Generación adversarial

Crear datos diseñados para exponer debilidades del modelo: edge cases, prompts adversariales, escenarios de seguridad. Esto conecta directamente con prácticas de seguridad de IA.

Casos de uso

Caso	Problema	Solución con datos sintéticos
Evaluación pre-lanzamiento	No hay usuarios reales aún	Generar consultas y escenarios representativos
Privacidad	Datos contienen PII	Generar datos con las mismas propiedades estadísticas sin información real
Datos escasos	Dominio con pocos ejemplos	Aumentar el dataset con variaciones generadas
Red teaming	Probar robustez del modelo	Generar prompts adversariales automáticamente
Post-entrenamiento	Mejorar capacidades específicas	Generar pares instrucción-respuesta de alta calidad

Validación de calidad

Generar datos sintéticos sin validarlos es un riesgo. Un pipeline robusto incluye al menos tres verificaciones:

Fidelidad estadística: comparar distribuciones de los datos generados contra los reales usando métricas como Jensen-Shannon divergence o Maximum Mean Discrepancy (MMD).
Utilidad downstream: entrenar un modelo con datos sintéticos y comparar su rendimiento contra uno entrenado con datos reales en el mismo benchmark. La diferencia aceptable depende del dominio, pero una degradación mayor al 5% en la métrica principal suele indicar problemas de calidad.
Detección de filtraciones: verificar que los datos sintéticos no contienen copias textuales de los datos de entrenamiento del modelo generador. Técnicas como membership inference tests ayudan a detectar memorización.
Diversidad: medir la cobertura del espacio de entradas usando métricas de n-gram diversity o embedding clustering para detectar colapso modal.

Riesgos y limitaciones

Model collapse: entrenar modelos recursivamente con datos sintéticos puede degradar la calidad generación tras generación. Shumailov et al. (2023) demostraron que el entrenamiento iterativo sobre datos generados por el propio modelo produce una pérdida progresiva de las colas de la distribución original.
Sesgo amplificado: los datos sintéticos heredan y pueden amplificar los sesgos del modelo generador
Falta de diversidad: los datos generados tienden a ser menos diversos que los datos reales del mundo
Costo oculto: generar datos de alta calidad con modelos grandes tiene un costo de API significativo — un dataset de 50K ejemplos con GPT-4o puede costar cientos de dólares

¿Por qué importa?

Referencias

Self-Instruct: Aligning Language Models with Self-Generated Instructions — Wang et al., 2022. Método fundacional para generar datos de instrucciones con LLMs.
The Curse of Recursion: Training on Generated Data Makes Models Forget — Shumailov et al., 2023. Demostración del fenómeno de model collapse al entrenar con datos sintéticos.
A Deep Dive Into the Role of Synthetic Data in Post-Training — Análisis del uso de datos sintéticos en post-entrenamiento de LLMs, 2025.
Evaluating Language Models as Synthetic Data Generators — Evaluación de LLMs como generadores de datos sintéticos, 2024.
Best Practices and Lessons Learned on Synthetic Data — Liu et al., 2024. Mejores prácticas para generación de datos sintéticos.

Datos Sintéticos

¿Qué es?

Métodos de generación

Destilación de modelos

Self-Instruct

Aumento de datos (Data Augmentation)

Generación adversarial

Casos de uso

Validación de calidad

Riesgos y limitaciones

¿Por qué importa?

Referencias

Contenido relacionado

Datos Sintéticos

¿Qué es?

Métodos de generación

Destilación de modelos

Self-Instruct

Aumento de datos (Data Augmentation)

Generación adversarial

Casos de uso

Validación de calidad

Riesgos y limitaciones

¿Por qué importa?

Referencias

Contenido relacionado