Datos Sintéticos
Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.
¿Qué es?
Los datos sintéticos son información generada por algoritmos — no capturada del mundo real — que replica las propiedades estadísticas y la estructura de datos reales. En el contexto de IA, se usan para entrenar modelos, construir benchmarks de evaluación y probar sistemas cuando los datos reales son insuficientes, costosos de obtener o contienen información sensible.
La práctica se ha vuelto central en el desarrollo de LLMs modernos. Modelos como DeepSeek-R1 y las familias de razonamiento de OpenAI y Anthropic utilizan datos sintéticos extensivamente durante el post-entrenamiento, ya sea como datos de fine-tuning o como juicios generados por modelos evaluadores.
Métodos de generación
Destilación de modelos
Un modelo grande y capaz genera datos que se usan para entrenar un modelo más pequeño. El modelo «profesor» produce respuestas de alta calidad que el modelo «estudiante» aprende a replicar.
Generación por instrucciones
Se le pide a un LLM que genere ejemplos siguiendo instrucciones específicas:
Genera 50 preguntas sobre Kubernetes con sus respuestas.
Cada pregunta debe cubrir un nivel de dificultad diferente.
Incluye escenarios de producción reales.
Aumento de datos (Data Augmentation)
Transformar datos existentes para crear variaciones: parafraseo, traducción, cambio de formato, perturbación de valores numéricos.
Generación adversarial
Crear datos diseñados para exponer debilidades del modelo: edge cases, prompts adversariales, escenarios de seguridad. Esto conecta directamente con prácticas de seguridad de IA.
Casos de uso
| Caso | Problema | Solución con datos sintéticos |
|---|---|---|
| Evaluación pre-lanzamiento | No hay usuarios reales aún | Generar consultas y escenarios representativos |
| Privacidad | Datos contienen PII | Generar datos con las mismas propiedades estadísticas sin información real |
| Datos escasos | Dominio con pocos ejemplos | Aumentar el dataset con variaciones generadas |
| Red teaming | Probar robustez del modelo | Generar prompts adversariales automáticamente |
| Post-entrenamiento | Mejorar capacidades específicas | Generar pares instrucción-respuesta de alta calidad |
Riesgos y limitaciones
- Model collapse: entrenar modelos recursivamente con datos sintéticos puede degradar la calidad generación tras generación
- Sesgo amplificado: los datos sintéticos heredan y pueden amplificar los sesgos del modelo generador
- Falta de diversidad: los datos generados tienden a ser menos diversos que los datos reales del mundo
- Validación necesaria: se requieren métricas de calidad para verificar que los datos sintéticos son representativos
Métricas de calidad
- Fidelidad estadística: similitud de distribuciones entre datos reales y sintéticos
- Utilidad: rendimiento de un modelo entrenado con datos sintéticos vs. datos reales
- Privacidad: garantía de que no se filtran datos reales en los sintéticos
- Diversidad: cobertura del espacio de posibles entradas
¿Por qué importa?
A medida que los sistemas de IA pasan de prototipos a producción, la calidad de los datos de entrenamiento y evaluación se convierte en el cuello de botella. Los datos reales son costosos, lentos de recopilar y frecuentemente restringidos por regulaciones de privacidad. Los datos sintéticos rompen esta dependencia: los equipos pueden iterar sobre suites de evaluación en horas en lugar de semanas, probar edge cases que rara vez ocurren naturalmente y construir datasets para dominios donde los datos reales simplemente no existen aún.
Referencias
- A Deep Dive Into the Role of Synthetic Data in Post-Training — Análisis del uso de datos sintéticos en post-entrenamiento de LLMs, 2025.
- Evaluating Language Models as Synthetic Data Generators — Evaluación de LLMs como generadores de datos sintéticos, 2024.
- Best Practices and Lessons Learned on Synthetic Data — Liu et al., 2024. Mejores prácticas para generación de datos sintéticos.