Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.
Los datos sintéticos son información generada por algoritmos — no capturada del mundo real — que replica las propiedades estadísticas y la estructura de datos reales. En el contexto de IA, se usan para entrenar modelos, construir benchmarks de evaluación y probar sistemas cuando los datos reales son insuficientes, costosos de obtener o contienen información sensible.
La práctica se ha vuelto central en el desarrollo de LLMs modernos. Modelos como DeepSeek-R1 y las familias de razonamiento de OpenAI y Anthropic utilizan datos sintéticos extensivamente durante el post-entrenamiento, ya sea como datos de fine-tuning o como juicios generados por modelos evaluadores.
Un modelo grande y capaz genera datos que se usan para entrenar un modelo más pequeño. El modelo «profesor» produce respuestas de alta calidad que el modelo «estudiante» aprende a replicar.
Técnica introducida por Wang et al. (2022) y popularizada por Stanford Alpaca. Un LLM genera pares instrucción-respuesta a partir de un conjunto semilla de ejemplos. El proceso es iterativo: cada lote generado se filtra por calidad y se agrega al pool para generar más variaciones.
import json
from openai import OpenAI
client = OpenAI()
SEED_TASKS = [
{"instruction": "Explica qué es un balanceador de carga", "output": "..."},
{"instruction": "Escribe una función Python que valide un email", "output": "..."},
]
def generate_instructions(seed_tasks: list[dict], n: int = 10) -> list[dict]:
seed_text = "\n".join(
f"- Instrucción: {t['instruction']}" for t in seed_tasks
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": (
f"Aquí hay ejemplos de instrucciones:\n{seed_text}\n\n"
f"Genera {n} instrucciones nuevas y diversas en el mismo estilo. "
"Cubre diferentes dominios y niveles de dificultad. "
"Responde en JSON: [{\"instruction\": \"...\", \"output\": \"...\"}]"
),
}],
response_format={"type": "json_object"},
)
return json.loads(response.choices[0].message.content)["instructions"]Transformar datos existentes para crear variaciones: parafraseo, traducción, cambio de formato, perturbación de valores numéricos.
Crear datos diseñados para exponer debilidades del modelo: edge cases, prompts adversariales, escenarios de seguridad. Esto conecta directamente con prácticas de seguridad de IA.
| Caso | Problema | Solución con datos sintéticos |
|---|---|---|
| Evaluación pre-lanzamiento | No hay usuarios reales aún | Generar consultas y escenarios representativos |
| Privacidad | Datos contienen PII | Generar datos con las mismas propiedades estadísticas sin información real |
| Datos escasos | Dominio con pocos ejemplos | Aumentar el dataset con variaciones generadas |
| Red teaming | Probar robustez del modelo | Generar prompts adversariales automáticamente |
| Post-entrenamiento | Mejorar capacidades específicas | Generar pares instrucción-respuesta de alta calidad |
Generar datos sintéticos sin validarlos es un riesgo. Un pipeline robusto incluye al menos tres verificaciones:
A medida que los sistemas de IA pasan de prototipos a producción, la calidad de los datos de entrenamiento y evaluación se convierte en el cuello de botella. Los datos reales son costosos, lentos de recopilar y frecuentemente restringidos por regulaciones de privacidad. Los datos sintéticos rompen esta dependencia: los equipos pueden iterar sobre suites de evaluación en horas en lugar de semanas, probar edge cases que rara vez ocurren naturalmente y construir datasets para dominios donde los datos reales simplemente no existen aún.
Proceso de especializar un modelo pre-entrenado en una tarea o dominio específico mediante entrenamiento adicional con datos curados, adaptando su comportamiento sin partir desde cero.
Frameworks y métricas para medir el rendimiento, la calidad y la seguridad de sistemas de IA, desde benchmarks estándar hasta evaluaciones específicas de dominio.
Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.