Ajuste Fino
Proceso de especializar un modelo pre-entrenado en una tarea o dominio específico mediante entrenamiento adicional con datos curados, adaptando su comportamiento sin partir desde cero.
¿Qué es?
Fine-tuning es el proceso de tomar un modelo de lenguaje pre-entrenado y entrenarlo adicionalmente con datos específicos para adaptarlo a una tarea, dominio o estilo particular. En lugar de entrenar desde cero (costoso e impráctico), se aprovecha el conocimiento general del modelo base y se especializa.
¿Cuándo usar fine-tuning vs RAG?
| Escenario | Mejor opción |
|---|---|
| Conocimiento factual actualizable | RAG |
| Estilo de escritura específico | Fine-tuning |
| Formato de salida consistente | Fine-tuning |
| Datos que cambian frecuentemente | RAG |
| Terminología de dominio | Fine-tuning + RAG |
Técnicas de fine-tuning
Full fine-tuning
Actualiza todos los parámetros del modelo. Produce los mejores resultados pero requiere:
- GPUs con mucha memoria
- Datasets grandes (miles de ejemplos)
- Riesgo de «olvido catastrófico» del conocimiento base
LoRA (Low-Rank Adaptation)
Congela el modelo base y entrena pequeñas matrices de adaptación. Ventajas:
- 10-100x menos parámetros entrenables
- Múltiples adaptadores para diferentes tareas
- Fácil de compartir y combinar
QLoRA
LoRA sobre un modelo cuantizado (4-bit). Permite fine-tuning de modelos grandes en hardware consumer.
RLHF (Reinforcement Learning from Human Feedback)
Alinea el modelo con preferencias humanas usando un modelo de recompensa entrenado con comparaciones humanas. Es como se entrenan Claude, GPT-4 y otros modelos de chat.
Proceso típico
- Preparar datos: pares de entrada/salida en el formato deseado
- Elegir modelo base: balance entre capacidad y costo
- Configurar entrenamiento: learning rate, epochs, batch size
- Entrenar: monitorear loss y métricas de validación
- Evaluar: probar en casos de uso reales
- Iterar: ajustar datos o hiperparámetros según resultados
Consideraciones
- Calidad > cantidad: 100 ejemplos excelentes superan a 10,000 mediocres
- Formato consistente: el modelo aprende patrones — mantener estructura uniforme
- Evaluación rigurosa: es fácil sobreajustar a los datos de entrenamiento
- Costo de mantenimiento: cada actualización requiere reentrenar
¿Por qué importa?
El fine-tuning permite adaptar un modelo general a un dominio específico con datos propios. Es la técnica que convierte un LLM genérico en un experto en tu terminología, formato de respuesta y casos de uso particulares — cuando el prompting no es suficiente.
Referencias
- LoRA: Low-Rank Adaptation of Large Language Models — Hu et al., 2021.
- QLoRA: Efficient Finetuning of Quantized LLMs — Dettmers et al., 2023.
- Hugging Face Training — Hugging Face, 2024. Guía práctica de fine-tuning con Transformers.