Conceptos

Ajuste Fino

Proceso de especializar un modelo pre-entrenado en una tarea o dominio específico mediante entrenamiento adicional con datos curados, adaptando su comportamiento sin partir desde cero.

seed#fine-tuning#llm#transfer-learning#lora#rlhf#training

¿Qué es?

Fine-tuning es el proceso de tomar un modelo de lenguaje pre-entrenado y entrenarlo adicionalmente con datos específicos para adaptarlo a una tarea, dominio o estilo particular. En lugar de entrenar desde cero (costoso e impráctico), se aprovecha el conocimiento general del modelo base y se especializa.

¿Cuándo usar fine-tuning vs RAG?

EscenarioMejor opción
Conocimiento factual actualizableRAG
Estilo de escritura específicoFine-tuning
Formato de salida consistenteFine-tuning
Datos que cambian frecuentementeRAG
Terminología de dominioFine-tuning + RAG

Técnicas de fine-tuning

Full fine-tuning

Actualiza todos los parámetros del modelo. Produce los mejores resultados pero requiere:

  • GPUs con mucha memoria
  • Datasets grandes (miles de ejemplos)
  • Riesgo de «olvido catastrófico» del conocimiento base

LoRA (Low-Rank Adaptation)

Congela el modelo base y entrena pequeñas matrices de adaptación. Ventajas:

  • 10-100x menos parámetros entrenables
  • Múltiples adaptadores para diferentes tareas
  • Fácil de compartir y combinar

QLoRA

LoRA sobre un modelo cuantizado (4-bit). Permite fine-tuning de modelos grandes en hardware consumer.

RLHF (Reinforcement Learning from Human Feedback)

Alinea el modelo con preferencias humanas usando un modelo de recompensa entrenado con comparaciones humanas. Es como se entrenan Claude, GPT-4 y otros modelos de chat.

Proceso típico

  1. Preparar datos: pares de entrada/salida en el formato deseado
  2. Elegir modelo base: balance entre capacidad y costo
  3. Configurar entrenamiento: learning rate, epochs, batch size
  4. Entrenar: monitorear loss y métricas de validación
  5. Evaluar: probar en casos de uso reales
  6. Iterar: ajustar datos o hiperparámetros según resultados

Consideraciones

  • Calidad > cantidad: 100 ejemplos excelentes superan a 10,000 mediocres
  • Formato consistente: el modelo aprende patrones — mantener estructura uniforme
  • Evaluación rigurosa: es fácil sobreajustar a los datos de entrenamiento
  • Costo de mantenimiento: cada actualización requiere reentrenar

¿Por qué importa?

El fine-tuning permite adaptar un modelo general a un dominio específico con datos propios. Es la técnica que convierte un LLM genérico en un experto en tu terminología, formato de respuesta y casos de uso particulares — cuando el prompting no es suficiente.

Referencias

Conceptos