Conceptos

Redes Neuronales

Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.

evergreen#neural-networks#deep-learning#machine-learning#ai#backpropagation#transformers

¿Qué es?

Una red neuronal es un modelo computacional compuesto por capas de nodos (neuronas) interconectados que procesan información. Cada conexión tiene un peso que se ajusta durante el entrenamiento para que la red aprenda a mapear entradas a salidas deseadas.

El concepto se originó en 1943 con el modelo de McCulloch-Pitts, pero las redes neuronales modernas despegaron a partir de 2012 cuando AlexNet demostró que las redes profundas podían superar a los métodos tradicionales en clasificación de imágenes. Hoy son la base de los LLMs, los sistemas de visión por computadora y los modelos generativos.

Arquitecturas

ArquitecturaEstructuraAplicación principalEjemplo
Feedforward (MLP)Capas densas conectadas secuencialmenteClasificación, regresiónPredicción de precios
Convolucional (CNN)Filtros que detectan patrones espacialesVisión por computadoraResNet, EfficientNet
Recurrente (RNN/LSTM)Conexiones que mantienen estado temporalSecuencias (texto, audio)Traducción pre-2017
TransformerMecanismo de atención sin recurrenciaNLP, visión, multimodalGPT, BERT, ViT
AutoencoderEncoder-decoder que comprime y reconstruyeEmbeddings, generaciónVAE, difusión
GANGenerador vs discriminador en competenciaGeneración de imágenesStyleGAN, DALL-E 1

La arquitectura Transformer — introducida en el paper «Attention Is All You Need» (Vaswani et al., 2017) — domina la IA actual porque paraleliza mejor que las RNNs y captura dependencias de largo alcance.

Cómo aprenden

El entrenamiento de una red neuronal sigue un ciclo:

  1. Forward pass: los datos fluyen por la red y producen una predicción
  2. Loss function: se calcula el error entre la predicción y el valor esperado
  3. Backpropagation: el error se propaga hacia atrás, calculando el gradiente de cada peso
  4. Optimización: los pesos se ajustan usando el gradiente (SGD, Adam, AdamW)

Este ciclo se repite miles o millones de veces sobre el dataset de entrenamiento. La clave es que backpropagation — formalizado por Rumelhart, Hinton y Williams en 1986 — permite calcular eficientemente cómo cada peso contribuye al error total.

Los hiperparámetros del entrenamiento — learning rate, batch size, número de épocas, scheduler — tienen un impacto enorme en el resultado final. Encontrar la combinación correcta es más arte que ciencia, aunque técnicas como learning rate warmup y cosine annealing han estandarizado buenas prácticas.

Conceptos clave

ConceptoQué hacePor qué importa
Función de activaciónIntroduce no-linealidad (ReLU, GELU, sigmoid)Sin ella, la red solo puede aprender funciones lineales
DropoutDesactiva neuronas aleatoriamente durante entrenamientoPreviene overfitting
Batch normalizationNormaliza activaciones entre capasEstabiliza y acelera el entrenamiento
Learning rateControla el tamaño de los ajustes de pesosMuy alto diverge, muy bajo no converge
Transfer learningReutilizar pesos pre-entrenados en nueva tareaReduce datos y tiempo de entrenamiento

Cuándo NO usar redes neuronales

  • Datos tabulares pequeños (< 10K filas) — XGBoost o random forests suelen ganar
  • Requisitos de interpretabilidad — los modelos lineales o árboles de decisión son más explicables
  • Sin GPU disponible — el entrenamiento de redes profundas sin aceleración es prohibitivamente lento
  • Datos insuficientes — las redes profundas necesitan grandes volúmenes de datos o transfer learning

¿Por qué importa?

Las redes neuronales son el componente fundamental de toda la IA moderna — desde los LLMs que generan código hasta los modelos de visión que conducen vehículos autónomos. Entender sus arquitecturas, limitaciones y costos de entrenamiento es esencial para tomar decisiones informadas sobre qué modelo usar, cuándo entrenar uno propio y cuándo un enfoque más simple es suficiente. La elección entre fine-tuning de un modelo existente y entrenar desde cero define el costo y el timeline de cualquier proyecto de IA.

Referencias

Conceptos