Redes Neuronales
Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.
¿Qué es?
Una red neuronal es un modelo computacional compuesto por capas de nodos (neuronas) interconectados que procesan información. Cada conexión tiene un peso que se ajusta durante el entrenamiento para que la red aprenda a mapear entradas a salidas deseadas.
El concepto se originó en 1943 con el modelo de McCulloch-Pitts, pero las redes neuronales modernas despegaron a partir de 2012 cuando AlexNet demostró que las redes profundas podían superar a los métodos tradicionales en clasificación de imágenes. Hoy son la base de los LLMs, los sistemas de visión por computadora y los modelos generativos.
Arquitecturas
| Arquitectura | Estructura | Aplicación principal | Ejemplo |
|---|---|---|---|
| Feedforward (MLP) | Capas densas conectadas secuencialmente | Clasificación, regresión | Predicción de precios |
| Convolucional (CNN) | Filtros que detectan patrones espaciales | Visión por computadora | ResNet, EfficientNet |
| Recurrente (RNN/LSTM) | Conexiones que mantienen estado temporal | Secuencias (texto, audio) | Traducción pre-2017 |
| Transformer | Mecanismo de atención sin recurrencia | NLP, visión, multimodal | GPT, BERT, ViT |
| Autoencoder | Encoder-decoder que comprime y reconstruye | Embeddings, generación | VAE, difusión |
| GAN | Generador vs discriminador en competencia | Generación de imágenes | StyleGAN, DALL-E 1 |
La arquitectura Transformer — introducida en el paper «Attention Is All You Need» (Vaswani et al., 2017) — domina la IA actual porque paraleliza mejor que las RNNs y captura dependencias de largo alcance.
Cómo aprenden
El entrenamiento de una red neuronal sigue un ciclo:
- Forward pass: los datos fluyen por la red y producen una predicción
- Loss function: se calcula el error entre la predicción y el valor esperado
- Backpropagation: el error se propaga hacia atrás, calculando el gradiente de cada peso
- Optimización: los pesos se ajustan usando el gradiente (SGD, Adam, AdamW)
Este ciclo se repite miles o millones de veces sobre el dataset de entrenamiento. La clave es que backpropagation — formalizado por Rumelhart, Hinton y Williams en 1986 — permite calcular eficientemente cómo cada peso contribuye al error total.
Los hiperparámetros del entrenamiento — learning rate, batch size, número de épocas, scheduler — tienen un impacto enorme en el resultado final. Encontrar la combinación correcta es más arte que ciencia, aunque técnicas como learning rate warmup y cosine annealing han estandarizado buenas prácticas.
Conceptos clave
| Concepto | Qué hace | Por qué importa |
|---|---|---|
| Función de activación | Introduce no-linealidad (ReLU, GELU, sigmoid) | Sin ella, la red solo puede aprender funciones lineales |
| Dropout | Desactiva neuronas aleatoriamente durante entrenamiento | Previene overfitting |
| Batch normalization | Normaliza activaciones entre capas | Estabiliza y acelera el entrenamiento |
| Learning rate | Controla el tamaño de los ajustes de pesos | Muy alto diverge, muy bajo no converge |
| Transfer learning | Reutilizar pesos pre-entrenados en nueva tarea | Reduce datos y tiempo de entrenamiento |
Cuándo NO usar redes neuronales
- Datos tabulares pequeños (< 10K filas) — XGBoost o random forests suelen ganar
- Requisitos de interpretabilidad — los modelos lineales o árboles de decisión son más explicables
- Sin GPU disponible — el entrenamiento de redes profundas sin aceleración es prohibitivamente lento
- Datos insuficientes — las redes profundas necesitan grandes volúmenes de datos o transfer learning
¿Por qué importa?
Las redes neuronales son el componente fundamental de toda la IA moderna — desde los LLMs que generan código hasta los modelos de visión que conducen vehículos autónomos. Entender sus arquitecturas, limitaciones y costos de entrenamiento es esencial para tomar decisiones informadas sobre qué modelo usar, cuándo entrenar uno propio y cuándo un enfoque más simple es suficiente. La elección entre fine-tuning de un modelo existente y entrenar desde cero define el costo y el timeline de cualquier proyecto de IA.
Referencias
- Deep Learning — Goodfellow, Bengio y Courville, 2016. El libro de referencia sobre redes neuronales y deep learning.
- CS231n: Convolutional Neural Networks for Visual Recognition — Stanford, 2024. Curso de Stanford sobre redes neuronales y visión por computadora.
- Build the Neural Network — PyTorch, 2024. Tutorial oficial para construir redes neuronales con PyTorch.
- Neural Networks — 3Blue1Brown, 2024. Serie visual que explica la intuición detrás de las redes neuronales.