Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.
Una red neuronal es un modelo computacional compuesto por capas de nodos (neuronas) interconectados que procesan información. Cada conexión tiene un peso que se ajusta durante el entrenamiento para que la red aprenda a mapear entradas a salidas deseadas.
El concepto se originó en 1943 con el modelo de McCulloch-Pitts, pero las redes neuronales modernas despegaron a partir de 2012 cuando AlexNet demostró que las redes profundas podían superar a los métodos tradicionales en clasificación de imágenes. Hoy son la base de los LLMs, los sistemas de visión por computadora y los modelos generativos.
| Arquitectura | Estructura | Aplicación principal | Ejemplo |
|---|---|---|---|
| Feedforward (MLP) | Capas densas conectadas secuencialmente | Clasificación, regresión | Predicción de precios |
| Convolucional (CNN) | Filtros que detectan patrones espaciales | Visión por computadora | ResNet, EfficientNet |
| Recurrente (RNN/LSTM) | Conexiones que mantienen estado temporal | Secuencias (texto, audio) | Traducción pre-2017 |
| Transformer | Mecanismo de atención sin recurrencia | NLP, visión, multimodal | GPT, BERT, ViT |
| Autoencoder | Encoder-decoder que comprime y reconstruye | Embeddings, generación | VAE, difusión |
| GAN | Generador vs discriminador en competencia | Generación de imágenes | StyleGAN, DALL-E 1 |
La arquitectura Transformer — introducida en el paper «Attention Is All You Need» (Vaswani et al., 2017) — domina la IA actual porque paraleliza mejor que las RNNs y captura dependencias de largo alcance.
El entrenamiento de una red neuronal sigue un ciclo:
Este ciclo se repite miles o millones de veces sobre el dataset de entrenamiento. La clave es que backpropagation — formalizado por Rumelhart, Hinton y Williams en 1986 — permite calcular eficientemente cómo cada peso contribuye al error total.
Los hiperparámetros del entrenamiento — learning rate, batch size, número de épocas, scheduler — tienen un impacto enorme en el resultado final. Encontrar la combinación correcta es más arte que ciencia, aunque técnicas como learning rate warmup y cosine annealing han estandarizado buenas prácticas.
| Concepto | Qué hace | Por qué importa |
|---|---|---|
| Función de activación | Introduce no-linealidad (ReLU, GELU, sigmoid) | Sin ella, la red solo puede aprender funciones lineales |
| Dropout | Desactiva neuronas aleatoriamente durante entrenamiento | Previene overfitting |
| Batch normalization | Normaliza activaciones entre capas | Estabiliza y acelera el entrenamiento |
| Learning rate | Controla el tamaño de los ajustes de pesos | Muy alto diverge, muy bajo no converge |
| Transfer learning | Reutilizar pesos pre-entrenados en nueva tarea | Reduce datos y tiempo de entrenamiento |
Las redes neuronales son el componente fundamental de toda la IA moderna — desde los LLMs que generan código hasta los modelos de visión que conducen vehículos autónomos. Entender sus arquitecturas, limitaciones y costos de entrenamiento es esencial para tomar decisiones informadas sobre qué modelo usar, cuándo entrenar uno propio y cuándo un enfoque más simple es suficiente. La elección entre fine-tuning de un modelo existente y entrenar desde cero define el costo y el timeline de cualquier proyecto de IA.
Campo de la informática dedicado a crear sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, desde el razonamiento y la percepción hasta la generación de lenguaje.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.