Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Un modelo de lenguaje de gran escala (LLM) es una red neuronal con miles de millones de parámetros, entrenada sobre cantidades masivas de texto para predecir la siguiente palabra en una secuencia. Esta tarea aparentemente simple — predecir qué palabra viene después — produce capacidades emergentes sorprendentes cuando se escala lo suficiente.
Los LLMs actuales no solo completan texto: siguen instrucciones complejas, razonan paso a paso, escriben código, traducen entre idiomas y mantienen conversaciones coherentes de largo contexto.
Introducida en el paper «Attention Is All You Need» (2017), la arquitectura Transformer reemplazó las redes recurrentes con un mecanismo de atención que permite al modelo considerar todas las palabras de una secuencia simultáneamente, capturando relaciones de largo alcance.
Componentes clave:
A medida que los modelos escalan, surgen capacidades que no fueron explícitamente programadas:
| Modelo | Organización | Características |
|---|---|---|
| GPT-4o | OpenAI | Multimodal, razonamiento avanzado |
| Claude | Anthropic | Contexto largo (200K tokens), seguridad |
| Gemini | Multimodal nativo, integración con búsqueda | |
| Llama | Meta | Open-source, comunidad activa |
| Mistral | Mistral AI | Eficiente, modelos abiertos competitivos |
| Command R | Cohere | Optimizado para RAG y empresas |
Elegir el modelo correcto depende del caso de uso, no del benchmark más alto:
| Criterio | Modelo grande (GPT-4o, Claude Sonnet) | Modelo pequeño (Llama 8B, Mistral 7B) |
|---|---|---|
| Razonamiento complejo | Mejor rendimiento | Suficiente para tareas simples |
| Latencia | 1-5s por respuesta | Menos de 500ms, ideal para tiempo real |
| Costo por millón de tokens | $2-15 entrada | $0.10-0.50 o gratis (self-hosted) |
| Privacidad de datos | Datos salen a la API | Self-hosted, datos internos |
| Fine-tuning | Costoso, limitado | Accesible con LoRA/QLoRA |
La tendencia actual es usar modelos grandes para tareas complejas y modelos pequeños especializados para tareas repetitivas de alto volumen — un patrón que reduce costos sin sacrificar calidad donde importa.
Los LLMs son la tecnología fundacional detrás de la revolución actual en inteligencia artificial. Son el motor que impulsa los agentes de IA, las técnicas de prompt engineering y los sistemas de búsqueda semántica. Entender cómo funcionan — y sus limitaciones — es esencial para construir aplicaciones de IA efectivas.
Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.
Campo de la informática dedicado a crear sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, desde el razonamiento y la percepción hasta la generación de lenguaje.
Disciplina de diseñar instrucciones efectivas para modelos de lenguaje, combinando claridad, estructura y ejemplos para obtener respuestas consistentes y de alta calidad.
Proceso de especializar un modelo pre-entrenado en una tarea o dominio específico mediante entrenamiento adicional con datos curados, adaptando su comportamiento sin partir desde cero.
Proceso de dividir texto en unidades discretas (tokens) que los modelos de lenguaje pueden procesar numéricamente, fundamental para cómo los LLMs entienden y generan texto.
Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.
Servicio serverless de AWS que proporciona acceso a modelos fundacionales de múltiples proveedores (Anthropic, Meta, Mistral, Amazon) vía API unificada, sin gestionar infraestructura de ML.
La cantidad máxima de tokens que un LLM puede procesar en una sola interacción, determinando cuánta información puede considerar simultáneamente para generar respuestas.
Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.
Técnica que almacena el cómputo interno de prefijos de prompt reutilizados entre llamadas a LLMs, reduciendo costos hasta un 90% y latencia hasta un 85% en aplicaciones con contexto repetitivo.
Técnicas para reducir el costo, la latencia y los recursos necesarios para ejecutar modelos de lenguaje en producción, desde cuantización hasta serving distribuido.
Capacidad de los LLMs para generar llamadas estructuradas a funciones externas basándose en lenguaje natural, habilitando la integración con APIs, bases de datos y herramientas del mundo real.
Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.
Técnica de prompting que mejora el razonamiento de los LLMs al pedirles que descompongan problemas complejos en pasos intermedios explícitos antes de llegar a una conclusión.