Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.
Un embedding es una representación numérica de un dato — texto, imagen, audio — en forma de vector denso de dimensión fija. La propiedad fundamental es que datos semánticamente similares producen vectores cercanos en el espacio, mientras que datos diferentes quedan distantes.
Por ejemplo, los embeddings de «perro» y «cachorro» estarán cerca, mientras que «perro» y «economía» estarán lejos. Esto permite a las máquinas operar con «significado» de forma matemática.
Un modelo de embeddings (como text-embedding-3-small de OpenAI o all-MiniLM-L6-v2 de Sentence Transformers) toma un texto de entrada y produce un vector de dimensión fija — típicamente entre 384 y 3072 dimensiones.
El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.
Para comparar embeddings se usan métricas de distancia:
from sentence_transformers import SentenceTransformer
import numpy as np
model = SentenceTransformer("all-MiniLM-L6-v2")
texts = [
"El perro corre por el parque",
"Un cachorro juega en el jardín",
"La inflación afecta la economía global"
]
embeddings = model.encode(texts)
# Similitud coseno entre los dos primeros (semánticamente cercanos)
sim_01 = np.dot(embeddings[0], embeddings[1]) / (
np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1])
)
# sim_01 ≈ 0.68 (alta similitud)
# Similitud entre el primero y el tercero (semánticamente distantes)
sim_02 = np.dot(embeddings[0], embeddings[2]) / (
np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[2])
)
# sim_02 ≈ 0.05 (baja similitud)| Modelo | Dimensiones | Contexto máx. | Uso típico |
|---|---|---|---|
all-MiniLM-L6-v2 | 384 | 256 tokens | Prototipado rápido, bajo costo |
text-embedding-3-small (OpenAI) | 1.536 | 8.191 tokens | Producción con API |
text-embedding-3-large (OpenAI) | 3.072 | 8.191 tokens | Máxima calidad |
amazon.titan-embed-text-v2 | 1.024 | 8.192 tokens | AWS Bedrock |
voyage-3 (Voyage AI) | 1.024 | 32.000 tokens | Contexto largo, código |
La elección depende del balance entre calidad, costo y latencia. Para la mayoría de aplicaciones de RAG, un modelo de 1.024 dimensiones ofrece buen equilibrio.
| Aplicación | Cómo usa embeddings | Métrica de similitud |
|---|---|---|
| Búsqueda semántica | Compara embedding de la query con embeddings de documentos | Similitud coseno |
| RAG | Recupera fragmentos relevantes para dar contexto al LLM | Similitud coseno + reranking |
| Clasificación | Agrupa documentos por cercanía en el espacio vectorial | Distancia euclidiana o coseno |
| Detección de duplicados | Identifica contenido con alta similitud | Umbral de similitud (> 0.9) |
| Recomendaciones | Sugiere contenido cercano al perfil del usuario | k-nearest neighbors |
Los embeddings son la base de la búsqueda semántica, los sistemas RAG y la clasificación de contenido. Sin ellos, las aplicaciones de IA quedan limitadas a coincidencias exactas de texto. Entender sus propiedades — dimensionalidad, distancia coseno, limitaciones por idioma — es esencial para construir sistemas de recuperación de información efectivos.
Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.
Técnica de recuperación de información que utiliza embeddings vectoriales para encontrar resultados por significado, no solo por coincidencia exacta de palabras clave.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.
Crónica de construir un segundo cerebro con grafo de conocimiento, pipeline bilingüe y endpoints para agentes — en días, no semanas, y lo que eso enseña sobre la brecha entre teoría y sistemas que funcionan.
Sistemas de almacenamiento especializados en indexar y buscar vectores de alta dimensión de forma eficiente, habilitando búsqueda semántica y aplicaciones de RAG a escala.
Proceso de dividir texto en unidades discretas (tokens) que los modelos de lenguaje pueden procesar numéricamente, fundamental para cómo los LLMs entienden y generan texto.