Embeddings

¿Qué es?

Un embedding es una representación numérica de un dato — texto, imagen, audio — en forma de vector denso de dimensión fija. La propiedad fundamental es que datos semánticamente similares producen vectores cercanos en el espacio, mientras que datos diferentes quedan distantes.

Por ejemplo, los embeddings de «perro» y «cachorro» estarán cerca, mientras que «perro» y «economía» estarán lejos. Esto permite a las máquinas operar con «significado» de forma matemática.

¿Cómo funcionan?

Generación

Un modelo de embeddings (como text-embedding-3-small de OpenAI o all-MiniLM-L6-v2 de Sentence Transformers) toma un texto de entrada y produce un vector de dimensión fija — típicamente entre 384 y 3072 dimensiones.

El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.

Métricas de similitud

Para comparar embeddings se usan métricas de distancia:

Similitud coseno: mide el ángulo entre vectores (la más común)
Producto punto: similar al coseno pero sensible a la magnitud
Distancia euclidiana: distancia geométrica directa entre puntos

Tipos de embeddings

Word embeddings: un vector por palabra (Word2Vec, GloVe) — históricos pero limitados
Sentence embeddings: un vector por oración o párrafo — el estándar actual
Multimodales: vectores que representan texto e imágenes en el mismo espacio (CLIP)

Ejemplo con Sentence Transformers

from sentence_transformers import SentenceTransformer
import numpy as np
 
model = SentenceTransformer("all-MiniLM-L6-v2")
 
texts = [
    "El perro corre por el parque",
    "Un cachorro juega en el jardín",
    "La inflación afecta la economía global"
]
 
embeddings = model.encode(texts)
 
# Similitud coseno entre los dos primeros (semánticamente cercanos)
sim_01 = np.dot(embeddings[0], embeddings[1]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1])
)
# sim_01 ≈ 0.68 (alta similitud)
 
# Similitud entre el primero y el tercero (semánticamente distantes)
sim_02 = np.dot(embeddings[0], embeddings[2]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[2])
)
# sim_02 ≈ 0.05 (baja similitud)

Modelos populares

Modelo	Dimensiones	Contexto máx.	Uso típico
`all-MiniLM-L6-v2`	384	256 tokens	Prototipado rápido, bajo costo
`text-embedding-3-small` (OpenAI)	1.536	8.191 tokens	Producción con API
`text-embedding-3-large` (OpenAI)	3.072	8.191 tokens	Máxima calidad
`amazon.titan-embed-text-v2`	1.024	8.192 tokens	AWS Bedrock
`voyage-3` (Voyage AI)	1.024	32.000 tokens	Contexto largo, código

La elección depende del balance entre calidad, costo y latencia. Para la mayoría de aplicaciones de RAG, un modelo de 1.024 dimensiones ofrece buen equilibrio.

Aplicaciones

Aplicación	Cómo usa embeddings	Métrica de similitud
Búsqueda semántica	Compara embedding de la query con embeddings de documentos	Similitud coseno
RAG	Recupera fragmentos relevantes para dar contexto al LLM	Similitud coseno + reranking
Clasificación	Agrupa documentos por cercanía en el espacio vectorial	Distancia euclidiana o coseno
Detección de duplicados	Identifica contenido con alta similitud	Umbral de similitud (> 0.9)
Recomendaciones	Sugiere contenido cercano al perfil del usuario	k-nearest neighbors

Consideraciones prácticas

Dimensionalidad vs. rendimiento: más dimensiones capturan más matices pero requieren más almacenamiento y cómputo
Modelo importa: el mismo texto produce embeddings diferentes con modelos diferentes — no son intercambiables
Chunking: para documentos largos, es mejor generar embeddings por fragmento que por documento completo
Normalización: algunos modelos requieren normalizar los vectores antes de comparar

¿Por qué importa?

Los embeddings son la base de la búsqueda semántica, los sistemas RAG y la clasificación de contenido. Sin ellos, las aplicaciones de IA quedan limitadas a coincidencias exactas de texto. Entender sus propiedades — dimensionalidad, distancia coseno, limitaciones por idioma — es esencial para construir sistemas de recuperación de información efectivos.

Referencias

Efficient Estimation of Word Representations in Vector Space — Mikolov et al., 2013. El paper original de Word2Vec.
Sentence-BERT — Reimers & Gurevych, 2019. Embeddings de oraciones eficientes basados en BERT.
Text Embeddings by Weakly-Supervised Contrastive Pre-training — Wang et al., 2022. E5, embeddings de texto de propósito general.
MTEB: Massive Text Embedding Benchmark — Hugging Face, 2022. Benchmark para comparar modelos de embeddings.
Pretrained Models — Sentence Transformers — SBERT, 2024. Catálogo de modelos pre-entrenados con métricas.

¿Qué es?

¿Cómo funcionan?

Generación

El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.

Métricas de similitud

Para comparar embeddings se usan métricas de distancia:

Similitud coseno: mide el ángulo entre vectores (la más común)
Producto punto: similar al coseno pero sensible a la magnitud
Distancia euclidiana: distancia geométrica directa entre puntos

Tipos de embeddings

Word embeddings: un vector por palabra (Word2Vec, GloVe) — históricos pero limitados
Sentence embeddings: un vector por oración o párrafo — el estándar actual
Multimodales: vectores que representan texto e imágenes en el mismo espacio (CLIP)

Ejemplo con Sentence Transformers

from sentence_transformers import SentenceTransformer
import numpy as np
 
model = SentenceTransformer("all-MiniLM-L6-v2")
 
texts = [
    "El perro corre por el parque",
    "Un cachorro juega en el jardín",
    "La inflación afecta la economía global"
]
 
embeddings = model.encode(texts)
 
# Similitud coseno entre los dos primeros (semánticamente cercanos)
sim_01 = np.dot(embeddings[0], embeddings[1]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1])
)
# sim_01 ≈ 0.68 (alta similitud)
 
# Similitud entre el primero y el tercero (semánticamente distantes)
sim_02 = np.dot(embeddings[0], embeddings[2]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[2])
)
# sim_02 ≈ 0.05 (baja similitud)

Modelos populares

Modelo	Dimensiones	Contexto máx.	Uso típico
`all-MiniLM-L6-v2`	384	256 tokens	Prototipado rápido, bajo costo
`text-embedding-3-small` (OpenAI)	1.536	8.191 tokens	Producción con API
`text-embedding-3-large` (OpenAI)	3.072	8.191 tokens	Máxima calidad
`amazon.titan-embed-text-v2`	1.024	8.192 tokens	AWS Bedrock
`voyage-3` (Voyage AI)	1.024	32.000 tokens	Contexto largo, código

La elección depende del balance entre calidad, costo y latencia. Para la mayoría de aplicaciones de RAG, un modelo de 1.024 dimensiones ofrece buen equilibrio.

Aplicaciones

Aplicación	Cómo usa embeddings	Métrica de similitud
Búsqueda semántica	Compara embedding de la query con embeddings de documentos	Similitud coseno
RAG	Recupera fragmentos relevantes para dar contexto al LLM	Similitud coseno + reranking
Clasificación	Agrupa documentos por cercanía en el espacio vectorial	Distancia euclidiana o coseno
Detección de duplicados	Identifica contenido con alta similitud	Umbral de similitud (> 0.9)
Recomendaciones	Sugiere contenido cercano al perfil del usuario	k-nearest neighbors

Consideraciones prácticas

Dimensionalidad vs. rendimiento: más dimensiones capturan más matices pero requieren más almacenamiento y cómputo
Modelo importa: el mismo texto produce embeddings diferentes con modelos diferentes — no son intercambiables
Chunking: para documentos largos, es mejor generar embeddings por fragmento que por documento completo
Normalización: algunos modelos requieren normalizar los vectores antes de comparar

¿Por qué importa?

Referencias

Efficient Estimation of Word Representations in Vector Space — Mikolov et al., 2013. El paper original de Word2Vec.
Sentence-BERT — Reimers & Gurevych, 2019. Embeddings de oraciones eficientes basados en BERT.
Text Embeddings by Weakly-Supervised Contrastive Pre-training — Wang et al., 2022. E5, embeddings de texto de propósito general.
MTEB: Massive Text Embedding Benchmark — Hugging Face, 2022. Benchmark para comparar modelos de embeddings.
Pretrained Models — Sentence Transformers — SBERT, 2024. Catálogo de modelos pre-entrenados con métricas.

Embeddings

¿Qué es?

¿Cómo funcionan?

Generación

Métricas de similitud

Tipos de embeddings

Ejemplo con Sentence Transformers

Modelos populares

Aplicaciones

Consideraciones prácticas

¿Por qué importa?

Referencias

Contenido relacionado

Embeddings

¿Qué es?

¿Cómo funcionan?

Generación

Métricas de similitud

Tipos de embeddings

Ejemplo con Sentence Transformers

Modelos populares

Aplicaciones

Consideraciones prácticas

¿Por qué importa?

Referencias

Contenido relacionado