Embeddings
Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.
¿Qué es?
Un embedding es una representación numérica de un dato — texto, imagen, audio — en forma de vector denso de dimensión fija. La propiedad fundamental es que datos semánticamente similares producen vectores cercanos en el espacio, mientras que datos diferentes quedan distantes.
Por ejemplo, los embeddings de «perro» y «cachorro» estarán cerca, mientras que «perro» y «economía» estarán lejos. Esto permite a las máquinas operar con «significado» de forma matemática.
¿Cómo funcionan?
Generación
Un modelo de embeddings (como text-embedding-3-small de OpenAI o all-MiniLM-L6-v2 de Sentence Transformers) toma un texto de entrada y produce un vector de dimensión fija — típicamente entre 384 y 3072 dimensiones.
El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.
Métricas de similitud
Para comparar embeddings se usan métricas de distancia:
- Similitud coseno: mide el ángulo entre vectores (la más común)
- Producto punto: similar al coseno pero sensible a la magnitud
- Distancia euclidiana: distancia geométrica directa entre puntos
Tipos de embeddings
- Word embeddings: un vector por palabra (Word2Vec, GloVe) — históricos pero limitados
- Sentence embeddings: un vector por oración o párrafo — el estándar actual
- Multimodales: vectores que representan texto e imágenes en el mismo espacio (CLIP)
Aplicaciones
| Aplicación | Cómo usa embeddings | Métrica de similitud |
|---|---|---|
| Búsqueda semántica | Compara embedding de la query con embeddings de documentos | Similitud coseno |
| RAG | Recupera fragmentos relevantes para dar contexto al LLM | Similitud coseno + reranking |
| Clasificación | Agrupa documentos por cercanía en el espacio vectorial | Distancia euclidiana o coseno |
| Detección de duplicados | Identifica contenido con alta similitud | Umbral de similitud (> 0.9) |
| Recomendaciones | Sugiere contenido cercano al perfil del usuario | k-nearest neighbors |
Consideraciones prácticas
- Dimensionalidad vs. rendimiento: más dimensiones capturan más matices pero requieren más almacenamiento y cómputo
- Modelo importa: el mismo texto produce embeddings diferentes con modelos diferentes — no son intercambiables
- Chunking: para documentos largos, es mejor generar embeddings por fragmento que por documento completo
- Normalización: algunos modelos requieren normalizar los vectores antes de comparar
¿Por qué importa?
Los embeddings son la base de la búsqueda semántica, los sistemas RAG y la clasificación de contenido. Sin ellos, las aplicaciones de IA quedan limitadas a coincidencias exactas de texto. Entender sus propiedades — dimensionalidad, distancia coseno, limitaciones por idioma — es esencial para construir sistemas de recuperación de información efectivos.
Referencias
- Efficient Estimation of Word Representations in Vector Space — Mikolov et al., 2013. El paper original de Word2Vec.
- Sentence-BERT — Reimers & Gurevych, 2019. Embeddings de oraciones eficientes basados en BERT.
- Text Embeddings by Weakly-Supervised Contrastive Pre-training — Wang et al., 2022. E5, embeddings de texto de propósito general.