Conceptos

Embeddings

Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.

seed#embeddings#vectors#nlp#semantic-similarity#representation-learning

¿Qué es?

Un embedding es una representación numérica de un dato — texto, imagen, audio — en forma de vector denso de dimensión fija. La propiedad fundamental es que datos semánticamente similares producen vectores cercanos en el espacio, mientras que datos diferentes quedan distantes.

Por ejemplo, los embeddings de «perro» y «cachorro» estarán cerca, mientras que «perro» y «economía» estarán lejos. Esto permite a las máquinas operar con «significado» de forma matemática.

¿Cómo funcionan?

Generación

Un modelo de embeddings (como text-embedding-3-small de OpenAI o all-MiniLM-L6-v2 de Sentence Transformers) toma un texto de entrada y produce un vector de dimensión fija — típicamente entre 384 y 3072 dimensiones.

El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.

Métricas de similitud

Para comparar embeddings se usan métricas de distancia:

  • Similitud coseno: mide el ángulo entre vectores (la más común)
  • Producto punto: similar al coseno pero sensible a la magnitud
  • Distancia euclidiana: distancia geométrica directa entre puntos

Tipos de embeddings

  • Word embeddings: un vector por palabra (Word2Vec, GloVe) — históricos pero limitados
  • Sentence embeddings: un vector por oración o párrafo — el estándar actual
  • Multimodales: vectores que representan texto e imágenes en el mismo espacio (CLIP)

Aplicaciones

AplicaciónCómo usa embeddingsMétrica de similitud
Búsqueda semánticaCompara embedding de la query con embeddings de documentosSimilitud coseno
RAGRecupera fragmentos relevantes para dar contexto al LLMSimilitud coseno + reranking
ClasificaciónAgrupa documentos por cercanía en el espacio vectorialDistancia euclidiana o coseno
Detección de duplicadosIdentifica contenido con alta similitudUmbral de similitud (> 0.9)
RecomendacionesSugiere contenido cercano al perfil del usuariok-nearest neighbors

Consideraciones prácticas

  • Dimensionalidad vs. rendimiento: más dimensiones capturan más matices pero requieren más almacenamiento y cómputo
  • Modelo importa: el mismo texto produce embeddings diferentes con modelos diferentes — no son intercambiables
  • Chunking: para documentos largos, es mejor generar embeddings por fragmento que por documento completo
  • Normalización: algunos modelos requieren normalizar los vectores antes de comparar

¿Por qué importa?

Los embeddings son la base de la búsqueda semántica, los sistemas RAG y la clasificación de contenido. Sin ellos, las aplicaciones de IA quedan limitadas a coincidencias exactas de texto. Entender sus propiedades — dimensionalidad, distancia coseno, limitaciones por idioma — es esencial para construir sistemas de recuperación de información efectivos.

Referencias

Conceptos