Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Embeddings

Representaciones vectoriales densas que capturan el significado semántico de texto, imágenes u otros datos en un espacio numérico donde la proximidad refleja similitud conceptual.

evergreen#embeddings#vectors#nlp#semantic-similarity#representation-learning

¿Qué es?

Un embedding es una representación numérica de un dato — texto, imagen, audio — en forma de vector denso de dimensión fija. La propiedad fundamental es que datos semánticamente similares producen vectores cercanos en el espacio, mientras que datos diferentes quedan distantes.

Por ejemplo, los embeddings de «perro» y «cachorro» estarán cerca, mientras que «perro» y «economía» estarán lejos. Esto permite a las máquinas operar con «significado» de forma matemática.

¿Cómo funcionan?

Generación

Un modelo de embeddings (como text-embedding-3-small de OpenAI o all-MiniLM-L6-v2 de Sentence Transformers) toma un texto de entrada y produce un vector de dimensión fija — típicamente entre 384 y 3072 dimensiones.

El modelo aprende estas representaciones durante el entrenamiento, optimizando para que textos con significado similar produzcan vectores cercanos.

Métricas de similitud

Para comparar embeddings se usan métricas de distancia:

  • Similitud coseno: mide el ángulo entre vectores (la más común)
  • Producto punto: similar al coseno pero sensible a la magnitud
  • Distancia euclidiana: distancia geométrica directa entre puntos

Tipos de embeddings

  • Word embeddings: un vector por palabra (Word2Vec, GloVe) — históricos pero limitados
  • Sentence embeddings: un vector por oración o párrafo — el estándar actual
  • Multimodales: vectores que representan texto e imágenes en el mismo espacio (CLIP)

Ejemplo con Sentence Transformers

from sentence_transformers import SentenceTransformer
import numpy as np
 
model = SentenceTransformer("all-MiniLM-L6-v2")
 
texts = [
    "El perro corre por el parque",
    "Un cachorro juega en el jardín",
    "La inflación afecta la economía global"
]
 
embeddings = model.encode(texts)
 
# Similitud coseno entre los dos primeros (semánticamente cercanos)
sim_01 = np.dot(embeddings[0], embeddings[1]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1])
)
# sim_01 ≈ 0.68 (alta similitud)
 
# Similitud entre el primero y el tercero (semánticamente distantes)
sim_02 = np.dot(embeddings[0], embeddings[2]) / (
    np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[2])
)
# sim_02 ≈ 0.05 (baja similitud)

Modelos populares

ModeloDimensionesContexto máx.Uso típico
all-MiniLM-L6-v2384256 tokensPrototipado rápido, bajo costo
text-embedding-3-small (OpenAI)1.5368.191 tokensProducción con API
text-embedding-3-large (OpenAI)3.0728.191 tokensMáxima calidad
amazon.titan-embed-text-v21.0248.192 tokensAWS Bedrock
voyage-3 (Voyage AI)1.02432.000 tokensContexto largo, código

La elección depende del balance entre calidad, costo y latencia. Para la mayoría de aplicaciones de RAG, un modelo de 1.024 dimensiones ofrece buen equilibrio.

Aplicaciones

AplicaciónCómo usa embeddingsMétrica de similitud
Búsqueda semánticaCompara embedding de la query con embeddings de documentosSimilitud coseno
RAGRecupera fragmentos relevantes para dar contexto al LLMSimilitud coseno + reranking
ClasificaciónAgrupa documentos por cercanía en el espacio vectorialDistancia euclidiana o coseno
Detección de duplicadosIdentifica contenido con alta similitudUmbral de similitud (> 0.9)
RecomendacionesSugiere contenido cercano al perfil del usuariok-nearest neighbors

Consideraciones prácticas

  • Dimensionalidad vs. rendimiento: más dimensiones capturan más matices pero requieren más almacenamiento y cómputo
  • Modelo importa: el mismo texto produce embeddings diferentes con modelos diferentes — no son intercambiables
  • Chunking: para documentos largos, es mejor generar embeddings por fragmento que por documento completo
  • Normalización: algunos modelos requieren normalizar los vectores antes de comparar

¿Por qué importa?

Los embeddings son la base de la búsqueda semántica, los sistemas RAG y la clasificación de contenido. Sin ellos, las aplicaciones de IA quedan limitadas a coincidencias exactas de texto. Entender sus propiedades — dimensionalidad, distancia coseno, limitaciones por idioma — es esencial para construir sistemas de recuperación de información efectivos.

Referencias

  • Efficient Estimation of Word Representations in Vector Space — Mikolov et al., 2013. El paper original de Word2Vec.
  • Sentence-BERT — Reimers & Gurevych, 2019. Embeddings de oraciones eficientes basados en BERT.
  • Text Embeddings by Weakly-Supervised Contrastive Pre-training — Wang et al., 2022. E5, embeddings de texto de propósito general.
  • MTEB: Massive Text Embedding Benchmark — Hugging Face, 2022. Benchmark para comparar modelos de embeddings.
  • Pretrained Models — Sentence Transformers — SBERT, 2024. Catálogo de modelos pre-entrenados con métricas.

Contenido relacionado

  • Redes Neuronales

    Modelos computacionales inspirados en la estructura del cerebro que aprenden patrones a partir de datos, formando la base de los sistemas modernos de inteligencia artificial.

  • Búsqueda semántica

    Técnica de recuperación de información que utiliza embeddings vectoriales para encontrar resultados por significado, no solo por coincidencia exacta de palabras clave.

  • Modelos de Lenguaje de Gran Escala

    Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.

  • Generación Aumentada por Recuperación

    Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.

  • Construyendo un segundo cerebro en público

    Crónica de construir un segundo cerebro con grafo de conocimiento, pipeline bilingüe y endpoints para agentes — en días, no semanas, y lo que eso enseña sobre la brecha entre teoría y sistemas que funcionan.

  • Bases de Datos Vectoriales

    Sistemas de almacenamiento especializados en indexar y buscar vectores de alta dimensión de forma eficiente, habilitando búsqueda semántica y aplicaciones de RAG a escala.

  • Tokenización

    Proceso de dividir texto en unidades discretas (tokens) que los modelos de lenguaje pueden procesar numéricamente, fundamental para cómo los LLMs entienden y generan texto.

Conceptos