Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

AWS Bedrock

Servicio serverless de AWS que proporciona acceso a modelos fundacionales de múltiples proveedores (Anthropic, Meta, Mistral, Amazon) vía API unificada, sin gestionar infraestructura de ML.

evergreen#aws#bedrock#llm#ai#foundation-models#serverless

¿Qué es?

Amazon Bedrock es un servicio serverless que proporciona acceso a modelos fundacionales de múltiples proveedores a través de una API unificada. No hay infraestructura que gestionar — solo llamas a la API y pagas por tokens consumidos.

El servicio abstrae la complejidad de desplegar y escalar modelos de IA en infraestructura de GPU, permitiendo a los equipos de ingeniería integrar capacidades de IA generativa sin expertise en operaciones de machine learning. Bedrock maneja automáticamente el escalado, la disponibilidad y las actualizaciones de modelos.

A diferencia de soluciones self-hosted, Bedrock opera bajo el modelo de responsabilidad compartida de AWS, donde Amazon gestiona la infraestructura subyacente, el mantenimiento de modelos y la seguridad física, mientras los usuarios mantienen control sobre sus datos y configuraciones de acceso.

Loading diagram...

Proveedores y modelos

Bedrock ofrece modelos de más de 15 proveedores. Los precios varían por región y cambian frecuentemente — consulta siempre la página oficial de precios para cifras actualizadas.

ProveedorModelos destacadosFortalezas
AnthropicClaude Sonnet 4, Claude Haiku 3.5Código, análisis complejo, agentes
AmazonNova Pro, Nova Lite, Nova MicroCosto-rendimiento, multimodal
MetaLlama 4, Llama 3.3 70BOpen-weight, fine-tuning, multilingüe
MistralMistral Large 3, Devstral 2Razonamiento, código, eficiencia
DeepSeekDeepSeek v3.2Razonamiento a bajo costo
CohereRerank 3.5Búsqueda y re-ranking

Converse API

La Converse API es la interfaz recomendada para interactuar con modelos en Bedrock. Proporciona un formato unificado que funciona con todos los modelos, eliminando la necesidad de formatear mensajes específicos por proveedor:

import boto3
import json
 
bedrock_runtime = boto3.client('bedrock-runtime')
 
# Invocación unificada — funciona con cualquier modelo
response = bedrock_runtime.converse(
    modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': '¿Cuáles son las ventajas de arquitecturas event-driven?'}]
        }
    ],
    inferenceConfig={
        'maxTokens': 1000,
        'temperature': 0.7
    }
)
 
# Respuesta estructurada
output = response['output']['message']['content'][0]['text']
usage = response['usage']  # inputTokens, outputTokens
print(f"Tokens: {usage['inputTokens']} in, {usage['outputTokens']} out")

Para streaming en tiempo real, usa converse_stream:

response = bedrock_runtime.converse_stream(
    modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
    messages=[
        {'role': 'user', 'content': [{'text': 'Explica event sourcing'}]}
    ],
    inferenceConfig={'maxTokens': 500}
)
 
for event in response['stream']:
    if 'contentBlockDelta' in event:
        print(event['contentBlockDelta']['delta']['text'], end='')

Bedrock Agents

Los agentes de IA en Bedrock permiten crear sistemas autónomos que usan herramientas (Lambda functions) y consultan bases de conocimiento:

bedrock_agent = boto3.client('bedrock-agent')
 
agent_response = bedrock_agent.create_agent(
    agentName='support-agent',
    foundationModel='anthropic.claude-sonnet-4-20250514-v1:0',
    instruction='''Eres un agente de soporte técnico.
    Usa las herramientas disponibles para:
    1. Consultar el estado de pedidos
    2. Buscar documentación técnica
    3. Crear tickets de soporte''',
    actionGroups=[
        {
            'actionGroupName': 'order-tools',
            'actionGroupExecutor': {
                'lambda': 'arn:aws:lambda:us-east-1:<account-id>:function:order-lookup'
            },
            'apiSchema': {
                's3': {
                    's3BucketName': 'agent-schemas',
                    's3ObjectKey': 'order-api-schema.json'
                }
            }
        }
    ]
)

Desde marzo 2025, Bedrock soporta colaboración multi-agente, donde un agente supervisor coordina agentes especializados para flujos de trabajo complejos.

Knowledge Bases y RAG

Las Knowledge Bases implementan RAG managed, sincronizando automáticamente con fuentes de datos en S3, Confluence, SharePoint o web crawlers:

kb_response = bedrock_agent.create_knowledge_base(
    name='technical-docs-kb',
    description='Documentación técnica de la empresa',
    roleArn='arn:aws:iam::<account-id>:role/BedrockKBRole',
    knowledgeBaseConfiguration={
        'type': 'VECTOR',
        'vectorKnowledgeBaseConfiguration': {
            'embeddingModelArn': 'arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0'
        }
    },
    storageConfiguration={
        'type': 'OPENSEARCH_SERVERLESS',
        'opensearchServerlessConfiguration': {
            'collectionArn': 'arn:aws:aoss:us-east-1:<account-id>:collection/kb-collection',
            'vectorIndexName': 'bedrock-kb-index',
            'fieldMapping': {
                'vectorField': 'bedrock-knowledge-base-default-vector',
                'textField': 'AMAZON_BEDROCK_TEXT_CHUNK',
                'metadataField': 'AMAZON_BEDROCK_METADATA'
            }
        }
    }
)
 
# Configurar fuente de datos con chunking
data_source = bedrock_agent.create_data_source(
    knowledgeBaseId=kb_response['knowledgeBase']['knowledgeBaseId'],
    name='s3-docs',
    dataSourceConfiguration={
        'type': 'S3',
        's3Configuration': {
            'bucketArn': 'arn:aws:s3:::my-docs-bucket',
            'inclusionPrefixes': ['technical-docs/']
        }
    },
    vectorIngestionConfiguration={
        'chunkingConfiguration': {
            'chunkingStrategy': 'FIXED_SIZE',
            'fixedSizeChunkingConfiguration': {
                'maxTokens': 512,
                'overlapPercentage': 20
            }
        }
    }
)

Guardrails y seguridad

Bedrock Guardrails proporciona filtros de contenido y seguridad de IA aplicables a cualquier modelo:

bedrock = boto3.client('bedrock')
 
guardrail = bedrock.create_guardrail(
    name='enterprise-guardrail',
    description='Filtros para contenido empresarial',
    topicPolicyConfig={
        'topicsConfig': [
            {
                'name': 'Financial Advice',
                'definition': 'Evitar consejos financieros específicos',
                'examples': ['¿Debo invertir en acciones?'],
                'type': 'DENY'
            }
        ]
    },
    contentPolicyConfig={
        'filtersConfig': [
            {'type': 'SEXUAL', 'inputStrength': 'HIGH', 'outputStrength': 'HIGH'},
            {'type': 'VIOLENCE', 'inputStrength': 'MEDIUM', 'outputStrength': 'MEDIUM'}
        ]
    },
    sensitiveInformationPolicyConfig={
        'piiEntitiesConfig': [
            {'type': 'EMAIL', 'action': 'BLOCK'},
            {'type': 'PHONE', 'action': 'ANONYMIZE'}
        ]
    }
)
 
# Aplicar guardrails con Converse API
response = bedrock_runtime.converse(
    modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
    messages=[{'role': 'user', 'content': [{'text': 'Pregunta del usuario'}]}],
    guardrailConfig={
        'guardrailIdentifier': guardrail['guardrailId'],
        'guardrailVersion': '1'
    },
    inferenceConfig={'maxTokens': 1000}
)

Cuándo usar Bedrock vs alternativas

CriterioBedrockSageMakerAPI directa (Anthropic/OpenAI)
InfraestructuraServerless, zero-opsRequiere configurar endpointsServerless
ModelosMulti-proveedorCualquier modelo (HuggingFace, custom)Solo del proveedor
Fine-tuningLimitado a modelos soportadosCompleto, cualquier frameworkVaría por proveedor
SeguridadIAM, VPC, PrivateLink, GuardrailsIAM, VPC, endpoints privadosAPI keys, limitado
LatenciaBaja (misma región AWS)ConfigurableVariable (internet)
Vendor lock-inMedio (API unificada, pero AWS)Alto (infra AWS)Bajo (API estándar)
Caso idealEquipos AWS que necesitan multi-modeloML custom, modelos propiosPrototipado rápido, single-provider

Estrategias de optimización de costos

La optimización de costos en Bedrock requiere estrategias específicas:

  • Selección de modelo por tarea: usar modelos pequeños (Nova Micro, Haiku) para clasificación y tareas simples; reservar modelos premium para análisis complejo
  • Batch inference: procesamiento asíncrono con 50% de descuento sobre precios on-demand
  • Prompt caching: reutilizar contextos largos entre invocaciones para reducir tokens de entrada
  • Intelligent Prompt Routing: enrutamiento automático entre modelos de la misma familia según complejidad ($1 por 1,000 requests, ahorro potencial de hasta 30%)
  • Monitoreo con CloudWatch: configurar alarmas sobre InputTokenCount y OutputTokenCount para detectar picos de uso

¿Por qué importa?

Para equipos de ingeniería staff+, Bedrock resuelve el problema de adopción de IA sin deuda técnica. Elimina la complejidad operacional de gestionar infraestructura de GPU mientras mantiene el control sobre datos y configuraciones de seguridad a través de IAM, VPC y PrivateLink.

El modelo de precios por token permite escalado elástico sin compromisos de capacidad, crucial para cargas de trabajo impredecibles. La Converse API unificada permite cambiar entre modelos sin refactoring de código, habilitando optimización continua de costo-rendimiento conforme evolucionan los modelos.

La integración nativa con el ecosistema AWS — CloudWatch para observabilidad, CloudTrail para auditoría, IAM para control de acceso granular — reduce la superficie de ataque y simplifica cumplimiento normativo en entornos empresariales.

Referencias

  • Amazon Bedrock User Guide — AWS, 2024. Documentación completa del servicio.
  • Using the Converse API — AWS, 2024. Guía de la API unificada para invocación de modelos.
  • Bedrock Agents Developer Guide — AWS, 2024. Guía para crear agentes de IA con herramientas.
  • Bedrock Knowledge Bases — AWS, 2024. Implementación de RAG managed.
  • Bedrock Guardrails — AWS, 2024. Configuración de filtros de seguridad y PII.
  • Amazon Bedrock Pricing — AWS, 2024. Precios por modelo y región.
  • Multi-agent collaboration in Amazon Bedrock — AWS, 2025. Colaboración multi-agente para flujos complejos.
  • Anthropic Claude on Bedrock Best Practices — Anthropic, 2024. Optimizaciones específicas para Claude en Bedrock.

Contenido relacionado

  • Modelos de Lenguaje de Gran Escala

    Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.

  • Agentes de IA

    Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.

  • Serverless

    Modelo de computación en la nube donde el proveedor gestiona la infraestructura automáticamente, permitiendo ejecutar código sin aprovisionar ni administrar servidores, pagando solo por el uso real.

  • Optimización de Costos

    Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.

  • Seguridad en IA

    Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.

  • Generación Aumentada por Recuperación

    Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.

  • De prototipo a producción: un segundo cerebro serverless en AWS

    Diseño de arquitectura para escalar un segundo cerebro personal a un sistema de producción con AWS serverless — desde el prototipo actual hasta casos de uso especializados en legal, investigación y comunidad.

  • Construyendo un segundo cerebro en público

    Crónica de construir un segundo cerebro con grafo de conocimiento, pipeline bilingüe y endpoints para agentes — en días, no semanas, y lo que eso enseña sobre la brecha entre teoría y sistemas que funcionan.

  • Segundo Cerebro Serverless

    Backend serverless de producción para un grafo de conocimiento personal — DynamoDB, Lambda, Bedrock, MCP, Step Functions. La implementación de la arquitectura descrita en el ensayo «Del prototipo a producción».

Conceptos