Servicio serverless de AWS que proporciona acceso a modelos fundacionales de múltiples proveedores (Anthropic, Meta, Mistral, Amazon) vía API unificada, sin gestionar infraestructura de ML.
Amazon Bedrock es un servicio serverless que proporciona acceso a modelos fundacionales de múltiples proveedores a través de una API unificada. No hay infraestructura que gestionar — solo llamas a la API y pagas por tokens consumidos.
El servicio abstrae la complejidad de desplegar y escalar modelos de IA en infraestructura de GPU, permitiendo a los equipos de ingeniería integrar capacidades de IA generativa sin expertise en operaciones de machine learning. Bedrock maneja automáticamente el escalado, la disponibilidad y las actualizaciones de modelos.
A diferencia de soluciones self-hosted, Bedrock opera bajo el modelo de responsabilidad compartida de AWS, donde Amazon gestiona la infraestructura subyacente, el mantenimiento de modelos y la seguridad física, mientras los usuarios mantienen control sobre sus datos y configuraciones de acceso.
Bedrock ofrece modelos de más de 15 proveedores. Los precios varían por región y cambian frecuentemente — consulta siempre la página oficial de precios para cifras actualizadas.
| Proveedor | Modelos destacados | Fortalezas |
|---|---|---|
| Anthropic | Claude Sonnet 4, Claude Haiku 3.5 | Código, análisis complejo, agentes |
| Amazon | Nova Pro, Nova Lite, Nova Micro | Costo-rendimiento, multimodal |
| Meta | Llama 4, Llama 3.3 70B | Open-weight, fine-tuning, multilingüe |
| Mistral | Mistral Large 3, Devstral 2 | Razonamiento, código, eficiencia |
| DeepSeek | DeepSeek v3.2 | Razonamiento a bajo costo |
| Cohere | Rerank 3.5 | Búsqueda y re-ranking |
La Converse API es la interfaz recomendada para interactuar con modelos en Bedrock. Proporciona un formato unificado que funciona con todos los modelos, eliminando la necesidad de formatear mensajes específicos por proveedor:
import boto3
import json
bedrock_runtime = boto3.client('bedrock-runtime')
# Invocación unificada — funciona con cualquier modelo
response = bedrock_runtime.converse(
modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
messages=[
{
'role': 'user',
'content': [{'text': '¿Cuáles son las ventajas de arquitecturas event-driven?'}]
}
],
inferenceConfig={
'maxTokens': 1000,
'temperature': 0.7
}
)
# Respuesta estructurada
output = response['output']['message']['content'][0]['text']
usage = response['usage'] # inputTokens, outputTokens
print(f"Tokens: {usage['inputTokens']} in, {usage['outputTokens']} out")Para streaming en tiempo real, usa converse_stream:
response = bedrock_runtime.converse_stream(
modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
messages=[
{'role': 'user', 'content': [{'text': 'Explica event sourcing'}]}
],
inferenceConfig={'maxTokens': 500}
)
for event in response['stream']:
if 'contentBlockDelta' in event:
print(event['contentBlockDelta']['delta']['text'], end='')Los agentes de IA en Bedrock permiten crear sistemas autónomos que usan herramientas (Lambda functions) y consultan bases de conocimiento:
bedrock_agent = boto3.client('bedrock-agent')
agent_response = bedrock_agent.create_agent(
agentName='support-agent',
foundationModel='anthropic.claude-sonnet-4-20250514-v1:0',
instruction='''Eres un agente de soporte técnico.
Usa las herramientas disponibles para:
1. Consultar el estado de pedidos
2. Buscar documentación técnica
3. Crear tickets de soporte''',
actionGroups=[
{
'actionGroupName': 'order-tools',
'actionGroupExecutor': {
'lambda': 'arn:aws:lambda:us-east-1:<account-id>:function:order-lookup'
},
'apiSchema': {
's3': {
's3BucketName': 'agent-schemas',
's3ObjectKey': 'order-api-schema.json'
}
}
}
]
)Desde marzo 2025, Bedrock soporta colaboración multi-agente, donde un agente supervisor coordina agentes especializados para flujos de trabajo complejos.
Las Knowledge Bases implementan RAG managed, sincronizando automáticamente con fuentes de datos en S3, Confluence, SharePoint o web crawlers:
kb_response = bedrock_agent.create_knowledge_base(
name='technical-docs-kb',
description='Documentación técnica de la empresa',
roleArn='arn:aws:iam::<account-id>:role/BedrockKBRole',
knowledgeBaseConfiguration={
'type': 'VECTOR',
'vectorKnowledgeBaseConfiguration': {
'embeddingModelArn': 'arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0'
}
},
storageConfiguration={
'type': 'OPENSEARCH_SERVERLESS',
'opensearchServerlessConfiguration': {
'collectionArn': 'arn:aws:aoss:us-east-1:<account-id>:collection/kb-collection',
'vectorIndexName': 'bedrock-kb-index',
'fieldMapping': {
'vectorField': 'bedrock-knowledge-base-default-vector',
'textField': 'AMAZON_BEDROCK_TEXT_CHUNK',
'metadataField': 'AMAZON_BEDROCK_METADATA'
}
}
}
)
# Configurar fuente de datos con chunking
data_source = bedrock_agent.create_data_source(
knowledgeBaseId=kb_response['knowledgeBase']['knowledgeBaseId'],
name='s3-docs',
dataSourceConfiguration={
'type': 'S3',
's3Configuration': {
'bucketArn': 'arn:aws:s3:::my-docs-bucket',
'inclusionPrefixes': ['technical-docs/']
}
},
vectorIngestionConfiguration={
'chunkingConfiguration': {
'chunkingStrategy': 'FIXED_SIZE',
'fixedSizeChunkingConfiguration': {
'maxTokens': 512,
'overlapPercentage': 20
}
}
}
)Bedrock Guardrails proporciona filtros de contenido y seguridad de IA aplicables a cualquier modelo:
bedrock = boto3.client('bedrock')
guardrail = bedrock.create_guardrail(
name='enterprise-guardrail',
description='Filtros para contenido empresarial',
topicPolicyConfig={
'topicsConfig': [
{
'name': 'Financial Advice',
'definition': 'Evitar consejos financieros específicos',
'examples': ['¿Debo invertir en acciones?'],
'type': 'DENY'
}
]
},
contentPolicyConfig={
'filtersConfig': [
{'type': 'SEXUAL', 'inputStrength': 'HIGH', 'outputStrength': 'HIGH'},
{'type': 'VIOLENCE', 'inputStrength': 'MEDIUM', 'outputStrength': 'MEDIUM'}
]
},
sensitiveInformationPolicyConfig={
'piiEntitiesConfig': [
{'type': 'EMAIL', 'action': 'BLOCK'},
{'type': 'PHONE', 'action': 'ANONYMIZE'}
]
}
)
# Aplicar guardrails con Converse API
response = bedrock_runtime.converse(
modelId='us.anthropic.claude-sonnet-4-20250514-v1:0',
messages=[{'role': 'user', 'content': [{'text': 'Pregunta del usuario'}]}],
guardrailConfig={
'guardrailIdentifier': guardrail['guardrailId'],
'guardrailVersion': '1'
},
inferenceConfig={'maxTokens': 1000}
)| Criterio | Bedrock | SageMaker | API directa (Anthropic/OpenAI) |
|---|---|---|---|
| Infraestructura | Serverless, zero-ops | Requiere configurar endpoints | Serverless |
| Modelos | Multi-proveedor | Cualquier modelo (HuggingFace, custom) | Solo del proveedor |
| Fine-tuning | Limitado a modelos soportados | Completo, cualquier framework | Varía por proveedor |
| Seguridad | IAM, VPC, PrivateLink, Guardrails | IAM, VPC, endpoints privados | API keys, limitado |
| Latencia | Baja (misma región AWS) | Configurable | Variable (internet) |
| Vendor lock-in | Medio (API unificada, pero AWS) | Alto (infra AWS) | Bajo (API estándar) |
| Caso ideal | Equipos AWS que necesitan multi-modelo | ML custom, modelos propios | Prototipado rápido, single-provider |
La optimización de costos en Bedrock requiere estrategias específicas:
InputTokenCount y OutputTokenCount para detectar picos de usoPara equipos de ingeniería staff+, Bedrock resuelve el problema de adopción de IA sin deuda técnica. Elimina la complejidad operacional de gestionar infraestructura de GPU mientras mantiene el control sobre datos y configuraciones de seguridad a través de IAM, VPC y PrivateLink.
El modelo de precios por token permite escalado elástico sin compromisos de capacidad, crucial para cargas de trabajo impredecibles. La Converse API unificada permite cambiar entre modelos sin refactoring de código, habilitando optimización continua de costo-rendimiento conforme evolucionan los modelos.
La integración nativa con el ecosistema AWS — CloudWatch para observabilidad, CloudTrail para auditoría, IAM para control de acceso granular — reduce la superficie de ataque y simplifica cumplimiento normativo en entornos empresariales.
Redes neuronales masivas basadas en la arquitectura Transformer, entrenadas con enormes corpus de texto para comprender y generar lenguaje natural con capacidades emergentes como razonamiento, traducción y generación de código.
Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.
Modelo de computación en la nube donde el proveedor gestiona la infraestructura automáticamente, permitiendo ejecutar código sin aprovisionar ni administrar servidores, pagando solo por el uso real.
Prácticas y estrategias para minimizar el gasto en cloud sin sacrificar rendimiento, incluyendo right-sizing, reservas, spot instances y eliminación de recursos ociosos.
Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.
Patrón arquitectónico que combina la recuperación de información de fuentes externas con la generación de texto por LLMs, reduciendo alucinaciones y manteniendo el conocimiento actualizado sin reentrenar el modelo.
Diseño de arquitectura para escalar un segundo cerebro personal a un sistema de producción con AWS serverless — desde el prototipo actual hasta casos de uso especializados en legal, investigación y comunidad.
Crónica de construir un segundo cerebro con grafo de conocimiento, pipeline bilingüe y endpoints para agentes — en días, no semanas, y lo que eso enseña sobre la brecha entre teoría y sistemas que funcionan.
Backend serverless de producción para un grafo de conocimiento personal — DynamoDB, Lambda, Bedrock, MCP, Step Functions. La implementación de la arquitectura descrita en el ensayo «Del prototipo a producción».