Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.
AI Safety es el campo que estudia cómo garantizar que los sistemas de inteligencia artificial — especialmente los LLMs y agentes — se comporten de forma segura, predecible y alineada con la intención humana. No es solo un problema teórico: cada sistema de IA en producción necesita guardrails prácticos.
Que el modelo haga lo que el usuario quiere, no lo que literalmente dice:
Que el modelo se comporte consistentemente ante entradas adversariales:
Controles prácticos para sistemas desplegados:
OWASP publicó una lista específica de vulnerabilidades para aplicaciones basadas en LLMs. Estas son las amenazas más críticas que todo equipo debe considerar:
| # | Vulnerabilidad | Descripción | Mitigación |
|---|---|---|---|
| 1 | Prompt Injection | Entrada maliciosa que sobreescribe instrucciones del sistema | Instruction hierarchy, validación de inputs |
| 2 | Insecure Output Handling | Confiar en la salida del LLM sin sanitizar | Tratar output como no confiable, escapar antes de renderizar |
| 3 | Training Data Poisoning | Datos maliciosos que alteran el comportamiento del modelo | Validación de datos, provenance tracking |
| 4 | Model Denial of Service | Consultas diseñadas para agotar recursos | Rate limiting, timeouts, límites de tokens |
| 5 | Supply Chain Vulnerabilities | Modelos, plugins o datos de terceros comprometidos | Verificación de integridad, auditoría de dependencias |
| 6 | Sensitive Information Disclosure | El modelo revela datos de entrenamiento o contexto privado | Filtrado de PII, sanitización de prompts |
| 7 | Insecure Plugin Design | Plugins que ejecutan acciones sin validación adecuada | Mínimo privilegio, confirmación para acciones destructivas |
| 8 | Excessive Agency | Agentes con más permisos o autonomía de la necesaria | Scopes limitados, human-in-the-loop |
| 9 | Overreliance | Usuarios que confían ciegamente en las respuestas del modelo | Disclaimers, citación de fuentes, mitigación de alucinaciones |
| 10 | Model Theft | Extracción del modelo a través de la API | Rate limiting, monitoreo de patrones de extracción |
Los agentes de IA amplifican los riesgos porque pueden actuar en el mundo real:
| Riesgo | Mitigación | Implementación |
|---|---|---|
| Acciones irreversibles | Human-in-the-loop | Confirmación antes de delete/send/pay |
| Escalada de privilegios | Mínimo privilegio | Scopes limitados por herramienta |
| Alucinaciones | Grounding + verificación | RAG, fact-checking |
| Prompt injection | Instruction hierarchy | System prompt > user prompt |
| Exfiltración de datos | Filtrado de outputs | Regex + clasificación de PII |
| Loops infinitos | Límites de iteración | Max steps, timeout, cost caps |
Prácticas adicionales:
A medida que los sistemas de IA toman decisiones con mayor autonomía, los riesgos de comportamiento no alineado, sesgos amplificados y uso malicioso crecen proporcionalmente. La lista OWASP Top 10 para LLMs demuestra que las vulnerabilidades son concretas y explotables hoy — no riesgos hipotéticos. La seguridad de IA no es un problema futuro: es una responsabilidad de ingeniería presente en cada sistema que se despliega.
Campo de la informática dedicado a crear sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, desde el razonamiento y la percepción hasta la generación de lenguaje.
Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.
Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.
Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.
Servicio serverless de AWS que proporciona acceso a modelos fundacionales de múltiples proveedores (Anthropic, Meta, Mistral, Amazon) vía API unificada, sin gestionar infraestructura de ML.
Reflexiones clave del ensayo de Dario Amodei sobre los riesgos civilizatorios de la IA poderosa y cómo enfrentarlos.