Seguridad en IA
Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.
¿Qué es?
AI Safety es el campo que estudia cómo garantizar que los sistemas de inteligencia artificial — especialmente los LLMs y agentes — se comporten de forma segura, predecible y alineada con la intención humana. No es solo un problema teórico: cada sistema de IA en producción necesita guardrails prácticos.
Dimensiones de seguridad
Alineación (Alignment)
Que el modelo haga lo que el usuario quiere, no lo que literalmente dice:
- RLHF: entrenamiento con feedback humano para alinear comportamiento
- Constitutional AI: el modelo sigue principios explícitos
- Instruction hierarchy: priorizar instrucciones del sistema sobre las del usuario
Robustez
Que el modelo se comporte consistentemente ante entradas adversariales:
- Prompt injection: intentos de sobreescribir instrucciones del sistema
- Jailbreaking: técnicas para evadir restricciones de seguridad
- Data poisoning: datos maliciosos en el entrenamiento
Guardrails en producción
Controles prácticos para sistemas desplegados:
- Filtros de entrada/salida para contenido dañino
- Límites de acciones para agentes (qué pueden y no pueden hacer)
- Monitoreo de comportamiento anómalo
- Circuit breakers para detener agentes fuera de control
Riesgos específicos de agentes
Los agentes de IA amplifican los riesgos porque pueden actuar en el mundo real:
- Acciones irreversibles: borrar datos, enviar emails, ejecutar transacciones
- Escalada de privilegios: un agente que obtiene más acceso del previsto
- Loops infinitos: agentes que consumen recursos sin converger
- Exfiltración: agentes que filtran información sensible
Mejores prácticas
| Riesgo | Mitigación | Implementación |
|---|---|---|
| Acciones irreversibles | Human-in-the-loop | Confirmación antes de delete/send/pay |
| Escalada de privilegios | Mínimo privilegio | Scopes limitados por herramienta |
| Alucinaciones | Grounding + verificación | RAG, fact-checking |
| Prompt injection | Instruction hierarchy | System prompt > user prompt |
| Exfiltración de datos | Filtrado de outputs | Regex + clasificación de PII |
| Loops infinitos | Límites de iteración | Max steps, timeout, cost caps |
Prácticas adicionales:
- Red teaming regular para encontrar vulnerabilidades
- Evaluaciones automatizadas de seguridad en CI/CD
- Logging exhaustivo de todas las decisiones y acciones
¿Por qué importa?
A medida que los sistemas de IA toman decisiones con mayor autonomía, los riesgos de comportamiento no alineado, sesgos amplificados y uso malicioso crecen proporcionalmente. La seguridad de IA no es un problema futuro — es una responsabilidad de ingeniería presente en cada sistema que se despliega hoy.
Referencias
- Anthropic's Responsible Scaling Policy — Anthropic, 2023.
- OWASP Top 10 for LLM Applications — OWASP, 2024.
- NIST AI Risk Management Framework — NIST, 2023. Marco federal para gestión de riesgos de IA.