Conceptos

Seguridad en IA

Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.

seed#ai-safety#alignment#guardrails#responsible-ai#ethics#red-teaming

¿Qué es?

AI Safety es el campo que estudia cómo garantizar que los sistemas de inteligencia artificial — especialmente los LLMs y agentes — se comporten de forma segura, predecible y alineada con la intención humana. No es solo un problema teórico: cada sistema de IA en producción necesita guardrails prácticos.

Dimensiones de seguridad

Alineación (Alignment)

Que el modelo haga lo que el usuario quiere, no lo que literalmente dice:

  • RLHF: entrenamiento con feedback humano para alinear comportamiento
  • Constitutional AI: el modelo sigue principios explícitos
  • Instruction hierarchy: priorizar instrucciones del sistema sobre las del usuario

Robustez

Que el modelo se comporte consistentemente ante entradas adversariales:

  • Prompt injection: intentos de sobreescribir instrucciones del sistema
  • Jailbreaking: técnicas para evadir restricciones de seguridad
  • Data poisoning: datos maliciosos en el entrenamiento

Guardrails en producción

Controles prácticos para sistemas desplegados:

  • Filtros de entrada/salida para contenido dañino
  • Límites de acciones para agentes (qué pueden y no pueden hacer)
  • Monitoreo de comportamiento anómalo
  • Circuit breakers para detener agentes fuera de control

Riesgos específicos de agentes

Los agentes de IA amplifican los riesgos porque pueden actuar en el mundo real:

  • Acciones irreversibles: borrar datos, enviar emails, ejecutar transacciones
  • Escalada de privilegios: un agente que obtiene más acceso del previsto
  • Loops infinitos: agentes que consumen recursos sin converger
  • Exfiltración: agentes que filtran información sensible

Mejores prácticas

RiesgoMitigaciónImplementación
Acciones irreversiblesHuman-in-the-loopConfirmación antes de delete/send/pay
Escalada de privilegiosMínimo privilegioScopes limitados por herramienta
AlucinacionesGrounding + verificaciónRAG, fact-checking
Prompt injectionInstruction hierarchySystem prompt > user prompt
Exfiltración de datosFiltrado de outputsRegex + clasificación de PII
Loops infinitosLímites de iteraciónMax steps, timeout, cost caps

Prácticas adicionales:

  • Red teaming regular para encontrar vulnerabilidades
  • Evaluaciones automatizadas de seguridad en CI/CD
  • Logging exhaustivo de todas las decisiones y acciones

¿Por qué importa?

A medida que los sistemas de IA toman decisiones con mayor autonomía, los riesgos de comportamiento no alineado, sesgos amplificados y uso malicioso crecen proporcionalmente. La seguridad de IA no es un problema futuro — es una responsabilidad de ingeniería presente en cada sistema que se despliega hoy.

Referencias

Conceptos