Jonatan Matajonmatum.com
conceptosnotasexperimentosensayos
© 2026 Jonatan Mata. All rights reserved.v2.1.1
Conceptos

Seguridad en IA

Campo dedicado a garantizar que los sistemas de inteligencia artificial se comporten de forma segura, alineada con valores humanos y predecible, minimizando riesgos de daño.

evergreen#ai-safety#alignment#guardrails#responsible-ai#ethics#red-teaming

¿Qué es?

AI Safety es el campo que estudia cómo garantizar que los sistemas de inteligencia artificial — especialmente los LLMs y agentes — se comporten de forma segura, predecible y alineada con la intención humana. No es solo un problema teórico: cada sistema de IA en producción necesita guardrails prácticos.

Dimensiones de seguridad

Alineación (Alignment)

Que el modelo haga lo que el usuario quiere, no lo que literalmente dice:

  • RLHF: entrenamiento con feedback humano para alinear comportamiento
  • Constitutional AI: el modelo sigue principios explícitos definidos como una «constitución» — Anthropic demostró que esto reduce la necesidad de feedback humano directo mientras mantiene la alineación
  • Instruction hierarchy: priorizar instrucciones del sistema sobre las del usuario. OpenAI formalizó esto como una jerarquía de privilegios: System > Developer > User > Tool

Robustez

Que el modelo se comporte consistentemente ante entradas adversariales:

  • Prompt injection: intentos de sobreescribir instrucciones del sistema
  • Jailbreaking: técnicas para evadir restricciones de seguridad
  • Data poisoning: datos maliciosos en el entrenamiento

Guardrails en producción

Controles prácticos para sistemas desplegados:

  • Filtros de entrada/salida para contenido dañino
  • Límites de acciones para agentes (qué pueden y no pueden hacer)
  • Monitoreo de comportamiento anómalo
  • Circuit breakers para detener agentes fuera de control

OWASP Top 10 para aplicaciones LLM

OWASP publicó una lista específica de vulnerabilidades para aplicaciones basadas en LLMs. Estas son las amenazas más críticas que todo equipo debe considerar:

#VulnerabilidadDescripciónMitigación
1Prompt InjectionEntrada maliciosa que sobreescribe instrucciones del sistemaInstruction hierarchy, validación de inputs
2Insecure Output HandlingConfiar en la salida del LLM sin sanitizarTratar output como no confiable, escapar antes de renderizar
3Training Data PoisoningDatos maliciosos que alteran el comportamiento del modeloValidación de datos, provenance tracking
4Model Denial of ServiceConsultas diseñadas para agotar recursosRate limiting, timeouts, límites de tokens
5Supply Chain VulnerabilitiesModelos, plugins o datos de terceros comprometidosVerificación de integridad, auditoría de dependencias
6Sensitive Information DisclosureEl modelo revela datos de entrenamiento o contexto privadoFiltrado de PII, sanitización de prompts
7Insecure Plugin DesignPlugins que ejecutan acciones sin validación adecuadaMínimo privilegio, confirmación para acciones destructivas
8Excessive AgencyAgentes con más permisos o autonomía de la necesariaScopes limitados, human-in-the-loop
9OverrelianceUsuarios que confían ciegamente en las respuestas del modeloDisclaimers, citación de fuentes, mitigación de alucinaciones
10Model TheftExtracción del modelo a través de la APIRate limiting, monitoreo de patrones de extracción

Riesgos específicos de agentes

Los agentes de IA amplifican los riesgos porque pueden actuar en el mundo real:

  • Acciones irreversibles: borrar datos, enviar emails, ejecutar transacciones
  • Escalada de privilegios: un agente que obtiene más acceso del previsto
  • Loops infinitos: agentes que consumen recursos sin converger
  • Exfiltración: agentes que filtran información sensible

Mejores prácticas

RiesgoMitigaciónImplementación
Acciones irreversiblesHuman-in-the-loopConfirmación antes de delete/send/pay
Escalada de privilegiosMínimo privilegioScopes limitados por herramienta
AlucinacionesGrounding + verificaciónRAG, fact-checking
Prompt injectionInstruction hierarchySystem prompt > user prompt
Exfiltración de datosFiltrado de outputsRegex + clasificación de PII
Loops infinitosLímites de iteraciónMax steps, timeout, cost caps

Prácticas adicionales:

  • Red teaming regular para encontrar vulnerabilidades
  • Evaluaciones automatizadas de seguridad en CI/CD
  • Logging exhaustivo de todas las decisiones y acciones

¿Por qué importa?

A medida que los sistemas de IA toman decisiones con mayor autonomía, los riesgos de comportamiento no alineado, sesgos amplificados y uso malicioso crecen proporcionalmente. La lista OWASP Top 10 para LLMs demuestra que las vulnerabilidades son concretas y explotables hoy — no riesgos hipotéticos. La seguridad de IA no es un problema futuro: es una responsabilidad de ingeniería presente en cada sistema que se despliega.

Referencias

  • OWASP Top 10 for LLM Applications — OWASP, 2024. Lista de las 10 vulnerabilidades más críticas en aplicaciones LLM.
  • Anthropic's Responsible Scaling Policy — Anthropic, 2023. Política de escalado responsable.
  • NIST AI Risk Management Framework — NIST, 2023. Marco federal para gestión de riesgos de IA.
  • Constitutional AI: Harmlessness from AI Feedback — Bai et al., 2022. Método de alineación usando principios explícitos en lugar de feedback humano directo.
  • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions — Wallace et al., 2024. Jerarquía de instrucciones para defender contra prompt injection.

Contenido relacionado

  • Inteligencia Artificial

    Campo de la informática dedicado a crear sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, desde el razonamiento y la percepción hasta la generación de lenguaje.

  • Agentes de IA

    Sistemas autónomos que combinan modelos de lenguaje con razonamiento, memoria y uso de herramientas para ejecutar tareas complejas de múltiples pasos con mínima intervención humana.

  • Datos Sintéticos

    Datos generados algorítmicamente que replican las propiedades estadísticas de datos reales, usados para entrenar, evaluar y probar sistemas de IA cuando los datos reales son escasos, costosos o sensibles.

  • Mitigación de Alucinaciones

    Técnicas para reducir la generación de información falsa pero plausible por parte de los LLMs, desde RAG hasta verificación factual y diseño de prompts.

  • AWS Bedrock

    Servicio serverless de AWS que proporciona acceso a modelos fundacionales de múltiples proveedores (Anthropic, Meta, Mistral, Amazon) vía API unificada, sin gestionar infraestructura de ML.

  • Reflexiones: La adolescencia de la tecnología

    Reflexiones clave del ensayo de Dario Amodei sobre los riesgos civilizatorios de la IA poderosa y cómo enfrentarlos.

Conceptos