Chaos Engineering

¿Qué es?

Chaos Engineering es la disciplina de experimentar en sistemas distribuidos para construir confianza en su capacidad de resistir condiciones turbulentas en producción. A diferencia del testing tradicional que valida comportamientos conocidos, chaos engineering busca descubrir propiedades emergentes del sistema mediante la inyección controlada de fallos.

La práctica se basa en el principio de que los sistemas complejos fallan de maneras impredecibles. En lugar de esperar a que estos fallos ocurran naturalmente, chaos engineering los provoca de manera controlada para identificar debilidades antes de que se conviertan en incidentes críticos. Esta aproximación proactiva permite a los equipos mejorar la resiliencia del sistema basándose en evidencia empírica.

Netflix popularizó esta disciplina con Chaos Monkey en 2010, pero el concepto ha evolucionado hacia una metodología estructurada que abarca desde experimentos simples hasta game days complejos que involucran múltiples equipos y sistemas.

Principios fundamentales

Los cuatro principios de chaos engineering establecen una metodología científica para los experimentos:

Definir el estado estable: Identificar métricas que representen el comportamiento normal del sistema (latencia, throughput, tasa de error)
Hipotetizar continuidad: Formular la hipótesis de que el estado estable se mantendrá durante el experimento
Introducir variables del mundo real: Inyectar fallos que reflejen eventos reales (crashes de servidores, particiones de red, picos de latencia)
Refutar la hipótesis: Buscar evidencia que contradiga la hipótesis inicial para descubrir debilidades

Tipos de experimentos

Tipo de fallo	Qué simula	Qué valida	Blast radius
Terminar instancias	Hardware failure, deployment issues	Auto-healing, redundancia	Instancia/AZ
Inyectar latencia	Red degradada, sobrecarga	Timeouts, circuit breakers	Conexión específica
Fallo de dependencias	Servicio externo caído	Fallbacks, graceful degradation	Servicio downstream
Agotar recursos	CPU/memoria/disco al límite	Autoscaling, alerting	Nodo/cluster
Corrupción de datos	Inconsistencias, bugs	Validación, reconciliación	Dataset específico
Partición de red	Split-brain, CAP theorem	Consensus algorithms, data consistency	Segmento de red

Ejemplo práctico: Experimento con Litmus

apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
metadata:
  name: pod-delete-experiment
  namespace: production
spec:
  # Hipótesis: El sistema mantiene 99.9% uptime con pods eliminados
  appinfo:
    appns: ecommerce
    applabel: "app=checkout-service"
  chaosServiceAccount: litmus-admin
  experiments:
  - name: pod-delete
    spec:
      components:
        env:
        # Eliminar 1 pod cada 30 segundos durante 5 minutos
        - name: TOTAL_CHAOS_DURATION
          value: "300"
        - name: CHAOS_INTERVAL
          value: "30"
        - name: FORCE
          value: "false"
      probe:
      # Validar que el endpoint responde correctamente
      - name: checkout-availability
        type: httpProbe
        httpProbe/inputs:
          url: "https://api.example.com/health"
          insecureSkipTLS: false
          method:
            get:
              criteria: ==
              responseCode: "200"
        mode: Continuous
        runProperties:
          probeTimeout: 5s
          interval: 10s

Steady-state hypothesis examples

E-commerce checkout service

Hipótesis: Durante condiciones normales, el servicio de checkout mantiene:
- Latencia P95 < 500ms
- Tasa de éxito > 99.5%
- Throughput > 1000 transacciones/minuto
- CPU utilization < 70%

Experimento: Eliminar 2 de 10 pods del servicio durante 10 minutos
Métrica de éxito: Todas las métricas se mantienen dentro de los umbrales

API Gateway

Hipótesis: El API Gateway maneja gracefully la pérdida de backend services:
- Respuestas de fallback en < 200ms
- Circuit breaker activa después de 5 fallos consecutivos
- Logs de error estructurados generados

Experimento: Simular fallo completo de un microservicio durante 5 minutos
Validación: Verificar activación de circuit breaker y respuestas de fallback

Control de blast radius

El blast radius define el alcance potencial de impacto de un experimento. Estrategias de control:

Por infraestructura

Canary deployments: Experimentos en 1-5% del tráfico
Blue/green environments: Experimentos en ambiente paralelo
Availability zones: Limitar a una AZ específica
Kubernetes namespaces: Aislar por namespace/cluster

Por tiempo

Duración limitada: Experimentos de 5-15 minutos máximo
Horarios específicos: Evitar horas pico o maintenance windows
Rollback automático: Triggers basados en métricas de salud

Por alcance funcional

Feature flags: Habilitar/deshabilitar funcionalidades específicas
User cohorts: Limitar a usuarios beta o internos
Geographic regions: Experimentos por región geográfica

Game day planning

Los game days son ejercicios coordinados que simulan incidentes mayores:

Preparación (2-4 semanas antes)

Definir escenarios: Multi-AZ failure, database corruption, DDoS attack
Formar equipos: Incident commander, communications lead, technical leads
Preparar runbooks: Procedimientos de respuesta y rollback
Configurar observabilidad: Dashboards, alertas, logs centralizados

Ejecución (2-4 horas)

Briefing inicial: Objetivos, roles, canales de comunicación
Inyección gradual: Comenzar con fallos menores, escalar progresivamente
Documentación en tiempo real: Decisiones, tiempos de respuesta, lecciones
Debrief inmediato: Qué funcionó, qué falló, próximos pasos

Post-game (1-2 semanas después)

Análisis detallado: Métricas de MTTR, efectividad de runbooks
Action items: Mejoras en monitoring, alerting, procedures
Actualización de runbooks: Incorporar lecciones aprendidas
Planificación del siguiente game day: Nuevos escenarios, mayor complejidad

Herramientas y plataformas

Loading diagram...

Anti-patrones comunes

Experimentos sin hipótesis clara

❌ Malo: "Vamos a ver qué pasa si eliminamos pods"
✅ Bueno: "Hipótesis: El sistema mantiene 99.9% uptime cuando se eliminan 
          2 de 10 pods del servicio de checkout durante 5 minutos"

Blast radius descontrolado

❌ Malo: Experimentos en producción sin límites de alcance
✅ Bueno: Experimentos limitados por tiempo, geografía, y porcentaje de tráfico

Falta de observabilidad

❌ Malo: Ejecutar experimentos sin métricas de validación
✅ Bueno: Dashboards en tiempo real con métricas de steady-state

¿Por qué importa?

En sistemas distribuidos modernos, la complejidad emergente hace que los fallos sean inevitables e impredecibles. Chaos engineering transforma esta realidad de reactiva a proactiva: en lugar de esperar que los sistemas fallen en el peor momento posible, los hacemos fallar cuando estamos preparados para aprender de ello.

Para equipos de staff+ engineering, chaos engineering proporciona evidencia empírica sobre trade-offs de arquitectura. ¿Realmente necesitamos esa redundancia multi-región? ¿Los circuit breakers están configurados correctamente? ¿El auto-scaling responde lo suficientemente rápido? Solo los experimentos controlados pueden responder estas preguntas con datos reales.

La práctica también acelera el desarrollo de expertise en incident management. Los equipos que practican chaos engineering regularmente responden más rápido y efectivamente a incidentes reales, porque ya han experimentado escenarios similares en condiciones controladas. Es la diferencia entre entrenar en simuladores de vuelo versus aprender durante una emergencia real.

Referencias

PRINCIPLES OF CHAOS ENGINEERING - Principles of chaos engineering — Community, 2019. Manifiesto y principios fundamentales de chaos engineering.
Home - Chaos Monkey — Netflix, 2024. Documentación oficial de la herramienta original de chaos engineering.
LitmusChaos - Open Source Chaos Engineering Platform — CNCF, 2024. Plataforma cloud-native para experimentos de chaos engineering.
What is AWS Fault Injection Service? - AWS Fault Injection Service — AWS, 2024. Servicio managed para fault injection en AWS.
Chaos Engineering — Gremlin, 2024. Guía completa de chaos engineering y mejores prácticas.
Resilience Engineering at LinkedIn with Project Waterbear — LinkedIn Engineering, 2017. Implementación de chaos engineering a escala empresarial.
GitHub - dastergon/awesome-chaos-engineering: A curated list of Chaos Engineering resources. · GitHub — Community, 2024. Lista curada de recursos y herramientas de chaos engineering.

¿Qué es?

Principios fundamentales

Los cuatro principios de chaos engineering establecen una metodología científica para los experimentos:

Definir el estado estable: Identificar métricas que representen el comportamiento normal del sistema (latencia, throughput, tasa de error)
Hipotetizar continuidad: Formular la hipótesis de que el estado estable se mantendrá durante el experimento
Introducir variables del mundo real: Inyectar fallos que reflejen eventos reales (crashes de servidores, particiones de red, picos de latencia)
Refutar la hipótesis: Buscar evidencia que contradiga la hipótesis inicial para descubrir debilidades

Tipos de experimentos

Tipo de fallo	Qué simula	Qué valida	Blast radius
Terminar instancias	Hardware failure, deployment issues	Auto-healing, redundancia	Instancia/AZ
Inyectar latencia	Red degradada, sobrecarga	Timeouts, circuit breakers	Conexión específica
Fallo de dependencias	Servicio externo caído	Fallbacks, graceful degradation	Servicio downstream
Agotar recursos	CPU/memoria/disco al límite	Autoscaling, alerting	Nodo/cluster
Corrupción de datos	Inconsistencias, bugs	Validación, reconciliación	Dataset específico
Partición de red	Split-brain, CAP theorem	Consensus algorithms, data consistency	Segmento de red

Ejemplo práctico: Experimento con Litmus

apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
metadata:
  name: pod-delete-experiment
  namespace: production
spec:
  # Hipótesis: El sistema mantiene 99.9% uptime con pods eliminados
  appinfo:
    appns: ecommerce
    applabel: "app=checkout-service"
  chaosServiceAccount: litmus-admin
  experiments:
  - name: pod-delete
    spec:
      components:
        env:
        # Eliminar 1 pod cada 30 segundos durante 5 minutos
        - name: TOTAL_CHAOS_DURATION
          value: "300"
        - name: CHAOS_INTERVAL
          value: "30"
        - name: FORCE
          value: "false"
      probe:
      # Validar que el endpoint responde correctamente
      - name: checkout-availability
        type: httpProbe
        httpProbe/inputs:
          url: "https://api.example.com/health"
          insecureSkipTLS: false
          method:
            get:
              criteria: ==
              responseCode: "200"
        mode: Continuous
        runProperties:
          probeTimeout: 5s
          interval: 10s

Steady-state hypothesis examples

E-commerce checkout service

Hipótesis: Durante condiciones normales, el servicio de checkout mantiene:
- Latencia P95 < 500ms
- Tasa de éxito > 99.5%
- Throughput > 1000 transacciones/minuto
- CPU utilization < 70%

Experimento: Eliminar 2 de 10 pods del servicio durante 10 minutos
Métrica de éxito: Todas las métricas se mantienen dentro de los umbrales

API Gateway

Hipótesis: El API Gateway maneja gracefully la pérdida de backend services:
- Respuestas de fallback en < 200ms
- Circuit breaker activa después de 5 fallos consecutivos
- Logs de error estructurados generados

Experimento: Simular fallo completo de un microservicio durante 5 minutos
Validación: Verificar activación de circuit breaker y respuestas de fallback

Control de blast radius

El blast radius define el alcance potencial de impacto de un experimento. Estrategias de control:

Por infraestructura

Canary deployments: Experimentos en 1-5% del tráfico
Blue/green environments: Experimentos en ambiente paralelo
Availability zones: Limitar a una AZ específica
Kubernetes namespaces: Aislar por namespace/cluster

Por tiempo

Duración limitada: Experimentos de 5-15 minutos máximo
Horarios específicos: Evitar horas pico o maintenance windows
Rollback automático: Triggers basados en métricas de salud

Por alcance funcional

Feature flags: Habilitar/deshabilitar funcionalidades específicas
User cohorts: Limitar a usuarios beta o internos
Geographic regions: Experimentos por región geográfica

Game day planning

Los game days son ejercicios coordinados que simulan incidentes mayores:

Preparación (2-4 semanas antes)

Definir escenarios: Multi-AZ failure, database corruption, DDoS attack
Formar equipos: Incident commander, communications lead, technical leads
Preparar runbooks: Procedimientos de respuesta y rollback
Configurar observabilidad: Dashboards, alertas, logs centralizados

Ejecución (2-4 horas)

Briefing inicial: Objetivos, roles, canales de comunicación
Inyección gradual: Comenzar con fallos menores, escalar progresivamente
Documentación en tiempo real: Decisiones, tiempos de respuesta, lecciones
Debrief inmediato: Qué funcionó, qué falló, próximos pasos

Post-game (1-2 semanas después)

Análisis detallado: Métricas de MTTR, efectividad de runbooks
Action items: Mejoras en monitoring, alerting, procedures
Actualización de runbooks: Incorporar lecciones aprendidas
Planificación del siguiente game day: Nuevos escenarios, mayor complejidad

Herramientas y plataformas

Loading diagram...

Anti-patrones comunes

Experimentos sin hipótesis clara

❌ Malo: "Vamos a ver qué pasa si eliminamos pods"
✅ Bueno: "Hipótesis: El sistema mantiene 99.9% uptime cuando se eliminan 
          2 de 10 pods del servicio de checkout durante 5 minutos"

Blast radius descontrolado

❌ Malo: Experimentos en producción sin límites de alcance
✅ Bueno: Experimentos limitados por tiempo, geografía, y porcentaje de tráfico

Falta de observabilidad

❌ Malo: Ejecutar experimentos sin métricas de validación
✅ Bueno: Dashboards en tiempo real con métricas de steady-state

¿Por qué importa?

Referencias

PRINCIPLES OF CHAOS ENGINEERING - Principles of chaos engineering — Community, 2019. Manifiesto y principios fundamentales de chaos engineering.
Home - Chaos Monkey — Netflix, 2024. Documentación oficial de la herramienta original de chaos engineering.
LitmusChaos - Open Source Chaos Engineering Platform — CNCF, 2024. Plataforma cloud-native para experimentos de chaos engineering.
What is AWS Fault Injection Service? - AWS Fault Injection Service — AWS, 2024. Servicio managed para fault injection en AWS.
Chaos Engineering — Gremlin, 2024. Guía completa de chaos engineering y mejores prácticas.
Resilience Engineering at LinkedIn with Project Waterbear — LinkedIn Engineering, 2017. Implementación de chaos engineering a escala empresarial.
GitHub - dastergon/awesome-chaos-engineering: A curated list of Chaos Engineering resources. · GitHub — Community, 2024. Lista curada de recursos y herramientas de chaos engineering.

¿Qué es?

Principios fundamentales

Tipos de experimentos

Ejemplo práctico: Experimento con Litmus

Steady-state hypothesis examples

E-commerce checkout service

API Gateway

Control de blast radius

Por infraestructura

Por tiempo

Por alcance funcional

Game day planning

Preparación (2-4 semanas antes)

Ejecución (2-4 horas)

Post-game (1-2 semanas después)

Herramientas y plataformas

Anti-patrones comunes

Experimentos sin hipótesis clara

Blast radius descontrolado

Falta de observabilidad

¿Por qué importa?

Referencias

Contenido relacionado

¿Qué es?

Principios fundamentales

Tipos de experimentos

Ejemplo práctico: Experimento con Litmus

Steady-state hypothesis examples

E-commerce checkout service

API Gateway

Control de blast radius

Por infraestructura

Por tiempo

Por alcance funcional

Game day planning

Preparación (2-4 semanas antes)

Ejecución (2-4 horas)

Post-game (1-2 semanas después)

Herramientas y plataformas

Anti-patrones comunes

Experimentos sin hipótesis clara

Blast radius descontrolado

Falta de observabilidad

¿Por qué importa?

Referencias

Contenido relacionado