Formación Avanzada

Ceph Production Operations | Curso

Cuando un cluster de 200TB falla a las 3AM y necesitas respuestas, no teoría

3 DÍAS
Intensivos
100%
Hands-on
REAL
Escenarios

Independiente de distribución

IBM Storage Ceph, Red Hat, Ubuntu, Rocky, Alma Linux o Ceph upstream

3:00 AM

CLUSTER CRITICAL

OSD Failure

12 OSDs down

CephFS

Metadata corrupt

Performance

IOPS -80%

Recovery

Plan activo

Aprenderás a resolver:

Fallos críticos en clusters de 200TB+
Recovery de 40TB de CephFS corrupto
Tuning extremo para AI/ML (500TB/día)
Troubleshooting bajo presión 24/7

¿Para quién?

Administradores certificados o con experiencia en producción que necesitan dominar escenarios críticos reales que los vendors no enseñan.

Estructura del curso

Programa intensivo de 3 días diseñado para enfrentar crisis reales y optimizar clusters de producción a escala petabyte

01

Performance Engineering & Forensics Avanzado

De arquitectura a troubleshooting forense real

Mañana: Optimización Arquitectural

  • BlueStore internals: RocksDB tuning, compaction, write amplification
  • CPU optimization: C-states impact (labs 5x degradation), NUMA
  • Network: 100GbE patterns, TCP tuning, nf_conntrack
  • NVMe-specific: reactor tuning, bdevs_per_cluster optimization

Tarde: Troubleshooting Forense

  • Diagnostic toolchain: blktrace, perf, objectstore-tool
  • Case studies reales: NVMe degradation, OSD flapping post-upgrade
  • PG lifecycle avanzado: stuck states, manual intervention
  • Labs: Cluster con problemas reales para diagnosticar
02

Disaster Recovery, Multi-Site & Petabyte Scaling

Recuperación extrema y arquitecturas multi-sitio

Mañana: DR Avanzado

  • Edinburgh 40TB case: error chain completo y recovery procedures
  • CephFS disasters: metadata corruption, MDS failure handling
  • RBD mirroring: pool vs image-based, failover automation
  • Physical DR: disk extraction, journal, whoami preservation

Tarde: Multi-Site & Petabytes

  • RGW multisite: master zone failure, manual promotion, sync fairness
  • WAN planning: formulas 1 GbE per 8TB daily ingest
  • Petabyte challenges: CERN 30PB (7,200 OSDs), 310M objects
  • Labs: Simulación multi-site failover y recovery
03

Security, AI/ML Workloads & Cost Engineering

Seguridad enterprise y optimización para cargas modernas

Mañana: Security Hardening

  • Encryption: LUKS/dmcrypt OSDs, msgr2 secure, RGW SSE-S3/KMS
  • Key management: rotation (Squid 19.2.3+), Barbican integration
  • Compliance: HIPAA architecture, GDPR, audit logging
  • Threat detection: monitoring patterns, vulnerability management

Tarde: AI/ML & ROI Engineering

  • S3 Select: Trino integration (2.5x-9x performance), analytics pushdown
  • AI/ML patterns: checkpointing, parallel access optimization
  • TCO analysis: EC efficiency, commodity hardware savings
  • Hybrid architectures: OpenStack DCN, edge-to-core, multi-cloud

Especificaciones del laboratorio

Infraestructura realista en cloud enterprise

🖥️ Infraestructura

  • Cluster de 5-6 nodos reales
  • 500GB+ datos pre-poblados por alumno
  • Acceso 24/7 durante + 7 días post-curso

⚠️ Escenarios reales

  • Disk failures & network partitions
  • Corrupción simulada de metadata
  • Performance degradation injected

🔧 Herramientas

  • blktrace, perf, objectstore-tool
  • Debugging symbols pre-instalados
  • Datasets reales con I/O patterns

Distribuciones y versiones soportadas

Distribuciones disponibles:

  • • Rocky Linux 9
  • • Ubuntu 24.04 LTS
  • • Red Hat Enterprise Linux

Versiones Ceph:

  • • Upstream Squid 19.2+
  • • IBM Storage Ceph 7.1
  • • Red Hat Ceph Storage 7.x

Próximas Convocatorias

Formación intensiva de 3 días diseñada para grupos reducidos (máximo 10 participantes) para maximizar la interacción y el troubleshooting colaborativo

Presencial

En nuestras instalaciones con acceso completo a laboratorios y equipamiento especializado

On-site

En tu organización para equipos de 4+ personas con configuración personalizada

Remota

Con laboratorio cloud dedicado y acceso completo a recursos de práctica en tiempo real

¿Listo para eliminar ese "respeto" a escenarios críticos?

Solicita información sobre próximas fechas, programa detallado y condiciones.
Respuesta garantizada en menos de 24 horas.

O llámanos directamente para resolver tus dudas

Formación técnica en Ceph

Ceph Storage — La serie de cursos más completa del mercado

Administración Ceph

Administración Ceph

Fundamentos y deployment

Ver curso →
Ceph Avanzado

Ceph Avanzado

Configuración avanzada y EX260

Ver curso →
Ceph Production Operations

Ceph Production Operations

Troubleshooting y DR

Estás en el curso →

Solicitar este curso en CEPH

FAQ

Preguntas frecuentes

No es obligatorio, pero SÍ necesitas conocimientos equivalentes. Este curso asume que dominas: arquitectura Ceph (MON/OSD/MGR), gestión de pools/PGs/CRUSH, troubleshooting básico, y tienes experiencia práctica gestionando clusters en producción (2+ años o cursos equivalentes). Si completaste nuestro curso básico y avanzado, estás perfectamente preparado.

La certificación NO es requisito. Lo que importa es tu experiencia práctica real. Si llevas años administrando Ceph en producción, con o sin servicios gestionados, y conoces bien los conceptos fundamentales, este curso es para ti. De hecho, muchos de nuestros mejores alumnos no tienen certificación pero traen problemas reales de producción que resolvemos juntos.

El curso es totalmente independiente de distribución. Los laboratorios pueden configurarse con IBM Storage Ceph, Ceph upstream (Squid 19.2+), Red Hat Ceph Storage, o la versión que prefieras. Las técnicas de troubleshooting, DR y optimización que enseñamos son universales - funcionan igual en Rocky Linux, Ubuntu, RHEL o Alma Linux. Tú decides qué configuración se acerca más a tu entorno productivo.

El curso avanzado cubre deployment, configuración avanzada, y preparación para EX260. Este tercer curso se enfoca 100% en operaciones críticas de producción: troubleshooting forense cuando todo falla, disaster recovery REAL (no simulaciones), performance engineering avanzado, y escenarios multi-factor complejos. Son complementarios - piensa en el avanzado como "cómo configurarlo bien" y este como "qué hacer cuando falla mal".

Laptop con cliente SSH, navegador web moderno, y acceso estable a internet. El laboratorio completo corre en infraestructura cloud enterprise - no necesitas instalar nada localmente. Recomendamos 16GB RAM y pantalla grande (o doble monitor) para gestionar múltiples terminales y ventanas simultáneas durante troubleshooting.

Sí. Ofrecemos tres modalidades: (1) Presencial en nuestras instalaciones para máxima interacción, (2) On-site en tu organización para equipos de 4+ personas, y (3) Remota con laboratorio cloud dedicado. La modalidad remota incluye todas las mismas prácticas y acceso al laboratorio 24/7. Contáctanos para discutir qué modalidad se ajusta mejor a tus necesidades.

Emitimos certificado de finalización con el detalle de contenidos y horas cursadas. Actualmente no ofrecemos certificación propia porque el mercado todavía valora más la experiencia demostrable y las certificaciones vendor (EX260, etc.). Sin embargo, las habilidades que adquieres aquí son verificables en entrevistas técnicas y situaciones reales, que es lo que realmente cuenta.

Los labs están diseñados para desafiar, no para frustrar. Trabajamos en grupos pequeños con soporte directo del instructor. Si te atascas, eso es parte del aprendizaje - analizamos juntos dónde fallaste y por qué. El objetivo es que salgas preparado para escenarios reales, no que "apruebes" ejercicios académicos. Mantienes acceso al laboratorio 7 días post-curso para practicar a tu ritmo.

SIXE