Ceph, OpenStack y
Kubernetes para
inferencia de IA

Q: ¿Qué hardware necesito para montar inferencia de IA on-premise?

Depende del tamaño de los modelos. Para modelos de hasta 70B parámetros, un mínimo de 2-3 servidores con GPU NVIDIA A100 (80 GB VRAM) o L40S es un buen punto de partida. Para almacenamiento, al menos 3 nodos con discos NVMe para el cluster Ceph. En la fase de evaluación dimensionamos exactamente lo que necesitas.

Q: ¿Cuánto cuesta montar un cluster con Ceph, OpenStack y Kubernetes?

El software es 100% open source, sin coste de licencias. La inversión depende del hardware (GPUs, servidores, networking) y del alcance del proyecto. Una configuración mínima viable para inferencia puede partir de 3-5 nodos. Nuestro servicio incluye evaluación, diseño, formación y despliegue asistido.

Q: ¿Puedo usar este stack para entrenar modelos o solo para inferencia?

El stack soporta inferencia, fine-tuning y entrenamiento. Sin embargo, el pre-training de modelos grandes requiere clusters GPU con redes de alta velocidad (InfiniBand/RoCE). La mayoría de organizaciones usan esta infraestructura para inferencia y fine-tuning.

Q: ¿Qué diferencia hay entre esto y usar GPU en un cloud público como AWS o Azure?

Tres diferencias clave: coste fijo y amortizable vs. variable, soberanía de datos (tus datos nunca salen de tu datacenter) y sin vendor lock-in (todo es open source y portable). A volumen medio de inferencia, la infraestructura propia se amortiza en 12-18 meses.

Q: ¿Necesito un equipo técnico especializado para operar la infraestructura?

Nuestro servicio incluye formación certificada en Ceph, OpenStack y Kubernetes. Si tu equipo tiene experiencia en Linux y redes, puede operar la infraestructura tras la formación. También ofrecemos soporte continuado hasta que el equipo sea completamente autónomo.

Q: ¿Esta infraestructura cumple con el RGPD y el EU AI Act?

Sí. Al ser on-premise, tienes control total sobre la ubicación y procesamiento de los datos. No hay transferencias a terceros países. Esto facilita el cumplimiento del RGPD, EU AI Act y normativas sectoriales como el ENS o las directrices de la EBA.

Configura tu propia infraestructura de inferencia de IA on‑premise con un stack 100% open source. Sin licencias propietarias, sin dependencia de ningún cloud y con soberanía total sobre tus datos y tus modelos. Te diseñamos la arquitectura, podemos formar a tu equipo y te acompañamos hasta producción.

Hablemos de tu proyecto Escríbenos por WhatsApp

inferencia@tu-datacenter ~

$ ceph -s | head -4

cluster: health HEALTH_OK

osd: 12 osds, 12 up · data: 2.4 TiB stored

$ kubectl get pods -n inference

vllm-llama70b-0 Running gpu: A100

vllm-mistral-0 Running gpu: L40S

triton-embed-0 Running gpu: L40S

$ openstack server list --project ai

| gpu-worker-01 | ACTIVE | nvidia-a100-80g |

| gpu-worker-02 | ACTIVE | nvidia-l40s |

Latencia P99

47ms

Throughput

3.2k tok/s

Por qué on-premise

Tres razones por las que cada vez más organizaciones traen la inferencia a casa

Costes predecibles

Las facturas de GPU en cloud oscilan un 30-40% entre ciclos. Con infraestructura propia, el coste es fijo, amortizable y sin sorpresas. Cada token que generas te sale más barato que el anterior.

Sin vendor lock-in

APIs propietarias, formatos cerrados, orquestación cautiva. Tus modelos fine-tuneados y tus datasets curados viven en infraestructura ajena. Con open source, siempre puedes moverlo todo.

Cumplimiento regulatorio

El RGPD y el EU AI Act exigen saber dónde se procesan tus datos. Si tu inferencia toca datos de pacientes, ciudadanos o clientes bancarios, necesitas control total sobre la infraestructura.

El stack

Tres tecnologías probadas. Cero dependencias propietarias.

Las mismas tecnologías que mueven las AI Factories del Barcelona Supercomputing Center y las infraestructuras soberanas europeas. Nosotros te las configuramos en tu datacenter y formamos a tu equipo para operarlas.

Ceph

ALMACENAMIENTO DISTRIBUIDO

Object, block y file storage unificado. Almacena los pesos de tus modelos (decenas de GB cada uno), datasets masivos y resultados de inferencia. Compatible S3 nativo. Escala de terabytes a petabytes sin interrupciones.

S3 APIRBDCephFSErasure coding

OpenStack

ORQUESTACIÓN DE INFRAESTRUCTURA

Tu cloud privado enterprise. Gestión completa de GPU con PCI passthrough, vGPU y NVIDIA MIG. Redes aisladas por proyecto, provisioning automático y bare metal management integrado.

NovaNeutronIronicSenlin

Kubernetes

ORQUESTACIÓN DE INFERENCIA

GPU scheduling nativo, autoscaling de pods de inferencia, despliegue de vLLM y TensorRT-LLM en contenedores. El estándar certificado CNCF para ejecutar workloads de IA en producción.

GPU OperatorKubeFlowvLLMTriton

Arquitectura de referencia

01 — DATOS

Ceph S3

Modelos · Datasets

02 — INFRA

OpenStack

GPU · Red · Bare metal

03 — ORQUESTACIÓN

Kubernetes

vLLM · Triton · KubeFlow

04 — PRODUCCIÓN

Inferencia

APIs · Agentes · RAG

Vendor lock-in

Más eficiencia GPU vs VMware

Según FPT / OpenInfra, 2025

~50%

Ahorro almacenamiento vs cloud

Según OpenMetal, 2025

100%

Cumplimiento RGPD / EU AI Act

Qué incluye

De tu datacenter a servir modelos en producción

No vendemos hardware ni contratos de mantenimiento cautivos. Te transferimos el conocimiento para que tu equipo sea completamente autónomo.

Evaluación y arquitectura a medida

Auditamos tus cargas de trabajo, requisitos de latencia, volumen de datos y obligaciones regulatorias. Entregamos un diseño completo: dimensionamiento GPU, topología de red, almacenamiento Ceph y plan de capacidad a 12-24 meses.

Formación certificada para tu equipo

Cursos prácticos en administración Ceph, OpenStack para GPU y Kubernetes con scheduling de aceleradores. Como IBM BP y Canonical Partner, nuestras certificaciones tienen reconocimiento internacional.

Despliegue asistido en tu entorno

Instalación hands-on: clusters Ceph, OpenStack con GPU nativo (PCI passthrough, vGPU, MIG), Kubernetes con NVIDIA GPU Operator y primeros workloads reales de inferencia de IA con vLLM o TensorRT-LLM.

Soporte continuado y evolución

Optimización GPU, actualizaciones del stack y formación avanzada conforme escales. Del primer LLM servido en local a una plataforma completa con RAG, agentes y múltiples modelos en producción.

Sectores objetivo

Diseñado para organizaciones donde los datos no pueden salir

Sanidad

Historiales clínicos, diagnóstico asistido, compliance sanitario europeo.

Banca y seguros

Detección de fraude, scoring crediticio, regulación EBA y BCE.

Sector público y defensa

Soberanía tecnológica, EU AI Act, ENS, datos clasificados.

Industria

Visión artificial, mantenimiento predictivo, inferencia edge en OT.

Quién está detrás

Un partner técnico que te enseña a no necesitarlo

No somos un hyperscaler ni un fabricante de hardware. Somos una consultora de formación IT con más de una década desplegando open source en producción. Nuestro trabajo termina cuando tu equipo es completamente autónomo.

IBM Business Partner

Formación oficial en IBM Power, Storage y tecnologías AI con certificaciones reconocidas.

Canonical Partner

Ubuntu, Ceph, OpenStack, MicroK8s y Juju. El ecosistema Canonical como base de nuestra infraestructura open source.

🌍

Europeo y multilingüe

Operamos en español, inglés y francés. RGPD y EU AI Act de primera mano.

Preguntas frecuentes

Lo que nos preguntan antes de empezar

¿Qué hardware necesito para montar inferencia de IA on-premise? +

Depende del tamaño de los modelos que quieras servir. Para modelos de hasta 70B parámetros, un mínimo de 2-3 servidores con GPU NVIDIA A100 (80 GB VRAM) o L40S es un buen punto de partida. Para almacenamiento, recomendamos al menos 3 nodos con discos NVMe para el cluster Ceph. En la fase de evaluación dimensionamos exactamente lo que necesitas según tus modelos, latencia objetivo y volumen de peticiones.

¿Cuánto cuesta montar un cluster con Ceph, OpenStack y Kubernetes? +

El software es 100% open source, así que no hay coste de licencias. La inversión depende del hardware (GPUs, servidores, networking) y del alcance del proyecto. Una configuración mínima viable para inferencia puede partir de 3-5 nodos. Nuestro incluye evaluación, diseño de arquitectura y despliegue asistido. También podemos formar a tu equipo. Contacta con nosotros para un presupuesto adaptado a tu caso.

¿Puedo usar este stack para entrenar modelos o solo para inferencia? +

El stack Ceph + OpenStack + Kubernetes soporta tanto inferencia como fine-tuning y entrenamiento. Sin embargo, el entrenamiento de modelos grandes (pre-training) requiere clusters de GPU interconectados con redes de alta velocidad (InfiniBand/RoCE). La mayoría de organizaciones usan esta infraestructura para inferencia y fine-tuning, y recurren a cloud o supercomputación para el pre-training.

¿Qué diferencia hay entre esto y usar GPU en un cloud público como AWS o Azure? +

Tres diferencias clave: coste (fijo y amortizable vs. variable y creciente), soberanía de datos (tus datos nunca salen de tu datacenter) y ausencia de vendor lock-in (todo el stack es open source y portable). A partir de un volumen medio de inferencia, la infraestructura propia se amortiza en 12-18 meses frente a cloud.

¿Necesito un equipo técnico especializado para operar la infraestructura? +

Nuestro servicio incluye formación certificada para tu equipo en administración de Ceph, OpenStack y Kubernetes. Si tu equipo tiene experiencia en Linux y redes, puede operar la infraestructura tras la formación. También ofrecemos soporte continuado para las fases iniciales hasta que el equipo sea completamente autónomo.

¿Esta infraestructura cumple con el RGPD y el EU AI Act? +

Sí. Al ser infraestructura on-premise, tienes control total sobre la ubicación y el procesamiento de los datos. No hay transferencias a terceros países ni dependencia de proveedores cloud externos. Esto facilita enormemente el cumplimiento del RGPD, el EU AI Act y normativas sectoriales como el ENS (sector público) o las directrices de la EBA (banca).

Siguiente paso

¿Tienes un proyecto de inferencia de IA?
Cuéntanos los detalles.

Analizamos tus requisitos técnicos, volumetría de datos y restricciones regulatorias. Una conversación entre profesionales para ver si tiene sentido trabajar juntos.

Contactar con SIXE ¿Prefieres hablarlo por WhatsApp?

Ceph, OpenStack y
Kubernetes para
inferencia de IA

Tres razones por las que cada vez más organizaciones traen la inferencia a casa

Costes predecibles

Sin vendor lock-in

Cumplimiento regulatorio

Tres tecnologías probadas. Cero dependencias propietarias.

Ceph

OpenStack

Kubernetes

De tu datacenter a servir modelos en producción

Evaluación y arquitectura a medida

Formación certificada para tu equipo

Despliegue asistido en tu entorno

Soporte continuado y evolución

Diseñado para organizaciones donde los datos no pueden salir

Sanidad

Banca y seguros

Sector público y defensa

Industria

Un partner técnico que te enseña a no necesitarlo

IBM Business Partner

Canonical Partner

Europeo y multilingüe

Lo que nos preguntan antes de empezar

¿Tienes un proyecto de inferencia de IA?
Cuéntanos los detalles.

Blog!

¿Hablamos?

Partners

Nuestra mision

Ceph, OpenStack yKubernetes para inferencia de IA

Tres razones por las que cada vez más organizaciones traen la inferencia a casa

Costes predecibles

Sin vendor lock-in

Cumplimiento regulatorio

Tres tecnologías probadas. Cero dependencias propietarias.

Ceph

OpenStack

Kubernetes

De tu datacenter a servir modelos en producción

Evaluación y arquitectura a medida

Formación certificada para tu equipo

Despliegue asistido en tu entorno

Soporte continuado y evolución

Diseñado para organizaciones donde los datos no pueden salir

Sanidad

Banca y seguros

Sector público y defensa

Industria

Un partner técnico que te enseña a no necesitarlo

IBM Business Partner

Canonical Partner

Europeo y multilingüe

Lo que nos preguntan antes de empezar

¿Tienes un proyecto de inferencia de IA?Cuéntanos los detalles.

Blog!

¿Hablamos?

Partners

Nuestra mision

Ceph, OpenStack y
Kubernetes para
inferencia de IA

¿Tienes un proyecto de inferencia de IA?
Cuéntanos los detalles.