Ir al formulario de contacto

Ceph, OpenStack y
Kubernetes para
inferencia de IA

Configura tu propia infraestructura de inferencia de IA on‑premise con un stack 100% open source. Sin licencias propietarias, sin dependencia de ningún cloud y con soberanía total sobre tus datos y tus modelos. Te diseñamos la arquitectura, podemos formar a tu equipo y te acompañamos hasta producción.

inferencia@tu-datacenter ~

$ ceph -s | head -4

cluster: health HEALTH_OK

osd: 12 osds, 12 up · data: 2.4 TiB stored

$ kubectl get pods -n inference

vllm-llama70b-0 Running gpu: A100

vllm-mistral-0 Running gpu: L40S

triton-embed-0 Running gpu: L40S

$ openstack server list --project ai

| gpu-worker-01 | ACTIVE | nvidia-a100-80g |

| gpu-worker-02 | ACTIVE | nvidia-l40s |

$

Latencia P99

47ms

Throughput

3.2k tok/s

Ceph OpenStack Kubernetes Canonical / Ubuntu IBM Ceph OpenStack Kubernetes Canonical / Ubuntu IBM Ceph OpenStack Kubernetes Canonical / Ubuntu IBM
Por qué on-premise

Tres razones por las que cada vez más organizaciones traen la inferencia a casa

01

Costes predecibles

Las facturas de GPU en cloud oscilan un 30-40% entre ciclos. Con infraestructura propia, el coste es fijo, amortizable y sin sorpresas. Cada token que generas te sale más barato que el anterior.

02

Sin vendor lock-in

APIs propietarias, formatos cerrados, orquestación cautiva. Tus modelos fine-tuneados y tus datasets curados viven en infraestructura ajena. Con open source, siempre puedes moverlo todo.

03

Cumplimiento regulatorio

El RGPD y el EU AI Act exigen saber dónde se procesan tus datos. Si tu inferencia toca datos de pacientes, ciudadanos o clientes bancarios, necesitas control total sobre la infraestructura.

Interior de datacenter moderno
El stack

Tres tecnologías probadas. Cero dependencias propietarias.

Las mismas tecnologías que mueven las AI Factories del Barcelona Supercomputing Center y las infraestructuras soberanas europeas. Nosotros te las configuramos en tu datacenter y formamos a tu equipo para operarlas.

Ceph logo

Ceph

ALMACENAMIENTO DISTRIBUIDO

Object, block y file storage unificado. Almacena los pesos de tus modelos (decenas de GB cada uno), datasets masivos y resultados de inferencia. Compatible S3 nativo. Escala de terabytes a petabytes sin interrupciones.

S3 APIRBDCephFSErasure coding
OpenStack logo

OpenStack

ORQUESTACIÓN DE INFRAESTRUCTURA

Tu cloud privado enterprise. Gestión completa de GPU con PCI passthrough, vGPU y NVIDIA MIG. Redes aisladas por proyecto, provisioning automático y bare metal management integrado.

NovaNeutronIronicSenlin
Kubernetes logo

Kubernetes

ORQUESTACIÓN DE INFERENCIA

GPU scheduling nativo, autoscaling de pods de inferencia, despliegue de vLLM y TensorRT-LLM en contenedores. El estándar certificado CNCF para ejecutar workloads de IA en producción.

GPU OperatorKubeFlowvLLMTriton

Arquitectura de referencia

01 — DATOS

Ceph S3

Modelos · Datasets

02 — INFRA

OpenStack

GPU · Red · Bare metal

03 — ORQUESTACIÓN

Kubernetes

vLLM · Triton · KubeFlow

04 — PRODUCCIÓN

Inferencia

APIs · Agentes · RAG

0

Vendor lock-in

7%

Más eficiencia GPU vs VMware

Según FPT / OpenInfra, 2025

~50%

Ahorro almacenamiento vs cloud

Según OpenMetal, 2025

100%

Cumplimiento RGPD / EU AI Act

Qué incluye

De tu datacenter a servir modelos en producción

No vendemos hardware ni contratos de mantenimiento cautivos. Te transferimos el conocimiento para que tu equipo sea completamente autónomo.

Evaluación y arquitectura a medida

Auditamos tus cargas de trabajo, requisitos de latencia, volumen de datos y obligaciones regulatorias. Entregamos un diseño completo: dimensionamiento GPU, topología de red, almacenamiento Ceph y plan de capacidad a 12-24 meses.

Formación certificada para tu equipo

Cursos prácticos en administración Ceph, OpenStack para GPU y Kubernetes con scheduling de aceleradores. Como IBM BP y Canonical Partner, nuestras certificaciones tienen reconocimiento internacional.

Despliegue asistido en tu entorno

Instalación hands-on: clusters Ceph, OpenStack con GPU nativo (PCI passthrough, vGPU, MIG), Kubernetes con NVIDIA GPU Operator y primeros workloads reales de inferencia de IA con vLLM o TensorRT-LLM.

Soporte continuado y evolución

Optimización GPU, actualizaciones del stack y formación avanzada conforme escales. Del primer LLM servido en local a una plataforma completa con RAG, agentes y múltiples modelos en producción.

Sectores objetivo

Diseñado para organizaciones donde los datos no pueden salir

Sanidad

Historiales clínicos, diagnóstico asistido, compliance sanitario europeo.

Banca y seguros

Detección de fraude, scoring crediticio, regulación EBA y BCE.

Sector público y defensa

Soberanía tecnológica, EU AI Act, ENS, datos clasificados.

Industria

Visión artificial, mantenimiento predictivo, inferencia edge en OT.

Quién está detrás

Un partner técnico que te enseña a no necesitarlo

No somos un hyperscaler ni un fabricante de hardware. Somos una consultora de formación IT con más de una década desplegando open source en producción. Nuestro trabajo termina cuando tu equipo es completamente autónomo.

IBM

IBM Business Partner

Formación oficial en IBM Power, Storage y tecnologías AI con certificaciones reconocidas.

Canonical

Canonical Partner

Ubuntu, Ceph, OpenStack, MicroK8s y Juju. El ecosistema Canonical como base de nuestra infraestructura open source.

🌍

Europeo y multilingüe

Operamos en español, inglés y francés. RGPD y EU AI Act de primera mano.

Preguntas frecuentes

Lo que nos preguntan antes de empezar

¿Qué hardware necesito para montar inferencia de IA on-premise? +

Depende del tamaño de los modelos que quieras servir. Para modelos de hasta 70B parámetros, un mínimo de 2-3 servidores con GPU NVIDIA A100 (80 GB VRAM) o L40S es un buen punto de partida. Para almacenamiento, recomendamos al menos 3 nodos con discos NVMe para el cluster Ceph. En la fase de evaluación dimensionamos exactamente lo que necesitas según tus modelos, latencia objetivo y volumen de peticiones.

¿Cuánto cuesta montar un cluster con Ceph, OpenStack y Kubernetes? +

El software es 100% open source, así que no hay coste de licencias. La inversión depende del hardware (GPUs, servidores, networking) y del alcance del proyecto. Una configuración mínima viable para inferencia puede partir de 3-5 nodos. Nuestro incluye evaluación, diseño de arquitectura y despliegue asistido. También podemos formar a tu equipo. Contacta con nosotros para un presupuesto adaptado a tu caso.

¿Puedo usar este stack para entrenar modelos o solo para inferencia? +

El stack Ceph + OpenStack + Kubernetes soporta tanto inferencia como fine-tuning y entrenamiento. Sin embargo, el entrenamiento de modelos grandes (pre-training) requiere clusters de GPU interconectados con redes de alta velocidad (InfiniBand/RoCE). La mayoría de organizaciones usan esta infraestructura para inferencia y fine-tuning, y recurren a cloud o supercomputación para el pre-training.

¿Qué diferencia hay entre esto y usar GPU en un cloud público como AWS o Azure? +

Tres diferencias clave: coste (fijo y amortizable vs. variable y creciente), soberanía de datos (tus datos nunca salen de tu datacenter) y ausencia de vendor lock-in (todo el stack es open source y portable). A partir de un volumen medio de inferencia, la infraestructura propia se amortiza en 12-18 meses frente a cloud.

¿Necesito un equipo técnico especializado para operar la infraestructura? +

Nuestro servicio incluye formación certificada para tu equipo en administración de Ceph, OpenStack y Kubernetes. Si tu equipo tiene experiencia en Linux y redes, puede operar la infraestructura tras la formación. También ofrecemos soporte continuado para las fases iniciales hasta que el equipo sea completamente autónomo.

¿Esta infraestructura cumple con el RGPD y el EU AI Act? +

Sí. Al ser infraestructura on-premise, tienes control total sobre la ubicación y el procesamiento de los datos. No hay transferencias a terceros países ni dependencia de proveedores cloud externos. Esto facilita enormemente el cumplimiento del RGPD, el EU AI Act y normativas sectoriales como el ENS (sector público) o las directrices de la EBA (banca).

Siguiente paso

¿Tienes un proyecto de inferencia de IA?
Cuéntanos los detalles.

Analizamos tus requisitos técnicos, volumetría de datos y restricciones regulatorias. Una conversación entre profesionales para ver si tiene sentido trabajar juntos.