¿Qué es IBM Fusion CAS (Content Aware Storage)?

CAS es una capacidad integrada en IBM Fusion que convierte el almacenamiento en un sistema activo: extrae contenido de documentos, genera embeddings vectoriales y mantiene el índice actualizado de forma continua e incremental, sin mover datos fuera del storage.

¿Qué diferencia hay entre un pipeline RAG tradicional y CAS?

En un pipeline RAG tradicional los datos se copian del almacenamiento a un sistema de procesamiento externo para vectorizarlos. CAS integra esa vectorización directamente en la capa de storage: zero-copy, actualizaciones incrementales cuando un documento cambia, y herencia automática de permisos de acceso en los vectores.

¿CAS sustituye a Docling y Milvus?

Depende de la escala. Para despliegues con cientos de documentos que cambian poco, un pipeline con Docling + Milvus funciona bien. CAS está diseñado para entornos con decenas de miles de documentos que evolucionan a diario, donde mantener un pipeline artesanal se convierte en un proyecto en sí mismo.

¿IBM Fusion CAS funciona on-premise?

Sí, toda la arquitectura corre on-premise: almacenamiento, GPUs, vectorización e inferencia dentro del perímetro de la organización. Diseñado para cumplir RGPD, EU AI Act y normativa sectorial (sanidad, banca, administración pública).

RAG · IBM Fusion CAS

Por qué tu RAG responde con datos del mes pasado.

Re-vectorizar miles de documentos cada vez que algo cambia no escala. IBM Fusion CAS integra la vectorización directamente en el almacenamiento: los documentos cambian, los vectores se actualizan solos.

7 min lectura●RAG · Storage · Datos no estructurados

IBM Fusion CAS (Content Aware Storage) es una capacidad integrada en IBM Fusion que vectoriza, indexa y mantiene actualizados los documentos directamente en la capa de almacenamiento, sin mover datos ni reconstruir el índice vectorial.

Si tienes un pipeline RAG en producción, probablemente ya te has encontrado con esto: los documentos cambian, pero los vectores no se enteran. El contrato se firmó con una adenda en marzo, el chatbot sigue respondiendo con la versión de diciembre. No es un fallo del modelo — es que nadie ha vuelto a lanzar la ingestión. CAS resuelve exactamente eso.

80–90%

De los datos empresariales
son no estructurados
Fuente: IBM Redbooks

40%

Prototipos IA que no
llegan a producción
Por calidad de datos

Copias de datos
necesarias con CAS
Zero-copy ingestion

01 · El problema

¿Por qué los vectores de un RAG se quedan obsoletos?

Entre el 80% y el 90% de los datos empresariales son no estructurados — PDFs, documentos escaneados, hojas de cálculo, contratos, tickets de soporte. En un pipeline RAG convencional, el flujo para hacerlos accesibles a la IA es: extraer documentos → parsearlos → generar embeddings → meterlos en una base de datos vectorial → buscar cuando llega una pregunta. Funciona. Hasta que los documentos cambian.

Manuales técnicos versionados, contratos con adendas, informes financieros trimestrales, tickets de soporte que se cierran y se reabren. Cada vez que algo cambia, hay que volver a pasar todo el pipeline. Con miles de documentos, eso implica horas de GPU, movimiento masivo de datos entre sistemas, y un equipo pendiente de que no se rompa nada. Según datos de IBM, el 40% de los prototipos de IA no llegan a producción precisamente por problemas de calidad y disponibilidad de datos.

La alternativa habitual es no re-vectorizar. Y entonces tu IA responde con información de hace dos meses.

El agujero de seguridad que nadie ve

En la mayoría de despliegues RAG, la vectorización diluye los permisos del documento original. El chatbot tiene acceso a todo el índice vectorial, y de repente un comercial puede sacar información financiera que no le corresponde porque las ACLs del fichero no se propagaron a los vectores. CAS resuelve esto: los vectores heredan los permisos del documento fuente.

02 · La solución

¿Qué es IBM Fusion CAS y qué hace?

CAS (Content Aware Storage) es una capacidad integrada en IBM Fusion que opera sobre Storage Scale. No es un producto separado que instalas al lado. El almacenamiento pasa a entender qué hay dentro de cada fichero: su estructura, su semántica y cómo ha cambiado desde la última vez que se procesó.

Arquitectura del AI-Q Research Assistant con IBM Fusion CAS — flujo de ingestión, vectorización y consulta RAG

Arquitectura AI-Q Research Assistant sobre IBM Fusion — Fuente: IBM Community, Sandeep Zende

Capacidad Pipeline RAG tradicional IBM Fusion CAS

Movimiento de datos

Copia a sistema externo

Zero-copy in situ

Actualización de vectores

Re-ingestión completa

Incremental automática

Detección de cambios

Manual / cron

Tiempo real

Permisos en vectores

No se propagan

ACLs heredadas

Aceleración GPU

Solo en inferencia

Desde la ingestión

Orquestación

Scripts + crons + colas

Integrado en storage

Si ya usas Docling (o el port de LibrePower para IBM Power) con Milvus y un LLM, no necesitas CAS para que eso funcione. Un despliegue con cientos de PDFs que cambian poco se gestiona con un pipeline orquestado y un cron. El punto de inflexión es cuando los documentos se cuentan por decenas de miles, cambian a diario y los permisos de acceso importan.

03 · Cómo funciona

¿Cómo procesa CAS los documentos sin sacarlos del almacenamiento?

Flujo IBM Fusion CAS — ingestión y consulta

📄

Documento entra o cambia en Storage Scale PDFs, scans, tablas, contratos — CAS detecta el evento automáticamente

⚡

Extracción y chunking semántico acelerado por GPU OCR, reconocimiento de tablas, layout analysis — todo en el storage, sin copiar

🧬

Generación de embeddings con NeMo Retriever Vectorización con GPUs NVIDIA Blackwell — RTX PRO 6000, escalado lineal

🗄️

Indexación incremental en base vectorial integrada Solo se actualiza lo que ha cambiado — con ACLs del documento fuente heredadas

🔁

Consulta RAG: buscar → razonar → refinar → responder AI-Q Research Assistant: bucle iterativo con Nemotron + Llama-3, no respuesta única

↻ Bucle continuo — los datos se re-procesan automáticamente cuando cambian

La diferencia clave con un pipeline convencional: no hay un paso manual entre "el documento ha cambiado" y "el índice vectorial refleja ese cambio". CAS cierra ese hueco automáticamente, con las GPUs NVIDIA Blackwell acelerando cada fase — no solo la inferencia final. El rendimiento de ingestión y consulta escala linealmente al añadir más GPUs NVIDIA RTX PRO 6000, según las pruebas documentadas en el IBM Redbook sobre NVIDIA AI Data Platform. En benchmarks BEIR (el estándar de la industria para evaluar búsqueda semántica), CAS supera a los sistemas de recuperación de información más avanzados del mercado.

04 · Despliegue

On-premise porque no queda otra

Toda la arquitectura corre on-premise. No es una preferencia: si tus datos caen bajo RGPD, EU AI Act, normativa bancaria de la EBA o datos clasificados del ENS, enviarlos a una API en la nube para vectorizarlos no es una opción legal.

Es la misma filosofía que describimos al hablar de factoría de IA on-premise con Ceph y Kubernetes, con una diferencia: CAS integra la preparación de datos directamente en el almacenamiento. No hay un cluster de procesamiento separado, no hay colas de mensajes entre el NAS y el pipeline, no hay buckets temporales en S3.

Storage Scale vs Ceph: un argumento nuevo

Si estás evaluando qué almacenamiento necesitas para cargas de IA — la decisión entre Storage Scale y Ceph que tratamos la semana pasada — CAS pesa en la balanza. Es algo que solo existe en el ecosistema Storage Scale / Fusion y que no tiene equivalente directo en Ceph ni en ningún otro sistema de archivos distribuido ahora mismo.

05 · Alcance

¿Cuándo tiene sentido usar CAS en vez de un pipeline RAG manual?

CAS requiere IBM Fusion sobre OpenShift. No es un componente que enchufes a cualquier infraestructura. Si tu RAG funciona con Docling + Milvus + un cron y no te da problemas, no necesitas esto.

Tiene sentido cuando se dan varias de estas condiciones a la vez:

Volumen alto de documentos no estructurados que cambian con frecuencia.
Requisitos de control de acceso granular — sanidad, banca, administración pública, legal.
Infraestructura IBM existente o en evaluación (Fusion, Storage Scale).
Necesidad de que la base vectorial esté siempre al día sin intervención manual.
Soberanía del dato y cumplimiento normativo europeo.

Referencias técnicas

From RAG to Real Research — Sandeep Zende, IBM Community

IBM Redbooks: AI Inference at Scale con Storage Scale ECE y Fusion CAS

Documentación oficial de IBM Fusion CAS

Arquitectura RAG on-premise

¿Necesitas dimensionar una arquitectura de IA sobre Fusion?

En SIXE trabajamos con IBM Fusion, Storage Scale y pipelines RAG en producción. Cuéntanos tu caso y te ayudamos a diseñar la solución.

WhatsApp Contactar con SIXE +34 91 198 02 43

Por qué tu RAG responde con datos del mes pasado.

¿Por qué los vectores de un RAG se quedan obsoletos?

¿Qué es IBM Fusion CAS y qué hace?

¿Cómo procesa CAS los documentos sin sacarlos del almacenamiento?

On-premise porque no queda otra

¿Cuándo tiene sentido usar CAS en vez de un pipeline RAG manual?

¿Necesitas dimensionar una arquitectura de IA sobre Fusion?

Blog!

Servicios

Partners

Nuestra mision