Por qué tu RAG responde con datos del mes pasado

RAG · IBM Fusion CAS

Por qué tu RAG responde con datos del mes pasado.

Re-vectorizar miles de documentos cada vez que algo cambia no escala. IBM Fusion CAS integra la vectorización directamente en el almacenamiento: los documentos cambian, los vectores se actualizan solos.

7 min lecturaRAG · Storage · Datos no estructurados

IBM Fusion CAS (Content Aware Storage) es una capacidad integrada en IBM Fusion que vectoriza, indexa y mantiene actualizados los documentos directamente en la capa de almacenamiento, sin mover datos ni reconstruir el índice vectorial.

Si tienes un pipeline RAG en producción, probablemente ya te has encontrado con esto: los documentos cambian, pero los vectores no se enteran. El contrato se firmó con una adenda en marzo, el chatbot sigue respondiendo con la versión de diciembre. No es un fallo del modelo — es que nadie ha vuelto a lanzar la ingestión. CAS resuelve exactamente eso.

80–90%
De los datos empresariales
son no estructurados
Fuente: IBM Redbooks
40%
Prototipos IA que no
llegan a producción
Por calidad de datos
0
Copias de datos
necesarias con CAS
Zero-copy ingestion
01 · El problema

¿Por qué los vectores de un RAG se quedan obsoletos?

Entre el 80% y el 90% de los datos empresariales son no estructurados — PDFs, documentos escaneados, hojas de cálculo, contratos, tickets de soporte. En un pipeline RAG convencional, el flujo para hacerlos accesibles a la IA es: extraer documentos → parsearlos → generar embeddings → meterlos en una base de datos vectorial → buscar cuando llega una pregunta. Funciona. Hasta que los documentos cambian.

Manuales técnicos versionados, contratos con adendas, informes financieros trimestrales, tickets de soporte que se cierran y se reabren. Cada vez que algo cambia, hay que volver a pasar todo el pipeline. Con miles de documentos, eso implica horas de GPU, movimiento masivo de datos entre sistemas, y un equipo pendiente de que no se rompa nada. Según datos de IBM, el 40% de los prototipos de IA no llegan a producción precisamente por problemas de calidad y disponibilidad de datos.

La alternativa habitual es no re-vectorizar. Y entonces tu IA responde con información de hace dos meses.

El agujero de seguridad que nadie ve

En la mayoría de despliegues RAG, la vectorización diluye los permisos del documento original. El chatbot tiene acceso a todo el índice vectorial, y de repente un comercial puede sacar información financiera que no le corresponde porque las ACLs del fichero no se propagaron a los vectores. CAS resuelve esto: los vectores heredan los permisos del documento fuente.

02 · La solución

¿Qué es IBM Fusion CAS y qué hace?

CAS (Content Aware Storage) es una capacidad integrada en IBM Fusion que opera sobre Storage Scale. No es un producto separado que instalas al lado. El almacenamiento pasa a entender qué hay dentro de cada fichero: su estructura, su semántica y cómo ha cambiado desde la última vez que se procesó.

Arquitectura del AI-Q Research Assistant con IBM Fusion CAS — flujo de ingestión, vectorización y consulta RAG
Arquitectura AI-Q Research Assistant sobre IBM Fusion — Fuente: IBM Community, Sandeep Zende
Capacidad Pipeline RAG tradicional IBM Fusion CAS
Movimiento de datos
Copia a sistema externo
Zero-copy in situ
Actualización de vectores
Re-ingestión completa
Incremental automática
Detección de cambios
Manual / cron
Tiempo real
Permisos en vectores
No se propagan
ACLs heredadas
Aceleración GPU
Solo en inferencia
Desde la ingestión
Orquestación
Scripts + crons + colas
Integrado en storage

Si ya usas Docling (o el port de LibrePower para IBM Power) con Milvus y un LLM, no necesitas CAS para que eso funcione. Un despliegue con cientos de PDFs que cambian poco se gestiona con un pipeline orquestado y un cron. El punto de inflexión es cuando los documentos se cuentan por decenas de miles, cambian a diario y los permisos de acceso importan.

03 · Cómo funciona

¿Cómo procesa CAS los documentos sin sacarlos del almacenamiento?

Flujo IBM Fusion CAS — ingestión y consulta
📄
Documento entra o cambia en Storage Scale PDFs, scans, tablas, contratos — CAS detecta el evento automáticamente
Extracción y chunking semántico acelerado por GPU OCR, reconocimiento de tablas, layout analysis — todo en el storage, sin copiar
🧬
Generación de embeddings con NeMo Retriever Vectorización con GPUs NVIDIA Blackwell — RTX PRO 6000, escalado lineal
🗄️
Indexación incremental en base vectorial integrada Solo se actualiza lo que ha cambiado — con ACLs del documento fuente heredadas
🔁
Consulta RAG: buscar → razonar → refinar → responder AI-Q Research Assistant: bucle iterativo con Nemotron + Llama-3, no respuesta única
↻ Bucle continuo — los datos se re-procesan automáticamente cuando cambian

La diferencia clave con un pipeline convencional: no hay un paso manual entre "el documento ha cambiado" y "el índice vectorial refleja ese cambio". CAS cierra ese hueco automáticamente, con las GPUs NVIDIA Blackwell acelerando cada fase — no solo la inferencia final. El rendimiento de ingestión y consulta escala linealmente al añadir más GPUs NVIDIA RTX PRO 6000, según las pruebas documentadas en el IBM Redbook sobre NVIDIA AI Data Platform. En benchmarks BEIR (el estándar de la industria para evaluar búsqueda semántica), CAS supera a los sistemas de recuperación de información más avanzados del mercado.

04 · Despliegue

On-premise porque no queda otra

Toda la arquitectura corre on-premise. No es una preferencia: si tus datos caen bajo RGPD, EU AI Act, normativa bancaria de la EBA o datos clasificados del ENS, enviarlos a una API en la nube para vectorizarlos no es una opción legal.

Es la misma filosofía que describimos al hablar de factoría de IA on-premise con Ceph y Kubernetes, con una diferencia: CAS integra la preparación de datos directamente en el almacenamiento. No hay un cluster de procesamiento separado, no hay colas de mensajes entre el NAS y el pipeline, no hay buckets temporales en S3.

Storage Scale vs Ceph: un argumento nuevo

Si estás evaluando qué almacenamiento necesitas para cargas de IA — la decisión entre Storage Scale y Ceph que tratamos la semana pasada — CAS pesa en la balanza. Es algo que solo existe en el ecosistema Storage Scale / Fusion y que no tiene equivalente directo en Ceph ni en ningún otro sistema de archivos distribuido ahora mismo.

05 · Alcance

¿Cuándo tiene sentido usar CAS en vez de un pipeline RAG manual?

CAS requiere IBM Fusion sobre OpenShift. No es un componente que enchufes a cualquier infraestructura. Si tu RAG funciona con Docling + Milvus + un cron y no te da problemas, no necesitas esto.

Tiene sentido cuando se dan varias de estas condiciones a la vez:

  • Volumen alto de documentos no estructurados que cambian con frecuencia.
  • Requisitos de control de acceso granular — sanidad, banca, administración pública, legal.
  • Infraestructura IBM existente o en evaluación (Fusion, Storage Scale).
  • Necesidad de que la base vectorial esté siempre al día sin intervención manual.
  • Soberanía del dato y cumplimiento normativo europeo.

Arquitectura RAG on-premise

¿Necesitas dimensionar una arquitectura de IA sobre Fusion?

En SIXE trabajamos con IBM Fusion, Storage Scale y pipelines RAG en producción. Cuéntanos tu caso y te ayudamos a diseñar la solución.

SIXE