RAG - SIXE

En LibrePower hemos publicado Llama-AIX: una prueba de concepto para ejecutar inferencia de modelos LLM ligeros directamente sobre AIX 7.x, utilizando únicamente CPU y memoria, sin GPUs.

Ver repositorio en GitLab

Conviene aclararlo desde el inicio: esto es diversión técnica y experimentación, no un producto, no una promesa comercial, ni una alternativa a grandes plataformas de IA aceleradas por GPU.

Dicho esto, hay una base técnica sólida detrás del experimento.

La teoría: no todos los casos de uso de LLM son GPU-bound

En muchos escenarios empresariales habituales en entornos Power:

RAG (Retrieval Augmented Generation)
Preguntas sobre documentación interna
Asistentes técnicos on-prem
Búsqueda semántica sobre conocimiento propio
Análisis de texto con fuerte dependencia de latencia y proximidad a los datos

el cuello de botella no siempre es el cálculo masivo, sino:

CPU
Ancho de memoria
Latencia de acceso a datos
Localización de los datos

En estos casos, inferencias pequeñas y bien acotadas pueden ejecutarse de forma razonable sin GPUs, especialmente cuando el modelo no es el centro del sistema, sino una pieza más.

⚙️ CPU, MMA y aceleradores de bajo consumo

La evolución natural no pasa únicamente por GPUs:

CPUs cada vez más vectorizadas
Extensiones como MMA
Aceleradores específicos y de bajo consumo (como el futuro Spyre)
Integración más cercana al sistema operativo y al stack de datos

Este tipo de aceleración es especialmente relevante en arquitecturas Power, donde el diseño prioriza throughput sostenido, coherencia y fiabilidad, no solo picos de FLOPS.

¿Por qué AIX?

Ejecutar esto en AIX no es una necesidad, es una elección consciente para:

Entender los límites reales
Explorar su viabilidad técnica
Desmontar supuestos simplistas
Aprender cómo encajan los LLMs en sistemas Power existentes

Muchos clientes Power operan infraestructuras estables, amortizadas y críticas, donde mover datos a la nube o introducir GPUs no siempre es deseable ni viable.

Qué es (y qué no) Llama-AIX

✔ Un PoC técnico
✔ Una exploración honesta
✔ Un ejercicio de ingeniería
✔ Open source
✖ No es un benchmark
✖ No es una plataforma IA completa
✖ No pretende competir con soluciones GPU
✖ No es “AI marketing”

La idea es sencilla: mirar más allá del hype, entender los matices y evaluar dónde los LLMs aportan valor real en entornos Power y AIX.

Por pura curiosidad técnica.

Y porque experimentar sigue siendo parte fundamental de la ingeniería.

💬 ¿En qué caso de uso concreto tendría sentido para ti un LLM on-prem en Power?

Listado de la etiqueta: RAG

🦙 LLMs en AIX: experimentación técnica más allá del hype de las GPUs

La teoría: no todos los casos de uso de LLM son GPU-bound

⚙️ CPU, MMA y aceleradores de bajo consumo

¿Por qué AIX?

Qué es (y qué no) Llama-AIX

Blog!

¿Hablamos?

Partners

Nuestra mision