Chain of Thought: por qué tu IA no razona

IA · Razonamiento · LLM

Chain of Thought: por qué tu modelo de IA no razona.

El Chain of Thought no es pensamiento. Es la forma estadística del pensamiento. Apple, Arizona State y UC Berkeley lo demuestran con datos. Esto es lo que significa para quien despliega IA en producción.

9 min lecturaIA · Producción · Infraestructura

El Chain of Thought (CoT) es una técnica que hace que los modelos de lenguaje generen pasos intermedios antes de responder. Aunque mejora benchmarks, investigaciones recientes demuestran que no constituye razonamiento genuino: es una restricción estadística que imita la forma del pensamiento humano.

Para las empresas que despliegan IA en entornos de producción, entender esta diferencia no es un debate filosófico. Es una decisión de arquitectura que afecta a la fiabilidad, al coste y al riesgo operativo. En SIXE llevamos más de 15 años diseñando infraestructuras críticas donde la tolerancia al fallo es cero. Esa experiencia nos ha enseñado una regla que aplica igual a un cluster IBM Power que a un agente de IA: nunca confíes en un solo componente para algo que no se puede caer.

01 · Qué es

¿Qué es el Chain of Thought y por qué parece razonamiento?

Cuando activas el modo de "razonamiento" o "thinking" en modelos como GPT-5, Claude o DeepSeek, el modelo genera un monólogo intermedio antes de responder: "vale, primero analizo X... ahora considero Y... déjame revisar Z...". En la literatura técnica esto se conoce como Chain of Thought (CoT), literalmente "cadena de pensamiento".

El problema es que eso no es pensar. Es generar texto con la forma estadística del razonamiento humano. El modelo ha visto millones de ejemplos de razonamiento paso a paso durante su entrenamiento, y aprendió a reproducir ese patrón. Cuando le pides que "piense", lo que hace es reconocer la categoría del problema y rellenar la plantilla estadística que mejor encaja.

Un ejemplo concreto: si le planteas a un modelo "razonador" un problema de dimensionado de almacenamiento Ceph con 12 OSD, replicación 3 y tolerancia al fallo de 2 nodos, te devolverá cuatro párrafos impecables con fórmulas, consideraciones sobre dominios de fallo y un número final. Parece pensamiento estructurado. Lo que ha hecho es detectar "problema de dimensionado Ceph" y aplicar el patrón que ha visto en cientos de documentos técnicos similares.

¿Por qué funciona? Porque la mayoría de las veces acierta. La cuestión es qué pasa cuando el problema se sale del manual.

02 · La evidencia

¿Los LLM realmente razonan? Lo que dicen los papers

El CoT funciona. Mejora benchmarks de forma medible. La pregunta relevante no es si funciona, sino por qué funciona. Y la respuesta que ofrecen los estudios más rigurosos es incómoda.

El CoT como muleta estadística

Un equipo de Arizona State University demostró que el CoT brilla cuando los datos del problema están dentro de la distribución de entrenamiento. En cuanto el problema se sale de la zona conocida, el rendimiento se desmorona. Es la diferencia entre un sistema que ha memorizado soluciones y otro que realmente comprende los principios subyacentes.

El CoT como restricción arquitectónica

El CoT no es razonamiento abstracto: es una restricción que obliga al modelo a imitar la forma del razonamiento. Forzar al modelo a escribir "primero... segundo... por lo tanto..." hace que cada token generado influya con más coherencia en el siguiente. Es un truco de arquitectura que mejora la coherencia interna del texto, no un acto cognitivo. El paper Chain-of-Thought Reasoning In The Wild Is Not Always Faithful documenta cómo el CoT puede dar una imagen incorrecta del proceso real que sigue el modelo para llegar a sus conclusiones.

Conclusión técnica

El CoT es útil para muchas tareas. Pero no es razonamiento. Es coherencia formal con apariencia de lógica.

03 · Lo decorativo

¿Qué son los "pasos decorativos" del razonamiento IA?

Un paper de octubre de 2025 publicado por investigadores de UC Berkeley y UC Davis introdujo el concepto de decorative thinking steps (pasos de pensamiento decorativos), y su hallazgo es especialmente relevante para cualquiera que evalúe modelos de IA para producción.

Los investigadores descubrieron que muchos pasos intermedios del CoT son literalmente decorativos. El modelo escribe cosas como "espera, déjame revisar... creo que cometí un error... voy a recalcular", y luego ignora por completo esa autocorrección y entrega la respuesta que ya tenía decidida internamente.

La demostración fue elegante: perturbaron deliberadamente los pasos intermedios (cambiaron números, alteraron la lógica) y comprobaron si la respuesta final cambiaba. En muchos casos, no cambiaba. La conclusión ya estaba decidida. La cadena de pensamiento se generaba después, como racionalización a posteriori.

Toca cada paso para descubrir si es real o decorativo
"Hmm, espera. Creo que me he equivocado con el factor de replicación. Déjame recalcular desde el principio..."
Toca para revelar
Decorativo El modelo ya tenía la respuesta. La "autocorrección" no cambió el resultado final. Es teatro narrativo.
"Capacidad bruta = 12 × 8 TB = 96 TB. Con replicación 3: 96 / 3 = 32 TB útiles."
Toca para revelar
Real Este paso contiene el cálculo que determina la respuesta final. TTS alto: el output depende de él.
"Voy a verificar mi respuesta paso por paso para asegurarme de que no he cometido ningún error de cálculo en la estimación anterior..."
Toca para revelar
Decorativo Pura fórmula retórica. El modelo no re-ejecuta ningún cálculo: ya emitió los tokens de la respuesta. Solo añade palabras que parecen rigor.
"Interesante pregunta. Antes de responder, voy a considerar varios ángulos: el dominio de fallo, el balanceo de OSD y el overhead de metadatos..."
Toca para revelar
Decorativo Enumerar factores sin procesarlos no es análisis. Es la forma estadística de lo que haría un experto. El modelo ya eligió la respuesta.
"Con tolerancia al fallo de 2 nodos y 4 OSD por nodo, el peor caso pierde 8 OSD. Capacidad mínima garantizada: (12−8) × 8 / 3 ≈ 10,7 TB."
Toca para revelar
Real Introduce variables nuevas (nodos, OSD por nodo) que sí cambian el resultado. Sin este paso, la respuesta sería diferente.

Un dato concreto del estudio: en el dataset AIME, solo el 2,3% de los pasos de razonamiento del CoT tenían una influencia causal real sobre la predicción final del modelo. El resto era decoración. (Fuente: Can Aha Moments Be Fake?, UC Berkeley)

Implicación directa

Que un modelo te explique bien por qué ha llegado a una conclusión no significa que esa conclusión sea correcta. La explicación se genera junto con (o después de) el resultado, y en muchos casos es una justificación construida sobre una respuesta predeterminada.

04 · Apple

"The Illusion of Thinking": el estudio de Apple que lo cambia todo

Si los pasos decorativos demuestran que el CoT no garantiza razonamiento ni siquiera cuando acierta, el estudio de Apple va un paso más allá: demuestra que cuando el problema se complica de verdad, los modelos se rinden.

En junio de 2025, Apple publicó The Illusion of Thinking, un estudio que puso a modelos de razonamiento de última generación a resolver puzzles clásicos de informática: la Torre de Hanói, problemas de cruce de río y otros ejercicios que cualquier estudiante de primer curso resuelve con lápiz y papel.

RENDIMIENTO POR COMPLEJIDAD — DATOS APPLE "ILLUSION OF THINKING" (2025) 100% 75% 50% 25% 0% 88% 72% Fácil 55% 82% Media 8% 10% Difícil Sin CoT Con CoT
Rendimiento de modelos con y sin CoT según complejidad — Basado en datos de Apple ML Research, "The Illusion of Thinking", junio 2025
Arrastra el cursor — ¿cómo rinde el CoT según la complejidad?
Fácil Media Difícil
Sin CoT
88%
Con CoT
72%
El modelo sin CoT gana. El "pensamiento" extra solo añade coste y latencia.

El hallazgo más significativo es el tercero. Los modelos "razonadores" no solo fallan en problemas complejos — reducen el esfuerzo computacional precisamente cuando deberían aumentarlo. Es el equivalente a un sistema de monitorización que deja de generar alertas cuando la infraestructura más lo necesita.

Cabe señalar que el paper generó debate: un equipo del CSIC en Madrid replicó parte de los experimentos y matizó que algunos fallos se debían a límites de tokens de salida, no a limitaciones cognitivas puras. Pero las conclusiones de fondo — que el rendimiento colapsa con la complejidad y que el CoT no escala de forma predecible — se mantuvieron.

05 · Costes

¿Merece la pena pagar por modelos de razonamiento?

Depende. Y esa es precisamente la respuesta que la mayoría de proveedores no quiere darte.

Un caso que ilustra el riesgo: una empresa europea montó un agente "razonador" para clasificar tickets de soporte. La cadena de pensamiento que generaba el modelo era impecable desde el punto de vista narrativo. El problema es que el 30% de los tickets acababan en la cola equivocada, y el modelo explicaba con elocuencia impecable por qué esa clasificación errónea era la correcta. Narrativa perfecta, resultado erróneo.

Esto ocurre porque estamos confundiendo calidad de la explicación con calidad de la decisión. Son cosas distintas. Un modelo puede producir un razonamiento formalmente impecable y llegar a una conclusión incorrecta, exactamente igual que una presentación con gráficos espectaculares puede defender una estrategia equivocada.

Regla práctica

Antes de pagar por modelos de razonamiento, benchmarkea con tu caso real. Los marketing decks de los proveedores muestran los resultados de sus mejores días. Tus datos, tu casuística y tus edge cases son los que determinan si el coste adicional compensa.

06 · Perspectiva

¿La IA es inútil entonces?

No. Y esto es importante entenderlo bien, porque el péndulo puede irse al otro extremo con la misma facilidad.

Que un LLM no razone como un humano no significa que sea inútil. Significa que hay que entender qué hace exactamente para usarlo correctamente.

Un sistema IBM Power10 con AIX no "piensa" sobre las cargas de trabajo. No tiene intuición. Lo que tiene es una arquitectura RISC de alto rendimiento, ancho de banda de memoria que un x86 equivalente no alcanza, y fiabilidad (RAS) de nivel mainframe. Si entiendes lo que hace, lo usas para lo que vale: bases de datos críticas, HPC, inferencia de IA a escala. Si no lo entiendes, lo usas como un servidor x86 caro y te preguntas por qué no rinde.

Con los LLM pasa exactamente lo mismo. Son procesadores de lenguaje extraordinarios. Sintetizan, traducen, redactan, clasifican y extraen patrones de texto a una velocidad que ningún equipo humano alcanza. Eso es real, tiene valor medible y está transformando operaciones en todos los sectores.

Lo que no son es agentes pensantes con comprensión genuina del mundo. Y vender lo segundo cuando lo que tienes es lo primero es lo que está creando una burbuja de expectativas que, tarde o temprano, se ajustará.

07 · En producción

¿Cómo usar IA en producción sin caer en la trampa?

En el mundo de la infraestructura crítica — IBM Power, AIX, clusters de alta disponibilidad — hay un principio que nunca falla: diseña con redundancia. Nunca confías en un solo componente para algo que no se puede caer.

1. No uses la explicación como garantía de la respuesta

La explicación del modelo se genera junto con (o después de) el resultado. Muchas veces es una racionalización a posteriori. Si el sistema toma decisiones críticas, necesitas verificación independiente. No importa lo bien que lo explique.

2. Benchmarkea con tu caso real antes de elegir modelo

Para tareas simples, el modelo barato puede superar al caro. Para tareas medias, el CoT compensa. Para tareas muy complejas, fallan ambos. La única forma de saberlo es probar con tus datos reales, no con los del proveedor.

3. Diseña arquitecturas con verificación externa

Si tu arquitectura de IA es "le pregunto al modelo y confío en lo que diga", no tienes una arquitectura. Un despliegue serio de IA incluye validación cruzada, reglas de negocio como capa de control, alertas cuando la confianza del modelo baja, y humanos en el loop para decisiones críticas.

4. Exige pruebas, no promesas

El mercado de la IA está lleno de afirmaciones extraordinarias sin evidencia proporcional. Un proveedor serio te muestra benchmarks sobre tu tipo de datos. Un proveedor menos serio te muestra una demo espectacular con datos preparados.

08 · Nuestra metodología

¿Cómo evaluamos los modelos de IA para entornos de producción?

En SIXE aplicamos a la IA los mismos criterios que llevamos más de 15 años aplicando a cualquier componente de infraestructura crítica:

  • Pruebas con datos reales del cliente, no con datasets genéricos ni demos preparadas.
  • Medición de rendimiento en los edge cases, no solo en el caso feliz. Los errores no aparecen en la mediana, aparecen en los extremos.
  • Arquitectura redundante siempre. La IA es una capa más del sistema, no el sistema entero. Se complementa con reglas de negocio, validación cruzada y supervisión humana donde la decisión es crítica.
  • Selección de modelo por caso de uso, no por marketing. Un modelo con CoT puede ser perfecto para análisis de texto complejo y totalmente innecesario (y más caro) para clasificación simple.
  • Infraestructura dimensionada para inferencia. Un modelo de IA es tan bueno como la infraestructura que lo sustenta. Lo hemos comprobado de primera mano con vLLM sobre IBM Power y con Ceph como backend de almacenamiento para IA.
Resumen

Para directivos con poco tiempo

Lo esencial en 6 puntos

→ El Chain of Thought no es pensamiento: es la forma estadística del pensamiento, una restricción que mejora la coherencia del texto generado.

Apple demostró que los modelos de razonamiento colapsan en problemas complejos y reducen su esfuerzo justo cuando deberían aumentarlo.

Solo el 2,3% de los pasos de razonamiento tienen influencia causal sobre la respuesta del modelo. El resto es decoración.

No pagues por "razonamiento" sin medirlo en tu caso de uso concreto con tus datos reales.

Nunca uses la explicación del modelo como garantía de que la respuesta es correcta.

Diseña con verificación externa. La IA es una herramienta extraordinaria, no un oráculo.

Fuentes

Referencias y papers citados

Apple Machine Learning Research. The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Junio 2025. machinelearning.apple.com

Zhao, C. et al. (Arizona State University). Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens. Agosto 2025. arxiv.org/abs/2508.01191

Zhao, J. et al. (UC Berkeley, UC Davis). Can Aha Moments Be Fake? Identifying True and Decorative Thinking Steps in Chain-of-Thought. Octubre 2025. arxiv.org/abs/2510.24941

Arcuschin, I. et al. Chain-of-Thought Reasoning In The Wild Is Not Always Faithful. Marzo 2025. arxiv.org/abs/2503.08679

Dellibarda Varela, I. et al. (CSIC, Madrid). Rethinking the Illusion of Thinking. Julio 2025. arxiv.org/abs/2507.01231

Última actualización:


IA en producción

¿Necesitas evaluar cómo integrar IA en tu infraestructura?

En SIXE diseñamos arquitecturas de IA con la misma filosofía que aplicamos a cualquier sistema crítico: redundancia, verificación externa y benchmarks reales. Cuéntanos tu caso.

SIXE