Nvidia ha presentado una innovación arquitectónica clave para abordar uno de los cuellos de botella más críticos en la escalabilidad de la inteligencia artificial agentiva: la lentitud del almacenamiento tradicional frente a la voracidad de los modelos de lenguaje en tiempo de inferencia. La propuesta, denominada BlueField-4 STX, no es un producto comercial, sino una arquitectura de referencia que los fabricantes de almacenamiento podrán adoptar para construir sistemas específicos para cargas de trabajo de IA multifásica.
El núcleo del problema reside en la caché de valores clave (KV cache), el registro intermedio que guarda los cálculos ya realizados por un modelo para evitar recomputar la totalidad del contexto en cada paso de inferencia. A medida que las ventanas de contexto se amplían y los agentes ejecutan más pasos, esta caché crece exponencialmente. Si el sistema debe recurrir constantemente al almacenamiento de propósito general para recuperar estos datos, se pierde valiosos ciclos de GPU y se reduce drásticamente la utilización del acelerador. La solución de Nvidia propone insertar una capa de memoria de contexto especializada y de alto rendimiento justo entre las GPUs y el almacenamiento tradicional.
Esta capa se materializa en la plataforma CMX (Context Memory eXpansion), que implementa la arquitectura STX. Su corazón es el procesador BlueField-4, que integra la CPU Vera y el SuperNIC ConnectX-9, operando sobre la red Ethernet Spectrum-X y programable a través de la plataforma DOCA de Nvidia. Según declaraciones de Ian Buck, vicepresidente de la división de computación a hiperescala y alto rendimiento de Nvidia, los centros de datos convencionales carecen de la capacidad de respuesta necesaria para la interacción con agentes de IA que deben mantener coherencia a lo largo de múltiples sesiones, herramientas y pasos de razonamiento.
La compañía no comercializará estos sistemas directamente. En su lugar, ha puesto la arquitectura a disposición de su ecosistema de socios de almacenamiento, proporcionando tanto un diseño de referencia de hardware como una plataforma de software de referencia. Esta última incluye una nueva capacidad en DOCA, denominada internamente DOCA Memo, que permite a los proveedores programar y optimizar el comportamiento del almacenamiento para cargas de trabajo específicas de IA agentiva. Fuentes del sector interpretan este movimiento como un intento por estandarizar una capa de infraestructura crítica, transformando la decisión sobre almacenamiento de un mero ejercicio de capacidad y costo a una consideración de rendimiento de primera clase indispensable para la IA empresarial.
La lista de socios que colaboran en el diseño de sistemas basados en STX es amplia y estratégica. Abarca tanto a los gigantes tradicionales del almacenamiento —como Dell Technologies, HPE, IBM, NetApp y VAST Data— como a proveedores nativos de la nube y la IA —como CoreWeave, Lambda o Nebius—, e incluso compañías de inteligencia artificial como Mistral AI. Esta convergencia inusual sugiere que Nvidia apunta a convertir STX en el estándar de facto para cualquier infraestructura que deba servir inferencias de IA en múltiples pasos a escala, no solo para los hiperescaladores.
Un ejemplo ilustrativo del problema de capa de datos proviene de IBM, socio tanto en el desarrollo de STX como en su propia implementación interna. La compañía anunció que utiliza su sistema IBM Storage Scale System 6000, certificado para las plataformas DGX de Nvidia, como base de almacenamiento para su propia infraestructura analítica nativa de GPU. Además, una proof of concept conjunta con Nestlé demostró aceleraciones drásticas en un flujo de datos estructurado: un ciclo de actualización de 15 minutos se redujo a 3 minutos, con un ahorro de costes del 83% y una mejora de 30 veces en la relación precio-rendimiento. Si bien esta prueba se centró en análisis estructurado, valida la tesis de que la aceleración de la capa de datos mediante GPU produce resultados tangibles en producción.
Las cifras de rendimiento anunciadas por Nvidia para STX —5 veces más throughput de tokens, 4 veces más eficiencia energética y 2 veces más velocidad de ingesta de datos— se miden frente a arquitecturas de almacenamiento basadas en CPU de propósito general. Sin embargo, la compañía no especificó la configuración base exacta utilizada para estas comparativas. Los analistas señalan que, antes de que estas métricas dicten las decisiones de compra, será crucial conocer esa línea base con precisión.
Los sistemas basados en esta arquitectura de referencia están previstos para la segunda mitad de 2026. Dado que la mayoría de los grandes fabricantes ya participan en su diseño, las empresas que planeen renovar su infraestructura de almacenamiento para IA en el próximo año deben anticipar la llegada de opciones compatibles con STX a través de sus proveedores habituales. Este anuncio subraya un cambio de paradigma: el almacenamiento ya no es un componente subsidiario en la arquitectura de IA, sino un elemento activo y diferenciador cuya optimización es fundamental para desbloquear la productividad completa de los agentes autónomos.



GIPHY App Key not set. Please check settings