IndexCache, optimizador de atención dispersa, acelera la inferencia en IA de contexto largo

La vorágine de la industria de la moda, impulsada por la digitalización y la hiperpersonalización, depende cada vez más de sistemas de inteligencia artificial avanzados. Desde el análisis de tendencias masivas hasta la creación de diseños generativos y los probadores virtuales, las empresas del sector requieren modelos que puedan procesar contextos extremadamente largos —como historiales completos de clientes, catálogos multimillonarios o complejas secuencias de estilos— con velocidad y eficiencia. Sin embargo, un cuello de botella técnico ha limitado este potencial: la lentitud inherente de la arquitectura de atención estándar en los grandes modelos de lenguaje. Frente a este desafío, una investigación conjunta entre la Universidad Tsinghua y el equipo de Z.ai ha dado a luz una solución bautizada como IndexCache, que promete recortar drásticamente los tiempos de inferencia sin sacrificar la calidad de los resultados, un hallazgo que podría redefinir la operativa de la moda impulsada por datos.

El núcleo del problema radica en el mecanismo de auto-atención (self-attention), el corazón de modelos como GPT o Claude. Este proceso, que calcula la relación entre cada token (palabra o fragmento) y todos los anteriores para predecir el siguiente, tiene una complejidad computacional cuadrática. Esto significa que, al duplicar la longitud del contexto, el coste de cálculo se multiplica por cuatro. Para tareas que exigen ventanas de contexto masivas —piensen en analizar un siglo de archivos de revista, o en gestionar un diálogo extenso con un cliente que detalla sus preferencias de estilo a lo largo de miles de palabras— los tiempos de respuesta se alargan de forma prohibitiva y los costes de infraestructura se disparan.

Una alternativa, la atención dispersa (sparse attention), intenta mitigar esto haciendo que cada «consulta» (query) solo atienda a un subconjunto relevante de tokens, en lugar a todos. Arquitecturas como DeepSeek Sparse Attention (DSA), implementada en modelos de vanguardia como las familias DeepSeek y GLM, han popularizado este enfoque. DSA introduce un módulo ligero de «indexación» en cada capa del modelo, que puntúa y selecciona los tokens más relevantes antes de aplicar la atención pesada. Así, se reduce la complejidad de la operación principal de cuadrática a lineal. No obstante, los investigadores identificaron un lastre oculto: el propio indexador de DSA sigue operando con complejidad cuadrática en cada capa. Aunque es más barato computacionalmente que la atención central, su acumulación a través de las docenas de capas de un modelo, especialmente en la fase de «precarga» (prefill) cuando se ingiere el prompt inicial, genera un «impuesto de indexación» que se vuelve dominante en contextos muy largos, anulando gran parte de las ganancias.

aquí es donde IndexCache despliega su ingenio. El equipo descubrió una propiedad fundamental: el subconjunto de tokens que cada indexador de DSA elige como importante es extraordinariamente estable entre capas contiguas. En pruebas empíricas, capas adyacentes compartían entre el 70% y el 100% de los tokens seleccionados. Esta redundancia cross-layer es la llave. La técnica partitiona las capas del modelo en dos grupos: un pequeño número de capas completas (F) que mantienen su indexador activo, calculando y cacheando los índices de tokens seleccionados; y el resto, capas compartidas (S), que omiten por completo el cálculo de indexación y reutilizanSimply los índices cacheados por la capa F más cercana que las precede. Durante la inferencia, el modelo simplemente verifica el tipo de capa: si es F, calcula y almacena nuevos índices; si es S, copia los datos cacheados. Este esquema elimina la gran mayoría de las operaciones cuadráticas de indexación redundantes.

La belleza de IndexCache radica en que no es una técnica de compresión de la memoria de atención (KV cache), sino que ataca directamente el cuello de botella computacional. Es complementaria a esas otras optimizaciones y puede combinarse con ellas. Los investigadores han desarrollado dos vías de implementación. Para equipos que utilizan modelos DSA preentrenados (como los últimos DeepSeek o GLM) y no pueden o no desean reentrenar, propone un método sin entrenamiento basado en un algoritmo de «selección greedí de capas». Al procesar un pequeño conjunto de calibración (datos representativos del dominio), este algoritmo descubre automáticamente la combinación óptima de capas F y S. Los experimentos demuestran que se puede eliminar de forma segura el 75% de los indexadores manteniendo el rendimiento original del modelo. Para equipos que estén pre-entrenando o afinando masivamente sus propios modelos, existe una versión consciente del entrenamiento que introduce una «pérdida de destilación multi-capas», forzando a los indexadores retenidos a aprender a seleccionar un consenso de tokens que sea útil para todas las capas subsecuentes que atenderán.

Los resultados en modelos de producción son contundentes. Sobre el modelo GLM-4.7 Flash de 30.000 millones de parámetros, con un contexto de 200.000 tokens, la eliminación del 75% de indexadores redujo la latencia de precarga (el tiempo hasta el primer token generado) de 19.5 segundos a 10.7 segundos, una mejora de 1.82 veces. En la fase de decodificación (generación de tokens), el rendimiento por petición saltó de 58 a 86 tokens por segundo (1.48 veces), y cuando el servidor está saturado de peticiones, el caudal total de decodificación aumentó hasta un 51%. ¿El coste? Prácticamente nulo en términos de capacidad de razonamiento. En benchmarks de largo contexto, el modelo optimizado igualó la puntuación media del original (49.9 vs 50.2). Sorprendentemente, en el desafiante benchmark de razonamiento matemático AIME 2025, el modelo optimizado superó al base (92.6 vs 91.0). En el coloso GLM-5 de 744.000 millones de parámetros, la técnica sin entrenamiento ya mostró una aceleración de al menos 1.3 veces en contextos superiores a 100.000 tokens, con una calidad casi idéntica.

Desde una perspectiva de negocio, estas ganancias de eficiencia se traducen en ahorros de coste de infraestructura y una drástica mejora de la experiencia de usuario, especialmente en cargas de trabajo de contexto largo como los sistemas de recuperación aumentada (RAG), el análisis de documentos o los flujos de trabajo de agentes autónomos. Según Yushi Bai, coautor del estudio, «en estos escenarios observamos una reducción de aproximadamente el 20% en los costes de despliegue y mejoras similares en la latencia percibida. Para tareas de contexto corto, los beneficios rondan el 5%».

La implementación práctica ya está al alcance de los equipos de desarrollo. El algoritmo de selección greedí es robusto, pero su éxito depende de la calidad del conjunto de calibración, por lo que se recomienda encarecidamente usar datos específicos del dominio de la moda —como descripciones de prendas, interacciones de clientes o historiales de compras— para que el patrón de compartición de capas se alinee con las cargas reales. Los parches de código necessary ya están disponibles en GitHub para motores de inferencia populares como vLLM o SGLang, permitiendo una integración con cambios mínimos de configuración.

Este avance no es solo un parche técnico; señala un cambio de paradigma en el diseño de modelos fundacionales. Como señala Bai, «los modelos fundacionales futuros probablemente se arquitecturarán teniendo en cuenta las limitaciones de inferencia en el mundo real desde el principio». Es decir, la eficiencia en velocidad, latencia y consumo no será una preocupación posterior, sino un requisito de diseño nuclear. Para una industria como la de la moda, donde la inmediatez y la personalización a escala son armas competitivas, tecnologías como IndexCache dejan de ser un detalle técnico para convertirse en un catalizador estratégico, acercando el momento en que la IA pueda anticipar tendencias, diseñar colecciones o vestirte virtualmente con la fluidez de un humano… pero a la velocidad de la luz.

IndexCache, optimizador de atención dispersa, acelera la inferencia en IA de contexto largo

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

La última locura de Meta con la IA: clonar a Mark Zuckerberg para que sus empleados lo usen

Los 7 nuevos superhéroes de ‘The Boys’, ordenados por escala de poder

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Las declaraciones de Donald Trump tras recibir un disparo.

¿De qué va ‘Los testamentos’?: así es la secuela de ‘El cuento de la criada’, que ya puedes ver en Disney +

primero el Pentágono, luego el resto del mundo

Unicornio colombiano Habi adquiere a la mexicana Pulppo • Contxto

DeepL suma lenguas cooficiales en España

El juego de lucha ‘The Avatar’ llega el 2 de julio a PC y consolas

Niecy Nash-Betts eleva su estilo con sandalias Louboutin espejadas de plataforma

Unicornio colombiano Habi adquiere a la mexicana Pulppo • Contxto

DeepL suma lenguas cooficiales en España

La mexicana Leracom AI recauda 1 millón de dólares para impulsar el desarrollo de su producto a través de IA • Contxto

Kaszek lidera Serie B de tapi por 27 millones de dólares para fortalecer su infraestructura de pagos

Fintech ecuatoriana Jelou levanta 10 millones de dólares en Serie A para escalar su plataforma de pagos en WhatsApp

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal