in

Nvidia reducedrásticamente la memoria de los LLM un 20% sin modificar sus pesos.

Nvidia logra una revolución en eficiencia de IA: reduce hasta 20 veces la memoria necesaria para los grandes modelos de lenguaje sin alterar su estructura

En un avance que promete redefinir la escalabilidad de la inteligencia artificial, investigadores de Nvidia han presentado una innovadora técnica que permite comprimir de forma drástica la memoria requerida por los grandes modelos de lenguaje (LLM, por sus siglas en inglés) durante conversaciones multirronda, sin necesidad de modificar los pesos del modelo original. El método, denominado KV Cache Transform Coding (KVTC), toma prestados conceptos fundamentales de la compresión de medios, como los utilizados en el formato JPEG, para abordar un cuello de botella crítico en la implementación a gran escala de sistemas de IA conversacionales y agentes autónomos.

El problema central radica en el denominado caché de claves-valores (KV cache), un componente esencial que almacena las representaciones numéricas ocultas de cada token procesado en una conversación. Este mecanismo evita que el modelo deba recomputar desde cero todo el historial con cada nueva interacción del usuario, pero su tamaño crece de manera exponencial con la longitud del contexto. Para aplicaciones empresariales que dependen de asistentes de codificación, agentes con razonamiento complejo o sistemas de recuperación aumentada (RAG), este caché puede consumir múltiples gigabytes de memoria de GPU, convirtiéndose en el principal factor limitante para el rendimiento del sistema y disparando los costes operativos.

Hasta ahora, las soluciones paraMitigar este problema presentaban compromisos significativos. Los métodos de evicción de tokens (como H2O o TOVA) descartan partes del contexto, perdiendo información crítica. Las técnicas de cuantización intensiva (KIVI, GEAR) o sparsificación a menudo introducían pérdidas de precisión inaceptables o requerían alteraciones permanentes en el modelo. Incluso las estrategias de descarga a almacenamiento inferior (memoria CPU o SSD) generaban una enorme sobrecarga de transferencia de datos. La clave del nuevo enfoque, KVTC, reside en explotar la estructura inherentemente de bajo rango que poseen los tensores del caché de KV, una característica que anteriores intentos no aprovecharon de forma integral.

El funcionamiento de KVTC se articula en tres fases principales, diseñadas para ejecutarse entre fases de inferencia y no impactar en la velocidad de generación de tokens. Primero, mediante un análisis de componentes principales (PCA), se alinean y organizan las características del caché según su relevancia. Este cálculo de alineación se realiza una sola vez por modelo durante una fase de calibración offline, lo que elimina cualquier carga computacional adicional durante el servicio en tiempo real. Posteriormente, un algoritmo de programación dinámica asigna un presupuesto de bits específico a cada dimensión de los datos: los componentes principales más cruciales reciben alta precisión, mientras que los menos relevantes se comprimen agresivamente o se descartan directamente. Finalmente, los datos optimizados y cuantizados se empaquetan en un array de bytes y se someten a un codificador de entropía (DEFLATE), un proceso que se acelera ejecutándose en paralelo sobre la GPU utilizando la biblioteca nvCOMP de Nvidia.

Los resultados de las pruebas, realizadas sobre una amplia gama de modelos que incluyen la familia Llama 3, Mistral NeMo y los modelos de razonamiento Qwen 2.5 (desde 1.5B hasta 70B de parámetros), son concluyentes. Con una ratio de compresión efectiva del 20x, KVTC mantuvo la precisión del modelo original dentro de un margen de menos de un punto porcentual en la mayoría de las tareas de evaluación, que incluyeron benchmarks matemáticos (MATH-500), de codificación (LiveCodeBench) y de recuperación de contexto largo («Needle In A Haystack»). Incluso al forzar la compresión hasta 32x y 64x, la técnica demostró una notable robustez. En contraste, métodos populares como KIVI y GEAR comenzaron a sufrir degradaciones masivas con apenas una compresión de 5x, especialmente en tareas de contexto extenso, mientras que los métodos de evicción simples fracasaron estrepitosamente en la recuperación de información profunda.

Para un caso práctico, un modelo de razonamiento pequeño como Qwen 2.5 1.5B, destinado a un asistente de codificación, reduce su huella de memoria de 29 KB por token a aproximadamente 3.2 KB por token con una configuración de 8x de compresión, con una caída en la precisión de apenas el 0.3%.

La implementación práctica de KVTC está diseñada para ser no intrusiva: no requiere cambios en los pesos del modelo ni en el código de inferencia, operando como una capa cercana al transporte de datos. Se espera que una implementación optimizada se integre pronto en el KV Block Manager (KVBM) del framework Dynamo, making it compatible con motores de inferencia de código abierto ampliamente adoptados como vLLM.

El impacto en la experiencia del usuario es tangible. El tiempo hasta el primer token (TTFT), métrica crítica para la latencia percibida, se reduce de forma espectacular. En una prueba con un prompt de 8,000 tokens en un modelo de 12B sobre una GPU H100, el tiempo de recomputación desde cero ronda los 3 segundos, mientras que la descompresión del caché KVTC se completa en unos 380 milisegundos, logrando una reducción de latencia de hasta 8 veces.

Desde un punto de vista de arquitectura, KVTC es teóricamente complementario a otras técnicas de gestión de memoria, como el Dynamic Memory Sparsification (DMS) de Nvidia, que descarta tokens menos importantes en el eje temporal. Mientras DMS actúa sobre qué tokens retener, KVTC comprime la información de cada posición retenida. No obstante, los investigadores señalan que la sinergia entre ambas técnicas aún debe ser evaluada en profundidad.

La visión a futuro es clara: a medida que los modelos nativos amplían sus ventanas de contexto a millones de tokens, la necesidad de una gestión de memoria robusta se vuelve imperiosa. La probabilidad de que emerja una capa de compresión de caché de KV estandarizada y transparente, análoga a la compresión de video en el streaming actual, es alta. Este trabajo de Nvidia no solo ofrece una solución técnica viable para el presente, sino que sienta las bases para una infraestructura de IA más eficiente y sostenible en costes, democratizando el acceso a sistemas conversacionales avanzados y complejos.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Peter Davidson se consolida como embajador de Crocs al mantener su esencia auténtica.

El mercado europeo rechaza los productos de estilo de vida atlético