Compactación de caché KV reduce memoria de LLMs 50 veces sin perder precisión

La revolución de la inteligencia artificial en el diseño y la gestión de la moda encuentra un obstáculo inesperado: la memoria. Aplicaciones empresariales que analizan miles de catálogos, mantienen diálogos personalizados con clientes o procesan historiales de compras complejas se topan con un cuello de botella técnico que limita su escalabilidad y eficiencia. Ahora, una investigación pionera del MIT propone una solución que podría desbloquear un nuevo nivel de sofisticación en las herramientas de IA para el sector, permitiendo manejar volúmenes masivos de información sin sacrificar precisión ni incrementar costes de forma desproporcionada.

El corazón del problema reside en la arquitectura de los modelos de lenguaje modernos. Cuando interactúan, generan sus respuestas token a token, conserving una representación matemática de todo lo procesado hasta el momento en un área conocida como caché de claves y valores (KV cache). Esta memoria de trabajo crece linealmente con la extensión del contexto, consumiendo recursos de hardware costosos. En casos de uso reales, como el análisis de contratos legales extensos, la gestión de conversaciones cliente-marca de largo recorrido o la asistencia en procesos de diseño sostenible que requieren cruzar bases de datos históricas, esta memoria puede alcanzar varios gigabytes por solicitud. Los métodos actuales, como la eliminación de tokens considerados menos relevantes o la creación de resúmenes, fallan cuando se necesita una compresión extrema: su calidad se degrada rápidamente o pierden información crítica, especialmente en tareas con alta densidad informativa como el análisis de registros médicos o de especificaciones técnicas de materiales.

Frente a este panorama, la técnica bautizada como «Atención Coherente» (Attention Matching) emerge como un enfoque radicalmente eficiente. Su novedad radica en no depender de procesos de optimización costosos en tiempo y recursos computacionales. En su lugar, sus creadores identificaron que la clave para comprimir la memoria sin alterar el comportamiento del modelo reside en preservar dos propiedades matemáticas esenciales durante la reducción: la «salida de atención», que es la información efectiva que el modelo extrae al consultar su memoria, y la «masa de atención», que representa el peso relativo de cada token dentro del contexto global. Si una versión compactada replica fielmente estas dos characteristics, el modelo operará como si estuviera accediendo a la memoria original, incluso ante consultas nuevas e impredecibles.

El proceso se articula en dos fases. Primero, el sistema genera un conjunto de «consultas de referencia» que simulan el tipo de búsquedas internas que realizará el modelo sobre ese contexto específico. Estas consultas pueden crearse, por ejemplo, pidiendo al modelo que repita el texto procesado o que realice tareas sintéticas como extraer hechos clave o estructurar datos en formatosJSON. Segundo, utilizando estas consultas, el algoritmo selecciona un subconjunto reducido de claves originales para conservar en la memoria compactada. Luego, calcula los valores de los tokens eliminados y un término de sesgo escalar que garantiza que la información relevante se preserve, permitiendo que cada clave retenida «represente» la masa de muchas claves descartadas. Esta formulación permite ajustar los valores mediante técnicas algebraicas simples, como mínimos cuadrados ordinarios, evitando por completo la lenta optimización basada en gradientes que requieren horas de procesamiento en GPUs de alto coste. Adicionalmente, el método aplica una compactación por fragmentos, procesando secciones contiguas del texto de forma independiente para acelerar aún más el trabajo con contextos ultra largos.

La validación de esta aproximación se realizó sobre modelos de código abierto de referencia como Llama 3.1 y Qwen-3, utilizando dos tipos de datasets que simulan retos empresariales. El primero, QuALITY, es un benchmark de comprensión lectora con documentos de entre 5.000 y 8.000 palabras. El segundo, LongHealth, representa un desafío extremo: un conjunto de 60.000 tokens con historiales médicos densos y complejos de múltiples pacientes. Los resultados fueron contundentes: la Atención Coherente logró compactar la caché KV hasta 50 veces sin pérdida measurable de precisión, y en apenas segundos de procesamiento. Para alcanzar un nivel de calidad comparable, la técnica anterior puntera (Cartridges) necesitaba horas de cómputo intensivo por contexto. En el escenario de registros médicos, donde la densidad informativa es máxima, los métodos de resumen convencionales colapsaron, reduciendo la precisión del modelo a un nivel equiparable al de no disponer de contexto alguno. La Atención Coherente, en cambio, superó ampliamente esos límites.

No obstante, los investigadores matizan que el ratio de compactación óptimo depende de la naturaleza de la tarea. Para documentos densos, un ratio extremo de 50x puede requerir un ajuste a la baja para mantener una alta fidelidad. Donde la precisión absoluta no es primordial y el ahorro de memoria es crítico, la técnica puede combinarse con un resumen previo, alcanzando compresiones de hasta 200 veces y equiparando la exactitud del resumen solo, pero con una huella de memoria ínfima. Un experimento conceptual particularmente revelador probó la «compactación en línea»: durante la resolución de problemas de razonamiento matemático avanzado (AIME), cada vez que la memoria se llenaba, el sistema la comprimía instantáneamente un 50% y proseguía. El modelo pudo completar los problemas incluso después de sufrir seis compresiones consecutivas «en pleno pensamiento», empatando el rendimiento de un modelo con memoria ilimitada.

Existen advertencias importantes. Si se empuja la compresión a ratios de 100x en datos de extrema complejidad, el método más lento basado en gradientes (Cartridges) recupera ventaja. Asimismo, la implementación práctica no es hoy un simple «parche» de software. Requiere acceso a los pesos del modelo, por lo que es aplicable principalmente a modelos de código abierto, y su integración en motores de inferencia comerciales optimizados demandará una importante labor de ingeniería. Sin embargo, los autores vislumbran casos de uso inmediato, como la compactación tras la ingestión de datos: grandes salidas de herramientas o documentos extensos podrían comprimirse justo después de ser procesados, facilitando su almacenamiento y consulta posterior.

Esta evolución tecnológica resonará con fuerza en la cadena de valor de la moda. Empresas de diseño que analicen décadas de archivos visuales y textuales, plataformas de comercio electrónico que personalicen recomendaciones basándose en historiales interactivos extensos, o herramientas de simulación de tejidos que crucen propiedades físicas y de sostenibilidad, podrían verse transformadas. La técnica promete democratizar el uso de modelos de lenguaje grandes en tareas que hoy son prohibitivas por coste de infraestructura, acelerando la innovación en diseño generativo, optimización de inventarios y experiencias de cliente hiperpersonalizadas. Como señalan los investigadores, la industria está virando hacia una compactación «nativa» integrada en los propios modelos, un camino que ya recorren grandes proveedores de IA. El futuro de la inteligencia artificial en la moda podría estar menos en acumular datos sin fin y más en saber conservar, de forma ultrarrápida y eficiente, su esencia más valiosa.

Compactación de caché KV reduce memoria de LLMs 50 veces sin perder precisión

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

La última locura de Meta con la IA: clonar a Mark Zuckerberg para que sus empleados lo usen

Los 7 nuevos superhéroes de ‘The Boys’, ordenados por escala de poder

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Las declaraciones de Donald Trump tras recibir un disparo.

Increíble hazaña: crean anuncio complejo en menos de un día utilizando inteligencia artificial de Runway

Críticos analizan el impacto y méritos de ‘Wicked: For Good’ en la cultura musical

‘Michael’ (★★½☆☆), un retrato edulcorado de la estrella solo para los fans más complacientes

Sánchez, a Feijóo: El pacto extremeño PP-Vox da una «patada a la Constitución» al «violar» el principio de igualdad

Queen Latifah confirma que está viva y revela la historia completa del rumor.

Genesco CEO impulsa estrategia ‘Primero el Calzado’ hacia 2027

Sánchez, a Feijóo: El pacto extremeño PP-Vox da una «patada a la Constitución» al «violar» el principio de igualdad

Varios países de la UE se suman a imponer sanciones contra Israel pero Alemania e Italia lo rechazan

Hidalgo niega haber dado 500.000 euros a Ábalos por el préstamo a Air Europa ni que tuviera influencia Begoña Gómez

El nominado de Trump para dirigir la Reserva Federal niega que vaya a ser «un títere» del presidente – Economía

No es la estrategia: es la disciplina con la que ejecutas lo que define tu crecimiento

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal