in

TinyLoRA optimiza modelos de IA con solo 13 parámetros y logra 91.8% en GSM8K

En un hito que redefine los límites de la eficiencia en inteligencia artificial, un equipo de científicos ha logrado que un modelo de lenguaje de más de 7.000 millones de parámetros aprenda a resolver problemas matemáticos complejos modificando únicamente 13 de sus conexiones. Este logro, que equivale a ajustar el modelo con apenas 26 bytes de información, demuestra que la capacidad de razonamiento de las máquinas puede mejorarse con una intervención mínima, desafiando paradigmas establecidos en el campo del ajuste fino de modelos.

La técnica, bautizada como TinyLoRA, surge como respuesta a una limitación fundamental de los métodos tradicionales de adaptación, como LoRA (Low-Rank Adaptation). En su forma estándar, LoRA requiere el entrenamiento de millones de parámetros incluso en su configuración más austera, lo que implica un coste computacional y de almacenamiento inasumible para muchas aplicaciones. Para un modelo del tamaño de Llama3-8B, el mínimo indispensable ronda los tres millones de parámetros ajustables. TinyLoRA, en cambio, consigue reducir esta cifra de forma drástica hasta un solo parámetro en escenarios extremos de compartición, gracias a una reformulación matemática que evita las ataduras dimensionales del enfoque clásico.

El secreto reside en una modificación ingeniosa sobre una variante previa llamada LoRA-XS. En lugar de emplear matrices entrenables, TinyLoRA utiliza un vector de baja dimensión que se proyecta a través de un tensor fijo generado aleatoriamente. Este tensor actúa como una lente que amplifica la influencia del vector mínimo, permitiendo que su impacto se distribuya inteligentemente por toda la red. La regla de actualización resultante, que combina la descomposición en valores singulares de los pesos congelados con esta proyección controlada, habilita que decenas o incluso uno solo de estos parámetros puedan reconfigurar el comportamiento del modelo.

Sorprendentemente, la investigación revela que el tipo de entrenamiento empleado es crucial para lograr tal eficiencia. Mientras el ajuste fino supervisado (SFT) necesita actualizaciones entre 100 y 1.000 veces mayores para alcanzar un rendimiento comparable, el aprendizaje por refuerzo (RL), y en particular la técnica Group Relative Policy Optimization (GRPO), proporciona una señal de aprendizaje mucho más densa y limpia. Esto se debe a que los sistemas de recompensa binaria (como acertar o fallar en un problema matemático) filtran el ruido presente en las demostraciones humanas, permitiendo que el modelo se concentre en las características esenciales de la tarea.

Para los desarrolladores que deseen implementar estas microactualizaciones, el estudio establece varias directrices claras. Primero, el rango congelado en la descomposición SVD debe fijarse en un valor óptimo de 2; rangos superiores añaden grados de libertad que entorpecen la optimización de un vector tan reducido. Segundo, la estrategia de «tiling», que comparte parámetros entre módulos de profundidad similar, supera a la compartición estructurada por tipo de capa, demostrando que la proximidad anatómica en la red es más beneficiosa que la identidad funcional. Tercero, en entornos con restricciones de bits, el formato de precisión fp32 resulta más eficiente por bit que los medios fp16 o bf16, contraintuitivamente, debido a su mayor estabilidad numérica durante el entrenamiento.

Los resultados en benchmarks de razonamiento matemático son elocuentes. Sobre el estándar GSM8K, que plantea problemas de aritmética verbal, el modelo Qwen2.5-7B-Instruct base parte de un 88.2% de acierto. Tras ajustar solo 13 parámetros mediante TinyLoRA y RL, su precisión salta al 91.8%, superando incluso el rendimiento de un ajuste fino completo que modifica todos los 7.600 millones de parámetros (91.7%). Este efecto se mantiene en pruebas más exigentes como MATH500 y AIME24, donde una actualización de 196 parámetros retiene el 87% de la mejora absoluta obtenida con el full fine-tuning. Además, los modelos de la familia Qwen2.5 requieren aproximadamente una décima parte de parámetros actualizados que los LLaMA-3 para lograr resultados similares en el marco experimental definido.

Las implicaciones de este trabajo trascienden lo académico. Sugiere que los modelos de lenguaje de última generación son cada vez más «programables» con cantidades ínfimas de datos de ajuste. Este principio, extrapolado a sistemas futuros de escalimiento masivo, apunta a la posibilidad de especializar modelos trillonarios para tareas concretas usando solo un puñado de bytes, lo que revolucionaría la distribución, personalización y despliegue de IA. La combinación de TinyLoRA con aprendizaje por refuerzo emerge como una fórmula poderosa para la eficiencia extrema, abriendo la puerta a adaptaciones rápidas, ligeras y accesibles en dispositivos de recursos limitados, con potenciales aplicaciones en desde asistentes especializados hasta sistemas integrados en industrial o creativos. La era de la personalización masiva de la inteligencia artificial acaba de dar un giro inesperado y fascinante.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Cloudflare acelera agentes de IA 100 veces con Dynamic Workers sin contenedores

La mirada única de un icono del Antwerp Six redefine la moda