TinyLoRA optimiza modelos de IA con solo 13 parámetros y logra 91.8% en GSM8K

En un hito que redefine los límites de la eficiencia en inteligencia artificial, un equipo de científicos ha logrado que un modelo de lenguaje de más de 7.000 millones de parámetros aprenda a resolver problemas matemáticos complejos modificando únicamente 13 de sus conexiones. Este logro, que equivale a ajustar el modelo con apenas 26 bytes de información, demuestra que la capacidad de razonamiento de las máquinas puede mejorarse con una intervención mínima, desafiando paradigmas establecidos en el campo del ajuste fino de modelos.

La técnica, bautizada como TinyLoRA, surge como respuesta a una limitación fundamental de los métodos tradicionales de adaptación, como LoRA (Low-Rank Adaptation). En su forma estándar, LoRA requiere el entrenamiento de millones de parámetros incluso en su configuración más austera, lo que implica un coste computacional y de almacenamiento inasumible para muchas aplicaciones. Para un modelo del tamaño de Llama3-8B, el mínimo indispensable ronda los tres millones de parámetros ajustables. TinyLoRA, en cambio, consigue reducir esta cifra de forma drástica hasta un solo parámetro en escenarios extremos de compartición, gracias a una reformulación matemática que evita las ataduras dimensionales del enfoque clásico.

El secreto reside en una modificación ingeniosa sobre una variante previa llamada LoRA-XS. En lugar de emplear matrices entrenables, TinyLoRA utiliza un vector de baja dimensión que se proyecta a través de un tensor fijo generado aleatoriamente. Este tensor actúa como una lente que amplifica la influencia del vector mínimo, permitiendo que su impacto se distribuya inteligentemente por toda la red. La regla de actualización resultante, que combina la descomposición en valores singulares de los pesos congelados con esta proyección controlada, habilita que decenas o incluso uno solo de estos parámetros puedan reconfigurar el comportamiento del modelo.

Sorprendentemente, la investigación revela que el tipo de entrenamiento empleado es crucial para lograr tal eficiencia. Mientras el ajuste fino supervisado (SFT) necesita actualizaciones entre 100 y 1.000 veces mayores para alcanzar un rendimiento comparable, el aprendizaje por refuerzo (RL), y en particular la técnica Group Relative Policy Optimization (GRPO), proporciona una señal de aprendizaje mucho más densa y limpia. Esto se debe a que los sistemas de recompensa binaria (como acertar o fallar en un problema matemático) filtran el ruido presente en las demostraciones humanas, permitiendo que el modelo se concentre en las características esenciales de la tarea.

Para los desarrolladores que deseen implementar estas microactualizaciones, el estudio establece varias directrices claras. Primero, el rango congelado en la descomposición SVD debe fijarse en un valor óptimo de 2; rangos superiores añaden grados de libertad que entorpecen la optimización de un vector tan reducido. Segundo, la estrategia de «tiling», que comparte parámetros entre módulos de profundidad similar, supera a la compartición estructurada por tipo de capa, demostrando que la proximidad anatómica en la red es más beneficiosa que la identidad funcional. Tercero, en entornos con restricciones de bits, el formato de precisión fp32 resulta más eficiente por bit que los medios fp16 o bf16, contraintuitivamente, debido a su mayor estabilidad numérica durante el entrenamiento.

Los resultados en benchmarks de razonamiento matemático son elocuentes. Sobre el estándar GSM8K, que plantea problemas de aritmética verbal, el modelo Qwen2.5-7B-Instruct base parte de un 88.2% de acierto. Tras ajustar solo 13 parámetros mediante TinyLoRA y RL, su precisión salta al 91.8%, superando incluso el rendimiento de un ajuste fino completo que modifica todos los 7.600 millones de parámetros (91.7%). Este efecto se mantiene en pruebas más exigentes como MATH500 y AIME24, donde una actualización de 196 parámetros retiene el 87% de la mejora absoluta obtenida con el full fine-tuning. Además, los modelos de la familia Qwen2.5 requieren aproximadamente una décima parte de parámetros actualizados que los LLaMA-3 para lograr resultados similares en el marco experimental definido.

Las implicaciones de este trabajo trascienden lo académico. Sugiere que los modelos de lenguaje de última generación son cada vez más «programables» con cantidades ínfimas de datos de ajuste. Este principio, extrapolado a sistemas futuros de escalimiento masivo, apunta a la posibilidad de especializar modelos trillonarios para tareas concretas usando solo un puñado de bytes, lo que revolucionaría la distribución, personalización y despliegue de IA. La combinación de TinyLoRA con aprendizaje por refuerzo emerge como una fórmula poderosa para la eficiencia extrema, abriendo la puerta a adaptaciones rápidas, ligeras y accesibles en dispositivos de recursos limitados, con potenciales aplicaciones en desde asistentes especializados hasta sistemas integrados en industrial o creativos. La era de la personalización masiva de la inteligencia artificial acaba de dar un giro inesperado y fascinante.

TinyLoRA optimiza modelos de IA con solo 13 parámetros y logra 91.8% en GSM8K

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Cegid reúne a 450 profesionales para debatir el impacto de la IA en la gestión del talento

producción en masa en el primer semestre de 2027, chip MediaTek personalizado y 30 millones de unidades proyectadas

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Las declaraciones de Donald Trump tras recibir un disparo.

¿De qué va ‘Los testamentos’?: así es la secuela de ‘El cuento de la criada’, que ya puedes ver en Disney +

primero el Pentágono, luego el resto del mundo

La startup salvadoreña Jobbi apuesta por la IA para escalar los procesos de contratación global • Contxto

La aceleradora Zero by Fifty impulsa startups que convierten ideas en impacto • Contxto

Cloudflare acelera agentes de IA 100 veces con Dynamic Workers sin contenedores

La mirada única de un icono del Antwerp Six redefine la moda

La startup salvadoreña Jobbi apuesta por la IA para escalar los procesos de contratación global • Contxto

La aceleradora Zero by Fifty impulsa startups que convierten ideas en impacto • Contxto

Leap Venture Studio busca startups PetTech para la décima generación de su programa

Horasis vuelve a Latinoamérica y esta vez elige a Medellín para su cumbre global • Contxto

Tutellus impulsa la tokenización para transformar el envío de remesas

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal