El desarrollo de inteligencia artificial en dispositivos móviles está en constante evolución, y las empresas tecnológicas buscan ofrecer modelos de lenguaje cada vez más eficientes y compactos. Recientemente, un equipo de investigadores de Nvidia ha logrado crear el modelo Llama-3.1-Minitron 4B, una versión comprimida del modelo Llama 3 que destaca por su rendimiento excepcional a pesar de su tamaño reducido.
Este logro ha sido posible gracias a avances recientes en técnicas de poda y destilación, que permiten crear modelos de lenguaje más pequeños y eficientes. La poda consiste en eliminar componentes menos relevantes de un modelo, ya sea eliminando capas completas o elementos específicos como neuronas y cabezas de atención. Por otro lado, la destilación es una técnica que transfiere conocimientos y capacidades de un modelo grande a uno más pequeño y simple, conocido como «modelo estudiante».
En investigaciones anteriores, los investigadores de Nvidia demostraron la efectividad de combinar la poda con la destilación de conocimientos para crear modelos más compactos. Inicialmente, partieron del modelo Nemotron 15B y, a través de un proceso de poda y destilación progresiva, lograron reducirlo a un modelo de 4 mil millones de parámetros. Este enfoque resultó en una mejora del 16% en el rendimiento en comparación con entrenar un modelo de 4 mil millones de parámetros desde cero, utilizando 40 veces menos tokens en todo el proceso.
Siguiendo esta línea de trabajo, el equipo de Nvidia aplicó estas técnicas al modelo Llama 3.1 8B para crear una versión de 4 mil millones de parámetros con un rendimiento equiparable a modelos más grandes, pero mucho más eficiente en términos de entrenamiento. Tras un proceso de ajuste del modelo no podado en un extenso conjunto de datos, aplicaron varios tipos de poda y finalmente finetunearon los modelos podados utilizando herramientas especializadas para evaluar su desempeño en diferentes tareas.
Los resultados demostraron que el Llama-3.1-Minitron 4B, a pesar de su tamaño reducido, logra un rendimiento cercano a otros modelos de lenguaje similares. Este avance representa un equilibrio interesante entre los costos de entrenamiento y la eficiencia en la inferencia, y ha sido puesto a disposición del público bajo la Licencia de Modelo Abierto de Nvidia.
Este trabajo destaca la importancia de la comunidad de código abierto en el progreso de la inteligencia artificial, y subraya el valor de las técnicas de poda y destilación en la optimización de modelos de lenguaje a un costo reducido. Estos avances siguen abriendo nuevas posibilidades en el campo de la IA, permitiendo a las empresas personalizar y mejorar sus modelos de manera más efectiva y eficiente.
GIPHY App Key not set. Please check settings