Meta lanza su modelo de IA más poderoso, Llama 3.1
Después de meses de anticipación y una supuesta filtración ayer, Meta lanzó oficialmente hoy la versión más grande de su modelo de lenguaje grande de código abierto Llama (LLM), una versión de 405 mil millones de parámetros llamada Llama-3.1.
Los parámetros, como recordarán, son los ajustes que rigen cómo se comporta un LLM y se aprenden a partir de sus datos de entrenamiento, siendo que más parámetros generalmente denotan modelos más potentes que idealmente pueden manejar instrucciones más complejas y, con suerte, ser más precisos que modelos con menos parámetros.
Llama 3.1 es una actualización de Llama 3 introducida en abril de 2024, pero que hasta ahora solo estaba disponible en versiones de 8 mil millones y 70 mil millones.
Ahora, la versión de 405 mil millones de parámetros puede «enseñar» a modelos más pequeños y crear datos sintéticos. Llama 3.1 operará bajo una licencia de código abierto personalizada para permitir la destilación del modelo y la creación de datos sintéticos.
«Este modelo, desde una perspectiva de rendimiento, va a ofrecer un rendimiento que está a la vanguardia en lo que respecta a modelos de código abierto, y va a ser increíblemente competitivo con muchos de los modelos propietarios líderes en la industria», dijo Ragavan Srinivasan, vicepresidente de Gestión de Programas de IA en Meta, en una entrevista con VentureBeat.
Llama 3.1 será multilingüe en su lanzamiento y admitirá instrucciones en inglés, portugués, español, italiano, alemán, francés, hindi y tailandés. Los modelos más pequeños de Llama 3 también se volverán multilingües a partir de hoy.
La ventana de contexto de Llama 3.1 se ha ampliado a 128,000 tokens, lo que significa que los usuarios pueden alimentarlo con tanto texto como el que cabe en una novela de casi 400 páginas.
Pruebas de referencia
Meta dijo en una publicación en su blog que probó Llama 3.1 en más de 150 conjuntos de datos de referencia y realizó evaluaciones guiadas por humanos para escenarios del mundo real. Dijo que el modelo de 405B «es competitivo con los principales modelos fundacionales en una variedad de tareas, incluidos GPT-4, GPT-4o y Claude 3.5 Sonnet. Los modelos de tamaño más pequeño también tuvieron un desempeño similar.
La familia de modelos Llama se convirtió en una opción popular para muchos desarrolladores que podían acceder al modelo en varias plataformas. Meta dijo que Llama 3 podría superar o estar a la par con modelos rivales en diferentes pruebas. Se desempeña bien con preguntas de opción múltiple y programación contra Gemma y Gemini de Google, Claude 3 Sonnet de Anthropic y 7B Instruct de Mistral.
Modelo didáctico
Meta también actualizó la licencia de todos sus modelos para permitir la destilación del modelo y la creación de datos sintéticos. La destilación del modelo, o destilación del conocimiento, permite a los usuarios transferir conocimiento o entrenamiento de un modelo de IA más grande a uno más pequeño.
Srinivasan llamó a la versión de 405B un «modelo didáctico», capaz de transf…
– por ejemplo, en vez de decir «según CNN», escribe algo más neutro, por ejemplo «según medios de comunicación americanos».
GIPHY App Key not set. Please check settings