Apple demuestra su potencia en IA abierta: nuevos modelos superan a Mistral y Hugging Face
La empresa Apple ha ampliado su familia de modelos pequeños en un movimiento que ha llamado la atención del mundo sobre el rendimiento del nuevo GPT-4o-mini. El equipo de investigación de Apple, como parte del proyecto DataComp for Language Models, lanzó recientemente una nueva familia de modelos DCLM abiertos en la plataforma Hugging Face.
Estos modelos incluyen dos variantes principales: una con 7 mil millones de parámetros y otra con 1.4 mil millones de parámetros. Ambos modelos han mostrado un desempeño notable en las pruebas, destacándose especialmente el modelo más grande, que ha superado a Mistral-7B y se acerca a otros modelos abiertos líderes como Llama 3 y Gemma.
Vaishaal Shankar, del equipo de aprendizaje automático de Apple, ha descrito estos modelos como los mejores en su categoría de código abierto. Es importante destacar que el proyecto se ha convertido realmente en código abierto con la liberación de los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento.
El equipo multidisciplinario liderado por Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación de Toyota ha trabajado en el proyecto DataComp con el objetivo de diseñar conjuntos de datos de alta calidad para entrenar modelos de IA, especialmente en el dominio multimodal. La projecto busca utilizar un marco estandarizado con arquitecturas de modelo fijas, códigos de entrenamiento, hiperparámetros y evaluaciones específicas para determinar cuál estrategia de curación de datos funciona mejor para entrenar un modelo altamente efectivo.
Los experimentos realizados en el proyecto llevaron al equipo a descubrir que la filtración basada en modelos, donde los modelos de aprendizaje automático seleccionan automáticamente datos de alta calidad en grandes conjuntos de datos, puede ser fundamental para reunir un conjunto de entrenamiento de alta calidad. Para demostrar la eficacia de esta técnica de curación, el conjunto de datos resultante, DCLM-Baseline, se utilizó para entrenar los nuevos modelos de lenguaje en inglés de decodificador solo DCLM con 7 mil millones y 1.4 mil millones de parámetros desde cero.
El modelo de 7 mil millones, entrenado en 2.5 billones de tokens utilizando recetas de preentrenamiento basadas en el framework OpenLM, tiene una ventana de contexto de 2K y ofrece una precisión del 63.7% en 5 disparos en MMLU. Según los investigadores, esto representa una mejora de 6.6 puntos porcentuales en la referencia en comparación con MAP-Neo, el estado del arte anterior en la categoría de modelos de lenguaje de datos abiertos, y todo esto utilizando un 40% menos de cómputo para el entrenamiento.
El rendimiento del modelo en benchmarks Core y Extended (promedio de docenas de tareas diferentes, incluyendo HellaSwag y ARC-E) mejoró aún más cuando los investigadores extendieron su longitud de contexto a 8K al realizar 100 mil millones de entrenamiento adicional en el mismo conjunto de datos, utilizando la técnica de descomposición de conjuntos de datos. El resultado en MMLU, sin embargo, permaneció invariable.
Así, Apple ha lanzado un modelo LLM de código abierto con 7 mil millones de parámetros, pesos del modelo, código de entrenamiento y conjunto de datos incluidos. Por otro lado, la versión más pequeña, con 1.4 mil millones de parámetros, ha sido lanzada bajo la licencia Apache 2.0, lo que permite su uso comercial, distribución y modificación. Se destaca también que hay una versión del modelo de 7 mil millones de parámetros ajustada para instrucciones en la biblioteca de Hugging Face.
En resumen, este estudio resalta la importancia del diseño de conjunto de datos para el entrenamiento de modelos de lenguaje y sirve como punto de partida para futuras investigaciones sobre la curación de datos. Cabe mencionar que estos modelos son parte de una investigación temprana y no están destinados a dispositivos de Apple, pudiendo presentar ciertos sesgos provenientes de los datos de entrenamiento o generar respuestas perjudiciales.
GIPHY App Key not set. Please check settings